use new mode AnyQuantizedNonFused during MP

reuvenp · reuvenp · commit af228db2e38a · 2025-05-05T18:27:29.000+03:00
diff --git a/model_compression_toolkit/core/common/mixed_precision/mixed_precision_ru_helper.py b/model_compression_toolkit/core/common/mixed_precision/mixed_precision_ru_helper.py
@@ -51,7 +51,7 @@ def compute_utilization(self, ru_targets: Set[RUTarget], mp_cfg: Dict[BaseNode,
         """
         act_qcs, w_qcs = self.get_quantization_candidates(mp_cfg)
 
-        ru, detailed_ru = self.ru_calculator.compute_resource_utilization(TargetInclusionCriterion.AnyQuantized,
+        ru, detailed_ru = self.ru_calculator.compute_resource_utilization(TargetInclusionCriterion.AnyQuantizedNonFused,
                                                                           BitwidthMode.QCustom,
                                                                           act_qcs=act_qcs,
                                                                           w_qcs=w_qcs,
diff --git a/model_compression_toolkit/core/common/mixed_precision/mixed_precision_search_manager.py b/model_compression_toolkit/core/common/mixed_precision/mixed_precision_search_manager.py
@@ -295,9 +295,12 @@ def compute_resource_utilization_for_config(self, config: Dict[BaseNode, int]) -
 
         """
         act_qcs, w_qcs = self.ru_helper.get_quantization_candidates(config)
-        ru = self.ru_helper.ru_calculator.compute_resource_utilization(
-            target_criterion=TargetInclusionCriterion.AnyQuantized, bitwidth_mode=BitwidthMode.QCustom, act_qcs=act_qcs,
-            w_qcs=w_qcs, ru_targets=self.ru_targets, allow_unused_qcs=True)
+        ru = self.ru_helper.ru_calculator.compute_resource_utilization(target_criterion=TargetInclusionCriterion.AnyQuantizedNonFused,
+                                                                       bitwidth_mode=BitwidthMode.QCustom,
+                                                                       act_qcs=act_qcs,
+                                                                       w_qcs=w_qcs,
+                                                                       ru_targets=self.ru_targets,
+                                                                       allow_unused_qcs=True)
         return ru
 
     def _finalize_distance_metric(self, layer_to_metrics_mapping: Dict[BaseNode, List[float]]):
diff --git a/model_compression_toolkit/core/common/mixed_precision/resource_utilization_tools/resource_utilization_data.py b/model_compression_toolkit/core/common/mixed_precision/resource_utilization_tools/resource_utilization_data.py
@@ -63,4 +63,4 @@ def compute_resource_utilization_data(in_model: Any,
                                                  running_gptq=False)
 
     ru_calculator = ResourceUtilizationCalculator(transformed_graph, fw_impl, fw_info)
-    return ru_calculator.compute_resource_utilization(TargetInclusionCriterion.AnyQuantized, BitwidthMode.QDefaultSP)
+    return ru_calculator.compute_resource_utilization(TargetInclusionCriterion.AnyQuantizedNonFused, BitwidthMode.QDefaultSP)
diff --git a/model_compression_toolkit/core/runner.py b/model_compression_toolkit/core/runner.py
@@ -220,7 +220,7 @@ def _set_final_resource_utilization(graph: Graph,
         ru_calculator = ResourceUtilizationCalculator(graph, fw_impl, fw_info)
         w_qcs = {n.name: n.final_weights_quantization_cfg for n in graph.nodes}
         a_qcs = {n.name: n.final_activation_quantization_cfg for n in graph.nodes}
-        final_ru = ru_calculator.compute_resource_utilization(TargetInclusionCriterion.AnyQuantized,
+        final_ru = ru_calculator.compute_resource_utilization(TargetInclusionCriterion.AnyQuantizedNonFused,
                                                               BitwidthMode.QCustom, act_qcs=a_qcs, w_qcs=w_qcs,
                                                               ru_targets=ru_targets, allow_unused_qcs=True)
         summary = final_ru.get_summary_str(restricted=True)