paddle/fluid/pybind/inference_api.cc add onednn [fluid_ops] (#74436)

co63oc · web-flow · commit 2cc3e040e505 · 2025-08-07T12:08:00.000+08:00
diff --git a/paddle/fluid/pybind/inference_api.cc b/paddle/fluid/pybind/inference_api.cc
@@ -1050,26 +1050,35 @@ void BindAnalysisConfig(py::module *m) {
            &AnalysisConfig::SwitchIrDebug,
            py::arg("x") = true,
            py::arg("passes") = std::vector<std::string>())
-      .def("enable_mkldnn", &AnalysisConfig::EnableONEDNN)
-      .def("disable_mkldnn", &AnalysisConfig::DisableONEDNN)
-      .def("mkldnn_enabled", &AnalysisConfig::onednn_enabled)
+      .def("enable_mkldnn", &AnalysisConfig::EnableONEDNN)     // deprecated
+      .def("disable_mkldnn", &AnalysisConfig::DisableONEDNN)   // deprecated
+      .def("mkldnn_enabled", &AnalysisConfig::onednn_enabled)  // deprecated
+      .def("enable_onednn", &AnalysisConfig::EnableONEDNN)
+      .def("disable_onednn", &AnalysisConfig::DisableONEDNN)
+      .def("onednn_enabled", &AnalysisConfig::onednn_enabled)
       .def("enable_cinn", &AnalysisConfig::EnableCINN)
       .def("set_cpu_math_library_num_threads",
            &AnalysisConfig::SetCpuMathLibraryNumThreads)
       .def("cpu_math_library_num_threads",
            &AnalysisConfig::cpu_math_library_num_threads)
       .def("to_native_config", &AnalysisConfig::ToNativeConfig)
-      .def("enable_mkldnn_bfloat16", &AnalysisConfig::EnableOnednnBfloat16)
+      .def("enable_mkldnn_bfloat16",
+           &AnalysisConfig::EnableOnednnBfloat16)  // deprecated
+      .def("enable_onednn_bfloat16", &AnalysisConfig::EnableOnednnBfloat16)
 #ifdef PADDLE_WITH_DNNL
       .def("set_mkldnn_cache_capacity",
+           &AnalysisConfig::SetOnednnCacheCapacity,
+           py::arg("capacity") = 0)  // deprecated
+      .def("set_onednn_cache_capacity",
            &AnalysisConfig::SetOnednnCacheCapacity,
            py::arg("capacity") = 0)
       .def("set_bfloat16_op", &AnalysisConfig::SetBfloat16Op)
       .def("enable_mkldnn_int8",
            &AnalysisConfig::EnableOnednnInt8,
            py::arg("mkldnn_int8_enabled_op_types") =
-               std::unordered_set<std::string>({}))
-      .def("mkldnn_int8_enabled", &AnalysisConfig::onednn_int8_enabled)
+               std::unordered_set<std::string>({}))  // deprecated
+      .def("mkldnn_int8_enabled",
+           &AnalysisConfig::onednn_int8_enabled)  // deprecated
       .def("disable_mkldnn_fc_passes",
            &AnalysisConfig::DisableOnednnFcPasses,
            R"DOC(
@@ -1085,9 +1094,31 @@ void BindAnalysisConfig(py::module *m) {
                     >>> config = Config("")
                     >>> config.enable_mkldnn()
                     >>> config.disable_mkldnn_fc_passes()
+            )DOC")  // deprecated
+      .def("enable_onednn_int8",
+           &AnalysisConfig::EnableOnednnInt8,
+           py::arg("onednn_int8_enabled_op_types") =
+               std::unordered_set<std::string>({}))
+      .def("onednn_int8_enabled", &AnalysisConfig::onednn_int8_enabled)
+      .def("disable_onednn_fc_passes",
+           &AnalysisConfig::DisableOnednnFcPasses,
+           R"DOC(
+            Disable Onednn FC
+            Returns:
+                None.
+
+            Examples:
+                .. code-block:: python
+
+                    >>> from paddle.inference import Config
+
+                    >>> config = Config("")
+                    >>> config.enable_onednn()
+                    >>> config.disable_onednn_fc_passes()
             )DOC")
 #endif
-      .def("set_mkldnn_op", &AnalysisConfig::SetONEDNNOp)
+      .def("set_mkldnn_op", &AnalysisConfig::SetONEDNNOp)  // deprecated
+      .def("set_onednn_op", &AnalysisConfig::SetONEDNNOp)
       .def("set_model_buffer", &AnalysisConfig::SetModelBuffer)
       .def("model_from_memory", &AnalysisConfig::model_from_memory)
       .def("delete_pass", &AnalysisConfig::DeletePass)
@@ -1329,23 +1360,32 @@ void BindPaddlePassBuilder(py::module *m) {
   py::class_<PassStrategy, PaddlePassBuilder>(*m, "PassStrategy")
       .def(py::init<const std::vector<std::string> &>())
       .def("enable_cudnn", &PassStrategy::EnableCUDNN)
-      .def("enable_mkldnn", &PassStrategy::EnableONEDNN)
-      .def("enable_mkldnn_bfloat16", &PassStrategy::EnableMkldnnBfloat16)
+      .def("enable_mkldnn", &PassStrategy::EnableONEDNN)  // deprecated
+      .def("enable_mkldnn_bfloat16",
+           &PassStrategy::EnableMkldnnBfloat16)  // deprecated
+      .def("enable_onednn", &PassStrategy::EnableONEDNN)
+      .def("enable_onednn_bfloat16", &PassStrategy::EnableOnednnBfloat16)
       .def("use_gpu", &PassStrategy::use_gpu);
 
   py::class_<CpuPassStrategy, PassStrategy>(*m, "CpuPassStrategy")
       .def(py::init<>())
       .def(py::init<const CpuPassStrategy &>())
       .def("enable_cudnn", &CpuPassStrategy::EnableCUDNN)
-      .def("enable_mkldnn", &CpuPassStrategy::EnableONEDNN)
-      .def("enable_mkldnn_bfloat16", &CpuPassStrategy::EnableMkldnnBfloat16);
+      .def("enable_mkldnn", &CpuPassStrategy::EnableONEDNN)  // deprecated
+      .def("enable_mkldnn_bfloat16",
+           &CpuPassStrategy::EnableMkldnnBfloat16)  // deprecated
+      .def("enable_onednn", &CpuPassStrategy::EnableONEDNN)
+      .def("enable_onednn_bfloat16", &CpuPassStrategy::EnableOnednnBfloat16);
 
   py::class_<GpuPassStrategy, PassStrategy>(*m, "GpuPassStrategy")
       .def(py::init<>())
       .def(py::init<const GpuPassStrategy &>())
       .def("enable_cudnn", &GpuPassStrategy::EnableCUDNN)
-      .def("enable_mkldnn", &GpuPassStrategy::EnableONEDNN)
-      .def("enable_mkldnn_bfloat16", &GpuPassStrategy::EnableMkldnnBfloat16);
+      .def("enable_mkldnn", &GpuPassStrategy::EnableONEDNN)  // deprecated
+      .def("enable_mkldnn_bfloat16",
+           &GpuPassStrategy::EnableMkldnnBfloat16)  // deprecated
+      .def("enable_onednn", &GpuPassStrategy::EnableONEDNN)
+      .def("enable_onednn_bfloat16", &GpuPassStrategy::EnableOnednnBfloat16);
 }
 
 void BindInternalUtils(py::module *m) {
diff --git a/test/deprecated/ir/inference/inference_pass_test.py b/test/deprecated/ir/inference/inference_pass_test.py
@@ -178,9 +178,9 @@ def _get_analysis_config(
                     config.enable_tensorrt_varseqlen()
 
         elif use_mkldnn:
-            config.enable_mkldnn()
+            config.enable_onednn()
             if self.enable_mkldnn_bfloat16:
-                config.enable_mkldnn_bfloat16()
+                config.enable_onednn_bfloat16()
         return config
 
     def check_output(self, atol=1e-3):
diff --git a/test/deprecated/ir/inference/quant_dequant_test.py b/test/deprecated/ir/inference/quant_dequant_test.py
@@ -231,9 +231,9 @@ def _get_analysis_config(
                     config.enable_tensorrt_varseqlen()
 
         elif use_mkldnn:
-            config.enable_mkldnn()
+            config.enable_onednn()
             if self.enable_mkldnn_bfloat16:
-                config.enable_mkldnn_bfloat16()
+                config.enable_onednn_bfloat16()
         return config
 
     def check_output_with_option(
diff --git a/test/deprecated/ir/inference/test_trt_inference_predictor_deprecated.py b/test/deprecated/ir/inference/test_trt_inference_predictor_deprecated.py
@@ -98,14 +98,14 @@ def load(self, config_arg, inputs=None, outputs=None):
 
         if self.args.enable_mkldnn and not self.args.enable_gpu:
             config.disable_gpu()
-            config.enable_mkldnn()
+            config.enable_onednn()
             if self.args.precision == 'int8':
-                config.enable_mkldnn_int8(
+                config.enable_onednn_int8(
                     {"conv2d", "depthwise_conv2d", "transpose2", "pool2d"}
                 )
         if not self.args.enable_mkldnn and not self.args.enable_gpu:
             config.disable_gpu()
-            # config.enable_mkldnn()
+            # config.enable_onednn()
         if self.args.enable_profile:
             config.enable_profile()
         shape_range_file = os.path.join(
diff --git a/test/ir/inference/inference_pass_test.py b/test/ir/inference/inference_pass_test.py
@@ -179,9 +179,9 @@ def _get_analysis_config(
                     config.enable_tensorrt_varseqlen()
 
         elif use_mkldnn:
-            config.enable_mkldnn()
+            config.enable_onednn()
             if self.enable_mkldnn_bfloat16:
-                config.enable_mkldnn_bfloat16()
+                config.enable_onednn_bfloat16()
         print('config summary:', config.summary())
         return config
 
diff --git a/test/ir/inference/quant_dequant_test.py b/test/ir/inference/quant_dequant_test.py
@@ -231,9 +231,9 @@ def _get_analysis_config(
                     config.enable_tensorrt_varseqlen()
 
         elif use_mkldnn:
-            config.enable_mkldnn()
+            config.enable_onednn()
             if self.enable_mkldnn_bfloat16:
-                config.enable_mkldnn_bfloat16()
+                config.enable_onednn_bfloat16()
         print('config summary:', config.summary())
         return config
 
diff --git a/test/ir/inference/test_conv_eltwiseadd_bn_fuse_pass.py b/test/ir/inference/test_conv_eltwiseadd_bn_fuse_pass.py
@@ -47,7 +47,7 @@ def sample_predictor_configs(self, program_config):
 
         # MKLDNN
         config = self.create_inference_config(use_gpu=False)
-        config.enable_mkldnn()
+        config.enable_onednn()
         yield config, ["conv2d", "elementwise_add"], (1e-4, 1e-5)
 
         # for gpu
diff --git a/test/mkldnn/test_onnx_format_quantization_mobilenetv1.py b/test/mkldnn/test_onnx_format_quantization_mobilenetv1.py
@@ -208,12 +208,12 @@ def run_program(
         image_shape = [3, 224, 224]
         config = paddle.inference.Config(model_path)
         config.disable_gpu()
-        config.enable_mkldnn()
+        config.enable_onednn()
         config.switch_ir_optim()
         config.set_cpu_math_library_num_threads(1)
         config.disable_glog_info()
         if is_quantized_model:
-            config.enable_mkldnn_int8()
+            config.enable_onednn_int8()
         predictor = paddle.inference.create_predictor(config)
 
         input_names = predictor.get_input_names()
diff --git a/test/quantization/quant2_int8_lstm_model.py b/test/quantization/quant2_int8_lstm_model.py
@@ -112,7 +112,7 @@ def set_config(
             config.disable_gpu()
             config.switch_use_feed_fetch_ops(True)
             config.switch_ir_optim(True)
-            config.enable_mkldnn()
+            config.enable_onednn()
             config.disable_mkldnn_fc_passes()  # fc passes caused dnnl error
             config.pass_builder().insert_pass(5, "fc_lstm_fuse_pass")
             config.set_mkldnn_cache_capacity(mkldnn_cache_capacity)
@@ -121,7 +121,7 @@ def set_config(
                 config.quantizer_config().set_quant_data(warmup_data)
                 config.quantizer_config().set_quant_batch_size(1)
             elif mode == "qat":
-                config.enable_mkldnn_int8()
+                config.enable_onednn_int8()
 
         return config
 
diff --git a/test/quantization/quant2_int8_nlp_comparison.py b/test/quantization/quant2_int8_nlp_comparison.py
@@ -158,9 +158,9 @@ def set_config(
         config.switch_specify_input_names(True)
         config.switch_ir_optim(True)
         config.switch_use_feed_fetch_ops(True)
-        config.enable_mkldnn()
+        config.enable_onednn()
         if target == 'int8':
-            config.enable_mkldnn_int8(self._quantized_ops)
+            config.enable_onednn_int8(self._quantized_ops)
         config.delete_pass(
             "constant_folding_pass"
         )  # same reason as in analyzer_ernie_int8_tester.cc