PaddlePaddle
diff --git a/‎paddle/fluid/framework/ir/CMakeLists.txt
Lines changed: 0 additions & 1 deletion b/‎paddle/fluid/framework/ir/CMakeLists.txt
Lines changed: 0 additions & 1 deletion
diff --git a/‎paddle/fluid/framework/ir/infer_clean_graph_pass.cc
Lines changed: 0 additions & 67 deletions b/‎paddle/fluid/framework/ir/infer_clean_graph_pass.cc
Lines changed: 0 additions & 67 deletions
diff --git a/‎paddle/fluid/inference/analysis/analyzer.cc
Lines changed: 3 additions & 0 deletions b/‎paddle/fluid/inference/analysis/analyzer.cc
Lines changed: 3 additions & 0 deletions
diff --git a/‎paddle/fluid/inference/analysis/analyzer_tester.cc
Lines changed: 2 additions & 2 deletions b/‎paddle/fluid/inference/analysis/analyzer_tester.cc
Lines changed: 2 additions & 2 deletions
diff --git a/‎paddle/fluid/inference/analysis/argument.h
Lines changed: 4 additions & 0 deletions b/‎paddle/fluid/inference/analysis/argument.h
Lines changed: 4 additions & 0 deletions
diff --git a/‎paddle/fluid/inference/analysis/ir_pass_manager.cc
Lines changed: 4 additions & 2 deletions b/‎paddle/fluid/inference/analysis/ir_pass_manager.cc
Lines changed: 4 additions & 2 deletions
diff --git a/‎paddle/fluid/inference/analysis/ir_passes/tensorrt_subgraph_pass.cc
Lines changed: 5 additions & 1 deletion b/‎paddle/fluid/inference/analysis/ir_passes/tensorrt_subgraph_pass.cc
Lines changed: 5 additions & 1 deletion
diff --git a/‎paddle/fluid/inference/analysis/ir_passes/tensorrt_subgraph_pass.h
Lines changed: 1 addition & 0 deletions b/‎paddle/fluid/inference/analysis/ir_passes/tensorrt_subgraph_pass.h
Lines changed: 1 addition & 0 deletions
diff --git a/‎paddle/fluid/inference/analysis/passes/CMakeLists.txt
Lines changed: 2 additions & 0 deletions b/‎paddle/fluid/inference/analysis/passes/CMakeLists.txt
Lines changed: 2 additions & 0 deletions
diff --git a/‎paddle/fluid/inference/analysis/passes/inference_op_replace_pass.cc
Lines changed: 1 addition & 1 deletion b/‎paddle/fluid/inference/analysis/passes/inference_op_replace_pass.cc
Lines changed: 1 addition & 1 deletion
@@ -52,7 +52,6 @@ pass_library(graph_viz_pass base)
 pass_library(lock_free_optimize_pass base)
 pass_library(fc_fuse_pass inference)
 pass_library(attention_lstm_fuse_pass inference)
-pass_library(infer_clean_graph_pass inference)
 pass_library(fc_lstm_fuse_pass inference)
 pass_library(embedding_fc_lstm_fuse_pass inference)
 pass_library(fc_gru_fuse_pass inference)
 
@@ -31,6 +31,9 @@ void Analyzer::RunAnalysis(Argument *argument) {
                  "analsis_passes is not valid in the argument.");
   for (auto &pass : argument->analysis_passes()) {
     string::PrettyLogH1("--- Running analysis [%s]", pass);
+    if (!argument->enable_analysis_optim() && pass == "ir_analysis_pass")
+      continue;
+
     auto *ptr = PassRegistry::Global().Retreive(pass);
     PADDLE_ENFORCE_NOT_NULL(ptr, "no analysis pass called %s", pass);
     ptr->Run(argument);
 
@@ -30,7 +30,7 @@ using namespace framework;  // NOLINT
 TEST(Analyzer, analysis_without_tensorrt) {
   Argument argument;
   argument.SetModelDir(FLAGS_inference_model_dir);
-  argument.SetIrAnalysisPasses({"infer_clean_graph_pass"});
+  argument.SetEnableAnalysisOptim(false);
   argument.SetUseGPU(false);
   argument.SetAnalysisPasses({"ir_graph_build_pass", "ir_analysis_pass",
                               "ir_params_sync_among_devices_pass"});
@@ -41,10 +41,10 @@ TEST(Analyzer, analysis_without_tensorrt) {
 
 TEST(Analyzer, analysis_with_tensorrt) {
   Argument argument;
+  argument.SetEnableAnalysisOptim(false);
   argument.SetTensorRtMaxBatchSize(3);
   argument.SetTensorRtWorkspaceSize(1 << 20);
   argument.SetModelDir(FLAGS_inference_model_dir);
-  argument.SetIrAnalysisPasses({"infer_clean_graph_pass"});
   argument.SetUseGPU(false);
   argument.SetAnalysisPasses({"ir_graph_build_pass", "ir_analysis_pass",
                               "ir_params_sync_among_devices_pass"});
 
@@ -62,6 +62,9 @@ struct Argument {
   using anakin_max_shape_t = std::map<std::string, std::vector<int>>;
 
   bool Has(const std::string& key) const { return valid_fields_.count(key); }
+  // If we set the model using config.SetModelBuffer,
+  // the model and parameter will occupy additional CPU resources.
+  // Use this interface to release these resources.
   void PartiallyRelease() {
     if (Has("model_program_path")) {
       if (Has("model_from_memory") && model_from_memory()) {
@@ -130,6 +133,7 @@ struct Argument {
   DECL_ARGUMENT_FIELD(model_params_path, ModelParamsPath, std::string);
   DECL_ARGUMENT_FIELD(model_from_memory, ModelFromMemory, bool);
   DECL_ARGUMENT_FIELD(optim_cache_dir, OptimCacheDir, std::string);
+  DECL_ARGUMENT_FIELD(enable_analysis_optim, EnableAnalysisOptim, bool);
 
   // The overall graph to work on.
   DECL_ARGUMENT_UNIQUE_FIELD(main_graph, MainGraph, framework::ir::Graph);
 
@@ -84,13 +84,15 @@ void IRPassManager::CreatePasses(Argument *argument,
       pass->Set("program",
                 new framework::ProgramDesc *(&argument->main_program()));
 
-      bool enable_int8 = argument->tensorrt_precision_mode() ==
-                         AnalysisConfig::Precision::kInt8;
+      auto precision_mode = argument->tensorrt_precision_mode();
+      bool enable_int8 = precision_mode == AnalysisConfig::Precision::kInt8;
 
       pass->Set("predictor_id", new int(argument->predictor_id()));
       bool use_calib_mode = argument->tensorrt_use_calib_mode();
       pass->Set("enable_int8", new bool(enable_int8));
       pass->Set("use_calib_mode", new bool(use_calib_mode));
+      pass->Set("precision_mode",
+                new AnalysisConfig::Precision(precision_mode));
 
       bool use_static_engine = argument->tensorrt_use_static_engine();
       bool model_from_memory = argument->model_from_memory();
 
@@ -149,6 +149,9 @@ void TensorRtSubgraphPass::CreateTensorRTOp(
       graph_var_map[node->Name()] = node;
     }
   }
+  auto precision_mode = Get<AnalysisConfig::Precision>("precision_mode");
+  bool enable_fp16 = false;
+  if (precision_mode == AnalysisConfig::Precision::kHalf) enable_fp16 = true;
   auto enable_int8 = Get<bool>("enable_int8");
   auto use_calib_mode = Get<bool>("use_calib_mode");
   auto &subgraph_nodes = *Agent(node).subgraph();
@@ -216,6 +219,7 @@ void TensorRtSubgraphPass::CreateTensorRTOp(
   SetAttr(op_desc->Proto(), "calibration_data", calibration_data);
 
   SetAttr(op_desc->Proto(), "enable_int8", enable_int8);
+  SetAttr(op_desc->Proto(), "enable_fp16", enable_fp16);
   SetAttr(op_desc->Proto(), "use_calib_mode", use_calib_mode);
   SetAttr(op_desc->Proto(), "engine_key", engine_key);
   SetAttr(op_desc->Proto(), "predictor_id", predictor_id);
@@ -244,7 +248,7 @@ void TensorRtSubgraphPass::CreateTensorRTOp(
       inference::Singleton<inference::tensorrt::TRTEngineManager>::Global()
           .Create(engine_key + std::to_string(predictor_id),
                   Get<int>("max_batch_size"), Get<int>("workspace_size"),
-                  enable_int8, calibrator.get(), Get<int>("gpu_device_id"));
+                  precision_mode, calibrator.get(), Get<int>("gpu_device_id"));
 
   bool need_serialize = (use_static_engine && !load_from_memory);
   if (need_serialize) {
 
@@ -21,6 +21,7 @@
 #include "paddle/fluid/framework/ir/fuse_pass_base.h"
 #include "paddle/fluid/framework/ir/pass.h"
 #include "paddle/fluid/inference/analysis/ir_passes/subgraph_util.h"
+#include "paddle/fluid/inference/api/paddle_analysis_config.h"
 
 namespace paddle {
 namespace inference {
 
@@ -5,6 +5,7 @@ cc_library(ir_params_sync_among_devices_pass SRCS ir_params_sync_among_devices_p
 cc_library(ir_graph_to_program_pass SRCS ir_graph_to_program_pass.cc DEPS analysis_pass graph_to_program_pass)
 cc_library(adjust_cudnn_workspace_size_pass SRCS adjust_cudnn_workspace_size_pass.cc DEPS analysis_pass graph_to_program_pass)
 cc_library(inference_op_replace_pass SRCS inference_op_replace_pass.cc DEPS analysis_pass graph_to_program_pass)
+cc_library(ir_graph_clean_pass SRCS ir_graph_clean_pass.cc DEPS analysis_pass)
 
 cc_library(analysis_passes SRCS passes.cc DEPS
   ir_graph_build_pass
@@ -14,6 +15,7 @@ cc_library(analysis_passes SRCS passes.cc DEPS
   memory_optim_pass
   inference_op_replace_pass
   ir_graph_to_program_pass
+  ir_graph_clean_pass
 )
 
 set(analysis_deps ${analysis_deps}
 
@@ -20,9 +20,9 @@ namespace inference {
 namespace analysis {
 
 void InferenceOpReplacePass::RunImpl(Argument* argument) {
-  if (!argument->use_gpu()) return;
   std::unordered_map<std::string, std::string> replaced_map{
       {"conditional_block", "conditional_block_infer"},
+      {"merge_lod_tensor", "merge_lod_tensor_infer"},
   };
 
   auto& graph = argument->main_graph();