PaddlePaddle
diff --git a/‎cmake/anakin_subgraph.cmake
Lines changed: 2 additions & 1 deletion b/‎cmake/anakin_subgraph.cmake
Lines changed: 2 additions & 1 deletion
diff --git a/‎paddle/fluid/inference/anakin/convert/activation.cc
Lines changed: 18 additions & 14 deletions b/‎paddle/fluid/inference/anakin/convert/activation.cc
Lines changed: 18 additions & 14 deletions
diff --git a/‎paddle/fluid/inference/anakin/convert/activation.h
Lines changed: 8 additions & 5 deletions b/‎paddle/fluid/inference/anakin/convert/activation.h
Lines changed: 8 additions & 5 deletions
diff --git a/‎paddle/fluid/inference/anakin/convert/affine_channel.cc
Lines changed: 18 additions & 14 deletions b/‎paddle/fluid/inference/anakin/convert/affine_channel.cc
Lines changed: 18 additions & 14 deletions
diff --git a/‎paddle/fluid/inference/anakin/convert/affine_channel.h
Lines changed: 2 additions & 1 deletion b/‎paddle/fluid/inference/anakin/convert/affine_channel.h
Lines changed: 2 additions & 1 deletion
diff --git a/‎paddle/fluid/inference/anakin/convert/batch_norm.cc
Lines changed: 30 additions & 25 deletions b/‎paddle/fluid/inference/anakin/convert/batch_norm.cc
Lines changed: 30 additions & 25 deletions
diff --git a/‎paddle/fluid/inference/anakin/convert/batch_norm.h
Lines changed: 2 additions & 1 deletion b/‎paddle/fluid/inference/anakin/convert/batch_norm.h
Lines changed: 2 additions & 1 deletion
diff --git a/‎paddle/fluid/inference/anakin/convert/concat.cc
Lines changed: 12 additions & 18 deletions b/‎paddle/fluid/inference/anakin/convert/concat.cc
Lines changed: 12 additions & 18 deletions
diff --git a/‎paddle/fluid/inference/anakin/convert/concat.h
Lines changed: 2 additions & 1 deletion b/‎paddle/fluid/inference/anakin/convert/concat.h
Lines changed: 2 additions & 1 deletion
@@ -25,8 +25,9 @@ endif()
 
 if(ANAKIN_FOUND)
     message(STATUS "Current ANAKIN header is ${ANAKIN_INCLUDE_DIR}/anakin_config.h. ")
+    include_directories(${ANAKIN_ROOT})
     include_directories(${ANAKIN_ROOT}/include)
-    include_directories(${ANAKIN_ROOT}/include/saber)
+    include_directories(${ANAKIN_ROOT}/saber)
     link_directories(${ANAKIN_ROOT})
     add_definitions(-DPADDLE_WITH_ANAKIN)
 endif()
@@ -16,41 +16,45 @@
 #include <algorithm>
 #include <map>
 
-using anakin::graph::GraphGlobalMem;
-using anakin::AK_FLOAT;
-using anakin::saber::NV;
-using anakin::saber::Shape;
-
 namespace paddle {
 namespace inference {
 namespace anakin {
 
-ActivationOpConverter::ActivationOpConverter(const std::string &op_type)
+template <typename TargetT>
+ActivationOpConverter<TargetT>::ActivationOpConverter(
+    const std::string &op_type)
     : op_type_(op_type) {
   auto it = anakin_op_types_.find(op_type_);
   PADDLE_ENFORCE(it != anakin_op_types_.end(),
                  "activation op type is not support");
   anakin_op_type_ = it->second;
 }
 
-void ActivationOpConverter::operator()(const framework::proto::OpDesc &op,
-                                       const framework::BlockDesc &block_desc,
-                                       const framework::Scope &scope,
-                                       bool test_mode) {
+template <typename TargetT>
+void ActivationOpConverter<TargetT>::operator()(
+    const framework::proto::OpDesc &op, const framework::BlockDesc &block_desc,
+    const framework::Scope &scope, bool test_mode) {
   framework::OpDesc op_desc(op, nullptr);
   PADDLE_ENFORCE_EQ(op_desc.Input("X").size(), 1);
   PADDLE_ENFORCE_EQ(op_desc.Output("Out").size(), 1);
 
   auto op_name = op_desc.Type() + ":" + op_desc.Output("Out").front();
   auto input_name = op_desc.Input("X").front();
   auto output_name = op_desc.Output("Out").front();
-  engine_->AddOp(op_name, "Activation", {input_name}, {output_name});
-  engine_->AddOpAttr(op_name, "type", anakin_op_type_);
+  this->engine_->AddOp(op_name, "Activation", {input_name}, {output_name});
+  this->engine_->AddOpAttr(op_name, "type", anakin_op_type_);
 }
 
 }  // namespace anakin
 }  // namespace inference
 }  // namespace paddle
 
-REGISTER_ANAKIN_OP_CONVERTER(sigmoid, SigmoidOpConverter);
-REGISTER_ANAKIN_OP_CONVERTER(tanh, TanhOpConverter);
+#ifdef PADDLE_WITH_CUDA
+REGISTER_CUDA_ANAKIN_OP_CONVERTER(sigmoid,
+                                  SigmoidOpConverter<::anakin::saber::NV>);
+REGISTER_CUDA_ANAKIN_OP_CONVERTER(tanh, TanhOpConverter<::anakin::saber::NV>);
+#endif
+
+REGISTER_CPU_ANAKIN_OP_CONVERTER(sigmoid,
+                                 SigmoidOpConverter<::anakin::saber::X86>);
+REGISTER_CPU_ANAKIN_OP_CONVERTER(tanh, TanhOpConverter<::anakin::saber::X86>);
@@ -22,7 +22,8 @@ namespace paddle {
 namespace inference {
 namespace anakin {
 
-class ActivationOpConverter : public AnakinOpConverter {
+template <typename TargetT>
+class ActivationOpConverter : public AnakinOpConverter<TargetT> {
  public:
   explicit ActivationOpConverter(const std::string &op_type);
 
@@ -39,14 +40,16 @@ class ActivationOpConverter : public AnakinOpConverter {
                                                       {"sigmoid", "Sigmoid"}};
 };
 
-class TanhOpConverter : public ActivationOpConverter {
+template <typename TargetT>
+class TanhOpConverter : public ActivationOpConverter<TargetT> {
  public:
-  TanhOpConverter() : ActivationOpConverter("tanh") {}
+  TanhOpConverter() : ActivationOpConverter<TargetT>("tanh") {}
 };
 
-class SigmoidOpConverter : public ActivationOpConverter {
+template <typename TargetT>
+class SigmoidOpConverter : public ActivationOpConverter<TargetT> {
  public:
-  SigmoidOpConverter() : ActivationOpConverter("sigmoid") {}
+  SigmoidOpConverter() : ActivationOpConverter<TargetT>("sigmoid") {}
 };
 }  // namespace anakin
 }  // namespace inference
 
@@ -18,19 +18,16 @@
 #include <vector>
 
 using anakin::graph::GraphGlobalMem;
+using anakin::PTuple;
 using anakin::AK_FLOAT;
-using anakin::Precision;
-using anakin::saber::NV;
-using anakin::saber::X86;
 using anakin::saber::Shape;
-using anakin::PBlock;
-using anakin::PTuple;
 
 namespace paddle {
 namespace inference {
 namespace anakin {
 
-void AffineChannelOpConverter::operator()(
+template <typename TargetT>
+void AffineChannelOpConverter<TargetT>::operator()(
     const framework::proto::OpDesc &op, const framework::BlockDesc &block_desc,
     const framework::Scope &scope, bool test_mode) {
   framework::OpDesc op_desc(op, nullptr);
@@ -59,42 +56,49 @@ void AffineChannelOpConverter::operator()(
   bias_tensor->Resize(bias_t->dims());
   TensorCopySync((*bias_t), platform::CPUPlace(), bias_tensor.get());
 
-  engine_->AddOp(op_name, "AffineChannel", {input_name}, {output_name});
+  this->engine_->AddOp(op_name, "AffineChannel", {input_name}, {output_name});
 
   // Generate the Scale parameter of Anakin.
   auto scale_shape = framework::vectorize2int(scale_t->dims());
   while (scale_shape.size() < 4) {
     scale_shape.insert(scale_shape.begin(), 1);
   }
   Shape anakin_scale_shape(scale_shape);
-  auto *weight1 = GraphGlobalMem<NV>::Global().template new_block<AK_FLOAT>(
-      anakin_scale_shape);
+  auto *weight1 =
+      GraphGlobalMem<TargetT>::Global().template new_block<AK_FLOAT>(
+          anakin_scale_shape);
   float *scale_cpu_data =
       static_cast<float *>(weight1->h_tensor().mutable_data());
   std::copy_n(scale_tensor->data<float>(), scale_tensor->numel(),
               scale_cpu_data);
   weight1->d_tensor().set_shape(anakin_scale_shape);
   weight1->d_tensor().copy_from(weight1->h_tensor());
-  engine_->AddOpAttr(op_name, "weight_1", *weight1);
+  this->engine_->AddOpAttr(op_name, "weight_1", *weight1);
 
   // Generate the Bias parameter of Anakin.
   auto bias_shape = framework::vectorize2int(bias_t->dims());
   while (bias_shape.size() < 4) {
     bias_shape.insert(bias_shape.begin(), 1);
   }
   Shape anakin_bias_shape(bias_shape);
-  auto *weight2 = GraphGlobalMem<NV>::Global().template new_block<AK_FLOAT>(
-      anakin_bias_shape);
+  auto *weight2 =
+      GraphGlobalMem<TargetT>::Global().template new_block<AK_FLOAT>(
+          anakin_bias_shape);
   float *bias_cpu_data =
       static_cast<float *>(weight2->h_tensor().mutable_data());
   std::copy_n(bias_tensor->data<float>(), bias_tensor->numel(), bias_cpu_data);
   weight2->d_tensor().set_shape(anakin_bias_shape);
   weight2->d_tensor().copy_from(weight2->h_tensor());
-  engine_->AddOpAttr(op_name, "weight_2", *weight2);
+  this->engine_->AddOpAttr(op_name, "weight_2", *weight2);
 }
 
 }  // namespace anakin
 }  // namespace inference
 }  // namespace paddle
 
-REGISTER_ANAKIN_OP_CONVERTER(affine_channel, AffineChannelOpConverter);
+#ifdef PADDLE_WITH_CUDA
+REGISTER_CUDA_ANAKIN_OP_CONVERTER(
+    affine_channel, AffineChannelOpConverter<::anakin::saber::NV>);
+#endif
+REGISTER_CPU_ANAKIN_OP_CONVERTER(
+    affine_channel, AffineChannelOpConverter<::anakin::saber::X86>);
@@ -21,7 +21,8 @@ namespace paddle {
 namespace inference {
 namespace anakin {
 
-class AffineChannelOpConverter : public AnakinOpConverter {
+template <typename TargetT>
+class AffineChannelOpConverter : public AnakinOpConverter<TargetT> {
  public:
   AffineChannelOpConverter() = default;
 
 
@@ -21,17 +21,16 @@
 
 using anakin::graph::GraphGlobalMem;
 using anakin::AK_FLOAT;
-using anakin::saber::NV;
 using anakin::saber::Shape;
 
 namespace paddle {
 namespace inference {
 namespace anakin {
 
-void BatchNormOpConverter::operator()(const framework::proto::OpDesc &op,
-                                      const framework::BlockDesc &block_desc,
-                                      const framework::Scope &scope,
-                                      bool test_mode) {
+template <typename TargetT>
+void BatchNormOpConverter<TargetT>::operator()(
+    const framework::proto::OpDesc &op, const framework::BlockDesc &block_desc,
+    const framework::Scope &scope, bool test_mode) {
   framework::OpDesc op_desc(op, nullptr);
   PADDLE_ENFORCE_EQ(op_desc.Output("Y").size(), 1);
   std::map<std::string, std::string> inputs;
@@ -48,9 +47,9 @@ void BatchNormOpConverter::operator()(const framework::proto::OpDesc &op,
 
   auto bn_op_name = op_name + ":bn";
   auto bn_output = bn_op_name + "_output";
-  engine_->AddOp(bn_op_name, "BatchNorm", {inputs["X"]}, {bn_output});
-  engine_->AddOpAttr(bn_op_name, "epsilon", epsilon);
-  engine_->AddOpAttr(bn_op_name, "momentum", static_cast<float>(1.0));
+  this->engine_->AddOp(bn_op_name, "BatchNorm", {inputs["X"]}, {bn_output});
+  this->engine_->AddOpAttr(bn_op_name, "epsilon", epsilon);
+  this->engine_->AddOpAttr(bn_op_name, "momentum", static_cast<float>(1.0));
 
   auto scale_op_name = op_name + ":scale";
   auto get_lod_tensor = [this, &scope, &op_name](const std::string &var_name,
@@ -81,48 +80,54 @@ void BatchNormOpConverter::operator()(const framework::proto::OpDesc &op,
   Shape shape1(fill_shape(4, framework::vectorize2int(mean_t.dims())));
   Shape shape2(fill_shape(4, framework::vectorize2int(variance_t.dims())));
   auto *weight1 =
-      GraphGlobalMem<NV>::Global().template new_block<AK_FLOAT>(shape1);
+      GraphGlobalMem<TargetT>::Global().template new_block<AK_FLOAT>(shape1);
   auto *mean_data = static_cast<float *>(weight1->h_tensor().mutable_data());
   std::copy_n(mean_t.data<float>(), mean_t.numel(), mean_data);
-  engine_->AddOpAttr(bn_op_name, "weight_1", *weight1);
+  this->engine_->AddOpAttr(bn_op_name, "weight_1", *weight1);
 
   auto *weight2 =
-      GraphGlobalMem<NV>::Global().template new_block<AK_FLOAT>(shape2);
+      GraphGlobalMem<TargetT>::Global().template new_block<AK_FLOAT>(shape2);
   auto *variance_data =
       static_cast<float *>(weight2->h_tensor().mutable_data());
   std::copy_n(variance_t.data<float>(), variance_t.numel(), variance_data);
-  engine_->AddOpAttr(bn_op_name, "weight_2", *weight2);
+  this->engine_->AddOpAttr(bn_op_name, "weight_2", *weight2);
 
   Shape shape3(std::vector<int>({1, 1, 1, 1}));
   auto *weight3 =
-      GraphGlobalMem<NV>::Global().template new_block<AK_FLOAT>(shape3);
+      GraphGlobalMem<TargetT>::Global().template new_block<AK_FLOAT>(shape3);
   auto *alpha_data = static_cast<float *>(weight3->h_tensor().mutable_data());
   float weight3_data[] = {1};
   std::copy(std::begin(weight3_data), std::end(weight3_data), alpha_data);
-  engine_->AddOpAttr(bn_op_name, "weight_3", *weight3);
+  this->engine_->AddOpAttr(bn_op_name, "weight_3", *weight3);
 
   Shape scale_shape(fill_shape(4, framework::vectorize2int(scale_t.dims())));
-  auto *scale =
-      GraphGlobalMem<NV>::Global().template new_block<AK_FLOAT>(scale_shape);
+  auto *scale = GraphGlobalMem<TargetT>::Global().template new_block<AK_FLOAT>(
+      scale_shape);
   auto *scale_data = static_cast<float *>(scale->h_tensor().mutable_data());
   std::copy_n(scale_t.data<float>(), scale_t.numel(), scale_data);
 
   Shape bias_shape(fill_shape(4, framework::vectorize2int(bias_t.dims())));
-  auto *bias =
-      GraphGlobalMem<NV>::Global().template new_block<AK_FLOAT>(bias_shape);
+  auto *bias = GraphGlobalMem<TargetT>::Global().template new_block<AK_FLOAT>(
+      bias_shape);
   auto *bias_data = static_cast<float *>(bias->h_tensor().mutable_data());
   std::copy_n(bias_t.data<float>(), bias_t.numel(), bias_data);
 
-  engine_->AddOp(scale_op_name, "Scale", {bn_output}, {output});
-  engine_->AddOpAttr(scale_op_name, "axis", 1);
-  engine_->AddOpAttr(scale_op_name, "num_axes", 1);
-  engine_->AddOpAttr(scale_op_name, "bias_term", true);
-  engine_->AddOpAttr(scale_op_name, "weight_1", *scale);
-  engine_->AddOpAttr(scale_op_name, "weight_2", *bias);
+  this->engine_->AddOp(scale_op_name, "Scale", {bn_output}, {output});
+  this->engine_->AddOpAttr(scale_op_name, "axis", 1);
+  this->engine_->AddOpAttr(scale_op_name, "num_axes", 1);
+  this->engine_->AddOpAttr(scale_op_name, "bias_term", true);
+  this->engine_->AddOpAttr(scale_op_name, "weight_1", *scale);
+  this->engine_->AddOpAttr(scale_op_name, "weight_2", *bias);
 }
 
 }  // namespace anakin
 }  // namespace inference
 }  // namespace paddle
 
-REGISTER_ANAKIN_OP_CONVERTER(batch_norm, BatchNormOpConverter);
+#ifdef PADDLE_WITH_CUDA
+REGISTER_CUDA_ANAKIN_OP_CONVERTER(batch_norm,
+                                  BatchNormOpConverter<::anakin::saber::NV>);
+#endif
+
+REGISTER_CPU_ANAKIN_OP_CONVERTER(batch_norm,
+                                 BatchNormOpConverter<::anakin::saber::X86>);
@@ -20,7 +20,8 @@ namespace paddle {
 namespace inference {
 namespace anakin {
 
-class BatchNormOpConverter : public AnakinOpConverter {
+template <typename TargetT>
+class BatchNormOpConverter : public AnakinOpConverter<TargetT> {
  public:
   BatchNormOpConverter() = default;
 
 
@@ -15,38 +15,32 @@
 #include "paddle/fluid/inference/anakin/convert/concat.h"
 #include <algorithm>
 
-using anakin::graph::GraphGlobalMem;
-using anakin::AK_FLOAT;
-using anakin::Precision;
-using anakin::saber::NV;
-using anakin::saber::X86;
-using anakin::saber::Shape;
-using anakin::PBlock;
-using anakin::PTuple;
-
 namespace paddle {
 namespace inference {
 namespace anakin {
 
-void ConcatOpConverter::operator()(const framework::proto::OpDesc &op,
-                                   const framework::BlockDesc &block_desc,
-                                   const framework::Scope &scope,
-                                   bool test_mode) {
+template <typename TargetT>
+void ConcatOpConverter<TargetT>::operator()(
+    const framework::proto::OpDesc &op, const framework::BlockDesc &block_desc,
+    const framework::Scope &scope, bool test_mode) {
   framework::OpDesc op_desc(op, nullptr);
   int axis = boost::get<int>(op_desc.GetAttr("axis"));
   auto input_names = op_desc.Input("X");
-  // PADDLE_ENFORCE(axis > 0,
-  //               "The axis attr of Concat op should be large than 0 for trt");
 
   auto y_name = op_desc.Output("Out").front();
   auto op_name = op_desc.Type() + ":" + op_desc.Output("Out").front();
 
-  engine_->AddOp(op_name, "Concat", input_names, {y_name});
-  engine_->AddOpAttr(op_name, "axis", axis);
+  this->engine_->AddOp(op_name, "Concat", input_names, {y_name});
+  this->engine_->AddOpAttr(op_name, "axis", axis);
 }
 
 }  // namespace anakin
 }  // namespace inference
 }  // namespace paddle
 
-REGISTER_ANAKIN_OP_CONVERTER(concat, ConcatOpConverter);
+#ifdef PADDLE_WITH_CUDA
+REGISTER_CUDA_ANAKIN_OP_CONVERTER(concat,
+                                  ConcatOpConverter<::anakin::saber::NV>);
+#endif
+REGISTER_CPU_ANAKIN_OP_CONVERTER(concat,
+                                 ConcatOpConverter<::anakin::saber::X86>);
@@ -20,7 +20,8 @@ namespace paddle {
 namespace inference {
 namespace anakin {
 
-class ConcatOpConverter : public AnakinOpConverter {
+template <typename TargetT>
+class ConcatOpConverter : public AnakinOpConverter<TargetT> {
  public:
   ConcatOpConverter() = default;