PaddlePaddle
diff --git a/‎CMakeLists.txt
Lines changed: 2 additions & 1 deletion b/‎CMakeLists.txt
Lines changed: 2 additions & 1 deletion
diff --git a/‎paddle/fluid/framework/operator.h
Lines changed: 4 additions & 0 deletions b/‎paddle/fluid/framework/operator.h
Lines changed: 4 additions & 0 deletions
diff --git a/‎paddle/fluid/framework/parallel_executor.cc
Lines changed: 9 additions & 2 deletions b/‎paddle/fluid/framework/parallel_executor.cc
Lines changed: 9 additions & 2 deletions
diff --git a/‎paddle/fluid/framework/parallel_executor.h
Lines changed: 2 additions & 1 deletion b/‎paddle/fluid/framework/parallel_executor.h
Lines changed: 2 additions & 1 deletion
diff --git a/‎paddle/fluid/inference/tensorrt/convert/activation_op.cc
Lines changed: 6 additions & 3 deletions b/‎paddle/fluid/inference/tensorrt/convert/activation_op.cc
Lines changed: 6 additions & 3 deletions
diff --git a/‎paddle/fluid/inference/tensorrt/convert/conv2d_op.cc
Lines changed: 1 addition & 1 deletion b/‎paddle/fluid/inference/tensorrt/convert/conv2d_op.cc
Lines changed: 1 addition & 1 deletion
diff --git a/‎paddle/fluid/inference/tensorrt/convert/io_converter.cc
Lines changed: 1 addition & 1 deletion b/‎paddle/fluid/inference/tensorrt/convert/io_converter.cc
Lines changed: 1 addition & 1 deletion
diff --git a/‎paddle/fluid/inference/tensorrt/convert/mul_op.cc
Lines changed: 1 addition & 1 deletion b/‎paddle/fluid/inference/tensorrt/convert/mul_op.cc
Lines changed: 1 addition & 1 deletion
diff --git a/‎paddle/fluid/inference/tensorrt/convert/op_converter.h
Lines changed: 9 additions & 7 deletions b/‎paddle/fluid/inference/tensorrt/convert/op_converter.h
Lines changed: 9 additions & 7 deletions
diff --git a/‎paddle/fluid/inference/tensorrt/convert/test_activation_op.cc
Lines changed: 3 additions & 2 deletions b/‎paddle/fluid/inference/tensorrt/convert/test_activation_op.cc
Lines changed: 3 additions & 2 deletions
@@ -25,7 +25,6 @@ message(STATUS "CXX compiler: ${CMAKE_CXX_COMPILER}, version: "
 message(STATUS "C compiler: ${CMAKE_C_COMPILER}, version: "
         "${CMAKE_C_COMPILER_ID} ${CMAKE_C_COMPILER_VERSION}")
 
-find_package(Sphinx)
 if(NOT CMAKE_CROSSCOMPILING)
     find_package(CUDA QUIET)
 endif(NOT CMAKE_CROSSCOMPILING)
@@ -226,5 +225,7 @@ if(WITH_PYTHON)
 endif()
 
 if(WITH_DOC)
+    find_package(Sphinx REQUIRED)
+    find_python_module(recommonmark REQUIRED)
     add_subdirectory(doc)
 endif()
@@ -192,6 +192,10 @@ class ExecutionContext {
     return op_.Attr<T>(name);
   }
 
+  bool HasInput(const std::string& name) const { return op_.HasInputs(name); }
+
+  bool HasOutput(const std::string& name) const { return op_.HasOutputs(name); }
+
   size_t InputSize(const std::string& name) const {
     return op_.Inputs(name).size();
   }
 
@@ -58,7 +58,8 @@ ParallelExecutor::ParallelExecutor(
     const std::unordered_set<std::string> &bcast_vars,
     const ProgramDesc &main_program, const std::string &loss_var_name,
     Scope *scope, const std::vector<Scope *> &local_scopes, bool allow_op_delay,
-    bool use_default_grad_scale, bool balance_parameter_opt_between_cards)
+    bool use_default_grad_scale, bool balance_parameter_opt_between_cards,
+    size_t num_trainers, size_t trainer_id)
     : member_(new ParallelExecutorPrivate(places)) {
   member_->global_scope_ = scope;
 
@@ -80,7 +81,13 @@ ParallelExecutor::ParallelExecutor(
 
 // Bcast Parameters to all GPUs
 #ifdef PADDLE_WITH_CUDA
-  member_->nccl_ctxs_.reset(new platform::NCCLContextMap(member_->places_));
+  auto *nccl_id_var = scope->FindVar(NCCL_ID_VARNAME);
+  ncclUniqueId *nccl_id = nullptr;
+  if (nccl_id_var != nullptr) {
+    nccl_id = nccl_id_var->GetMutable<ncclUniqueId>();
+  }
+  member_->nccl_ctxs_.reset(new platform::NCCLContextMap(
+      member_->places_, nccl_id, num_trainers, trainer_id));
 #endif
   if (platform::is_gpu_place(places[0]) && member_->local_scopes_.size() != 1 &&
       local_scopes.empty()) {  // Is CUDA
 
@@ -41,7 +41,8 @@ class ParallelExecutor {
                             const std::string& loss_var_name, Scope* scope,
                             const std::vector<Scope*>& local_scopes,
                             bool allow_op_delay, bool use_default_grad_scale,
-                            bool balance_parameter_opt_between_cards);
+                            bool balance_parameter_opt_between_cards,
+                            size_t num_trainers = 1, size_t trainer_id = 0);
 
   ~ParallelExecutor();
 
 
@@ -21,15 +21,18 @@ namespace tensorrt {
 class ReluOpConverter : public OpConverter {
  public:
   ReluOpConverter() {}
-  void operator()(const framework::OpDesc& op) override {
+  void operator()(const framework::proto::OpDesc& op) override {
+    // Here the two nullptr looks strange, that's because the
+    // framework::OpDesc's constructor is strange.
+    framework::OpDesc op_desc(op, nullptr, nullptr);
     LOG(INFO) << "convert a fluid relu op to tensorrt activation layer whose "
                  "type is Relu";
     const nvinfer1::ITensor* input_tensor =
-        engine_->GetITensor(op.Input("X")[0]);
+        engine_->GetITensor(op_desc.Input("X")[0]);
     nvinfer1::IActivationLayer* layer = TRT_ENGINE_ADD_LAYER(
         engine_, Activation, *const_cast<nvinfer1::ITensor*>(input_tensor),
         nvinfer1::ActivationType::kRELU);
-    engine_->SetITensor(op.Output("Out")[0], layer->getOutput(0));
+    engine_->SetITensor(op_desc.Output("Out")[0], layer->getOutput(0));
   }
 };
 
 
@@ -21,7 +21,7 @@ namespace tensorrt {
 class Conv2dOpConverter : public OpConverter {
  public:
   Conv2dOpConverter() {}
-  void operator()(const framework::OpDesc& op) override {
+  void operator()(const framework::proto::OpDesc& op) override {
     LOG(INFO)
         << "convert a fluid conv2d op to tensorrt conv layer without bias";
   }
 
@@ -39,7 +39,7 @@ class DefaultIOConverter : public EngineIOConverter {
                                            cudaMemcpyHostToDevice, *stream_));
     } else if (is_gpu_place(place)) {
       PADDLE_ENFORCE_EQ(0, cudaMemcpyAsync(out, in.data<float>(), size,
-                                           cudaMemcpyHostToHost, *stream_));
+                                           cudaMemcpyDeviceToDevice, *stream_));
     } else {
       PADDLE_THROW("Unknown device for converter");
     }
 
@@ -21,7 +21,7 @@ namespace tensorrt {
 class MulOpConverter : public OpConverter {
  public:
   MulOpConverter() {}
-  void operator()(const framework::OpDesc& op) override {
+  void operator()(const framework::proto::OpDesc& op) override {
     LOG(INFO) << "convert a fluid mul op to tensorrt fc layer without bias";
   }
 };
 
@@ -31,25 +31,27 @@ namespace tensorrt {
 class OpConverter {
  public:
   OpConverter() {}
-  virtual void operator()(const framework::OpDesc& op) {}
+  virtual void operator()(const framework::proto::OpDesc& op) {}
 
-  void Run(const framework::OpDesc& op, TensorRTEngine* engine) {
-    std::string type = op.Type();
+  void Run(const framework::proto::OpDesc& op, TensorRTEngine* engine) {
+    std::string type = op.type();
     auto* it = Registry<OpConverter>::Lookup(type);
     PADDLE_ENFORCE_NOT_NULL(it, "no OpConverter for optype [%s]", type);
     it->SetEngine(engine);
     (*it)(op);
   }
 
   // convert fluid op to tensorrt layer
-  void ConvertOp(const framework::OpDesc& op, TensorRTEngine* engine) {
+  void ConvertOp(const framework::proto::OpDesc& op, TensorRTEngine* engine) {
     OpConverter::Run(op, engine);
   }
 
   // convert fluid block to tensorrt network
-  void ConvertBlock(const framework::BlockDesc& block, TensorRTEngine* engine) {
-    for (auto op : block.AllOps()) {
-      OpConverter::Run(*op, engine);
+  void ConvertBlock(const framework::proto::BlockDesc& block,
+                    TensorRTEngine* engine) {
+    for (size_t i = 0; i < block.ops_size(); i++) {
+      const auto& op = block.ops(i);
+      OpConverter::Run(op, engine);
     }
   }
 
 
@@ -51,7 +51,7 @@ void Compare(const std::string op_type, float input, float expect) {
   op_desc.SetInput("X", {"X"});
   op_desc.SetOutput("Out", {"Out"});
 
-  auto op = framework::OpRegistry::CreateOp(op_desc);
+  auto op = framework::OpRegistry::CreateOp(*op_desc.Proto());
 
   // run fluid op
   op->Run(scope, place);
@@ -68,7 +68,8 @@ void Compare(const std::string op_type, float input, float expect) {
                        nvinfer1::DimsCHW{1, 1, 1});
   // convert op
   OpConverter op_converter;
-  op_converter.ConvertOp(op_desc, engine);
+  op_converter.ConvertOp(*op_desc.Proto(), engine);
+
   engine->DeclareOutput("Out");
   engine->FreezeNetwork();
Original file line number	Diff line number	Diff line change
`@@ -192,6 +192,10 @@ class ExecutionContext {`
`192`	`192`	`return op_.Attr<T>(name);`
`193`	`193`	`}`
`194`	`194`
	`195`	`+ bool HasInput(const std::string& name) const { return op_.HasInputs(name); }`
	`196`	`+`
	`197`	`+ bool HasOutput(const std::string& name) const { return op_.HasOutputs(name); }`
	`198`	`+`
`195`	`199`	`size_t InputSize(const std::string& name) const {`
`196`	`200`	`return op_.Inputs(name).size();`
`197`	`201`	`}`
Original file line number	Diff line number	Diff line change
`@@ -21,7 +21,7 @@ namespace tensorrt {`
`21`	`21`	`class Conv2dOpConverter : public OpConverter {`
`22`	`22`	`public:`
`23`	`23`	`Conv2dOpConverter() {}`
`24`		`- void operator()(const framework::OpDesc& op) override {`
	`24`	`+ void operator()(const framework::proto::OpDesc& op) override {`
`25`	`25`	`LOG(INFO)`
`26`	`26`	`<< "convert a fluid conv2d op to tensorrt conv layer without bias";`
`27`	`27`	`}`
Original file line number	Diff line number	Diff line change
`@@ -39,7 +39,7 @@ class DefaultIOConverter : public EngineIOConverter {`
`39`	`39`	`cudaMemcpyHostToDevice, *stream_));`
`40`	`40`	`} else if (is_gpu_place(place)) {`
`41`	`41`	`PADDLE_ENFORCE_EQ(0, cudaMemcpyAsync(out, in.data<float>(), size,`
`42`		`- cudaMemcpyHostToHost, *stream_));`
	`42`	`+ cudaMemcpyDeviceToDevice, *stream_));`
`43`	`43`	`} else {`
`44`	`44`	`PADDLE_THROW("Unknown device for converter");`
`45`	`45`	`}`