PaddlePaddle
diff --git a/‎paddle/framework/backward.cc
Lines changed: 2 additions & 1 deletion b/‎paddle/framework/backward.cc
Lines changed: 2 additions & 1 deletion
diff --git a/‎paddle/framework/lod_tensor.cc
Lines changed: 80 additions & 0 deletions b/‎paddle/framework/lod_tensor.cc
Lines changed: 80 additions & 0 deletions
diff --git a/‎paddle/framework/lod_tensor.h
Lines changed: 7 additions & 0 deletions b/‎paddle/framework/lod_tensor.h
Lines changed: 7 additions & 0 deletions
diff --git a/‎paddle/framework/operator.cc
Lines changed: 8 additions & 4 deletions b/‎paddle/framework/operator.cc
Lines changed: 8 additions & 4 deletions
diff --git a/‎paddle/framework/tensor.h
Lines changed: 11 additions & 0 deletions b/‎paddle/framework/tensor.h
Lines changed: 11 additions & 0 deletions
diff --git a/‎paddle/operators/CMakeLists.txt
Lines changed: 1 addition & 0 deletions b/‎paddle/operators/CMakeLists.txt
Lines changed: 1 addition & 0 deletions
@@ -427,7 +427,8 @@ std::vector<std::unique_ptr<OpDesc>> MakeBlockBackward(
     VLOG(5) << "Making backward " << (*it)->Type() << " op";
     std::vector<std::unique_ptr<OpDesc>> op_grads;
 
-    if ((*it)->Type() == "recurrent" || (*it)->Type() == "while") {
+    if ((*it)->Type() == "recurrent" || (*it)->Type() == "while" ||
+        (*it)->Type() == "parallel_do") {
       int step_block_idx = (*it)->GetBlockAttr("sub_block");
       BlockDesc* backward_block = CreateStepBlock(program_desc, no_grad_vars,
                                                   grad_to_var, step_block_idx);
 
@@ -43,6 +43,22 @@ std::ostream &operator<<(std::ostream &os, const LoD &lod) {
   return os;
 }
 
+std::ostream &operator<<(std::ostream &os, const LoDTensor &t) {
+  PADDLE_ENFORCE(platform::is_cpu_place(t.place()));
+  PADDLE_ENFORCE(t.type().hash_code() == typeid(float).hash_code());
+
+  os << "dim: " << t.dims() << "\n";
+  os << "lod: " << t.lod() << "\n";
+
+  // only print first ten elements
+  int64_t size = t.numel() < 10 ? t.numel() : 10;
+  for (int64_t i = 0; i < size; ++i) {
+    os << t.data<float>()[i] << " ";
+  }
+
+  return os;
+}
+
 LoD SliceLevels(const LoD &in, size_t level_begin, size_t level_end) {
   LoD new_lod;
   new_lod.reserve(level_end - level_begin);
@@ -244,5 +260,69 @@ void DeserializeFromStream(std::istream &is, LoDTensor *tensor,
   DeserializeFromStream(is, static_cast<Tensor *>(tensor), dev_ctx);
 }
 
+std::vector<LoDTensor> LoDTensor::SplitLoDTensor(
+    const std::vector<platform::Place> places) const {
+  check_memory_size();
+  //  PADDLE_ENFORCE(lod().empty() || (lod().size() == 1 && lod()[0].empty())
+  //                 , "Disable parallel lod for now");
+  PADDLE_ENFORCE(lod().empty(), "Disable parallel lod for now");
+  PADDLE_ENFORCE(dims()[0] % places.size() == 0,
+                 "Batch size should be divided by places size");
+
+  std::vector<LoDTensor> lods;
+  for (size_t place_idx = 0; place_idx < places.size(); ++place_idx) {
+    size_t begin = place_idx * dims()[0] / places.size();
+    size_t end = (place_idx + 1) * dims()[0] / places.size();
+    auto src = Slice(static_cast<int>(begin), static_cast<int>(end));
+
+    LoDTensor dst;
+    dst.Resize(src.dims());
+    auto &dst_place = places[place_idx];
+    auto dst_ptr = dst.mutable_data(dst_place, src.type());
+
+    // TODO(tonyyang-svail):
+    //   change the following to framework::CopyFrom
+    auto src_place = src.place();
+    auto src_ptr = src.data<void>();
+    auto size = src.numel() * SizeOfType(src.type());
+    if (platform::is_cpu_place(src_place) &&
+        platform::is_cpu_place(dst_place)) {
+      memory::Copy(boost::get<platform::CPUPlace>(dst_place), dst_ptr,
+                   boost::get<platform::CPUPlace>(src_place), src_ptr, size);
+    } else {
+      PADDLE_THROW("Not Implemented");
+    }
+
+    lods.emplace_back(dst);
+  }
+
+  return lods;
+}
+
+void LoDTensor::MergeLoDTensor(
+    const std::vector<const LoDTensor *> &lod_tensors, platform::Place place) {
+  PADDLE_ENFORCE(platform::is_cpu_place(place));
+  PADDLE_ENFORCE(!lod_tensors.empty());
+
+  framework::DDim new_dim = lod_tensors[0]->dims();
+  std::type_index new_type = lod_tensors[0]->type();
+  for (auto *lod : lod_tensors) {
+    PADDLE_ENFORCE(new_dim == lod->dims());
+    PADDLE_ENFORCE(new_type == lod->type());
+    PADDLE_ENFORCE(platform::is_cpu_place(lod->place()));
+  }
+  new_dim[0] *= lod_tensors.size();
+  Resize(new_dim);
+
+  auto *dst_ptr = reinterpret_cast<uint8_t *>(mutable_data(place, new_type));
+  for (auto *src : lod_tensors) {
+    auto size = src->numel() * SizeOfType(src->type());
+    memory::Copy(boost::get<platform::CPUPlace>(place), dst_ptr,
+                 boost::get<platform::CPUPlace>(src->place()),
+                 src->data<void>(), size);
+    dst_ptr += size;
+  }
+}
+
 }  // namespace framework
 }  // namespace paddle
@@ -58,6 +58,7 @@ using Vector = thrust::host_vector<
 using LoD = std::vector<Vector<size_t>>;
 
 std::ostream& operator<<(std::ostream& os, const LoD& lod);
+std::ostream& operator<<(std::ostream& os, const LoDTensor& t);
 
 /*
  * Slice levels from a LoD.
@@ -144,6 +145,12 @@ class LoDTensor : public Tensor {
    */
   void ShrinkInLevel(size_t level, size_t elem_begin, size_t elem_end);
 
+  std::vector<LoDTensor> SplitLoDTensor(
+      const std::vector<platform::Place> places) const;
+
+  void MergeLoDTensor(const std::vector<const LoDTensor*>& lod_tensors,
+                      platform::Place place);
+
  private:
   LoD lod_;
 };
 
@@ -233,7 +233,8 @@ static const Tensor* GetTensorFromVar(const Variable* var) {
   } else if (var->IsType<SelectedRows>()) {
     t = &(var->Get<SelectedRows>().value());
   } else {
-    PADDLE_THROW("Variable type must be LoDTensor/SelectedRows.");
+    PADDLE_THROW("Variable type_id %s, expect LoDTensor/SelectedRows.",
+                 var->Type().name());
   }
   return t;
 }
@@ -245,7 +246,8 @@ static Tensor* GetMutableTensorFromVar(Variable* var) {
   } else if (var->IsType<SelectedRows>()) {
     t = var->GetMutable<SelectedRows>()->mutable_value();
   } else {
-    PADDLE_THROW("Variable type must be LoDTensor/SelectedRows.");
+    PADDLE_THROW("Variable type_id %s, expect LoDTensor/SelectedRows.",
+                 var->Type().name());
   }
   return t;
 }
@@ -407,7 +409,8 @@ class RuntimeInferShapeContext : public InferShapeContext {
     } else if (var->IsType<SelectedRows>()) {
       return var->Get<SelectedRows>().GetCompleteDims();
     } else {
-      PADDLE_THROW("Variable type must be LoDTensor/SelectedRows.");
+      PADDLE_THROW("Variable %s type_id %s, expect LoDTensor/SelectedRows.",
+                   name, var->Type().name());
     }
   }
 
@@ -418,7 +421,8 @@ class RuntimeInferShapeContext : public InferShapeContext {
     } else if (var->IsType<SelectedRows>()) {
       var->GetMutable<SelectedRows>()->set_height(dim[0]);
     } else {
-      PADDLE_THROW("Variable type must be LoDTensor/SelectedRows.");
+      PADDLE_THROW("Variable %s type_id %s, expect LoDTensor/SelectedRows.",
+                   name, var->Type().name());
     }
   }
 
 
@@ -55,6 +55,8 @@ class Tensor {
   template <typename T>
   inline const T* data() const;
 
+  inline void switch_place(platform::Place new_place);
+
   /**
    * @brief   Return a pointer to mutable memory block.
    * @note    If not exist, then allocation.
@@ -200,6 +202,15 @@ class Tensor {
   size_t offset_;
 };
 
+inline void Tensor::switch_place(platform::Place new_place) {
+  if (holder_->place() == new_place) {
+    return;
+  }
+
+  // TODO(tonyyang-svail): do memcpy here.
+  PADDLE_THROW("Not Implemented");
+}
+
 }  // namespace framework
 }  // namespace paddle
 
 
@@ -152,6 +152,7 @@ op_library(conv_transpose_op DEPS vol2col)
 op_library(gru_op DEPS sequence2batch gru_compute)
 op_library(recurrent_op DEPS executor)
 op_library(cos_sim_op DEPS cos_sim_functor)
+op_library(parallel_do_op DEPS executor)
 # FIXME(typhoonzero): save/load depends lodtensor serialization functions
 op_library(save_op DEPS lod_tensor)
 op_library(load_op DEPS lod_tensor)
Original file line number	Diff line number	Diff line change
`@@ -233,7 +233,8 @@ static const Tensor* GetTensorFromVar(const Variable* var) {`
`233`	`233`	`} else if (var->IsType<SelectedRows>()) {`
`234`	`234`	`t = &(var->Get<SelectedRows>().value());`
`235`	`235`	`} else {`
`236`		`- PADDLE_THROW("Variable type must be LoDTensor/SelectedRows.");`
	`236`	`+ PADDLE_THROW("Variable type_id %s, expect LoDTensor/SelectedRows.",`
	`237`	`+ var->Type().name());`
`237`	`238`	`}`
`238`	`239`	`return t;`
`239`	`240`	`}`
`@@ -245,7 +246,8 @@ static Tensor* GetMutableTensorFromVar(Variable* var) {`
`245`	`246`	`} else if (var->IsType<SelectedRows>()) {`
`246`	`247`	`t = var->GetMutable<SelectedRows>()->mutable_value();`
`247`	`248`	`} else {`
`248`		`- PADDLE_THROW("Variable type must be LoDTensor/SelectedRows.");`
	`249`	`+ PADDLE_THROW("Variable type_id %s, expect LoDTensor/SelectedRows.",`
	`250`	`+ var->Type().name());`
`249`	`251`	`}`
`250`	`252`	`return t;`
`251`	`253`	`}`
`@@ -407,7 +409,8 @@ class RuntimeInferShapeContext : public InferShapeContext {`
`407`	`409`	`} else if (var->IsType<SelectedRows>()) {`
`408`	`410`	`return var->Get<SelectedRows>().GetCompleteDims();`
`409`	`411`	`} else {`
`410`		`- PADDLE_THROW("Variable type must be LoDTensor/SelectedRows.");`
	`412`	`+ PADDLE_THROW("Variable %s type_id %s, expect LoDTensor/SelectedRows.",`
	`413`	`+ name, var->Type().name());`
`411`	`414`	`}`
`412`	`415`	`}`
`413`	`416`
`@@ -418,7 +421,8 @@ class RuntimeInferShapeContext : public InferShapeContext {`
`418`	`421`	`} else if (var->IsType<SelectedRows>()) {`
`419`	`422`	`var->GetMutable<SelectedRows>()->set_height(dim[0]);`
`420`	`423`	`} else {`
`421`		`- PADDLE_THROW("Variable type must be LoDTensor/SelectedRows.");`
	`424`	`+ PADDLE_THROW("Variable %s type_id %s, expect LoDTensor/SelectedRows.",`
	`425`	`+ name, var->Type().name());`
`422`	`426`	`}`
`423`	`427`	`}`
`424`	`428`