pass size when copy

typhoonzero · typhoonzero · commit dca9941e4bbd · 2018-02-12T13:58:41.000+08:00
diff --git a/paddle/fluid/operators/concat_op.h b/paddle/fluid/operators/concat_op.h
@@ -38,7 +38,7 @@ class ConcatKernel : public framework::OpKernel<T> {
       auto in_stride = framework::stride_numel(in->dims());
       StridedNumelCopyWithAxis<T>(ctx.device_context(), axis,
                                   out->data<T>() + output_offset, out_stride,
-                                  in->data<T>(), in_stride);
+                                  in->data<T>(), in_stride, in_stride[axis]);
       output_offset += in_stride[axis];
     }
   }
@@ -59,7 +59,7 @@ class ConcatGradKernel : public framework::OpKernel<T> {
       auto out_stride = framework::stride_numel(out->dims());
       StridedNumelCopyWithAxis<T>(ctx.device_context(), axis, out->data<T>(),
                                   out_stride, in->data<T>() + input_offset,
-                                  in_stride);
+                                  in_stride, out_stride[axis]);
       input_offset += out_stride[axis];
     }
   }
diff --git a/paddle/fluid/operators/split_op.h b/paddle/fluid/operators/split_op.h
@@ -38,7 +38,7 @@ class SplitOpKernel : public framework::OpKernel<T> {
       auto out_stride = framework::stride_numel(out->dims());
       StridedNumelCopyWithAxis<T>(ctx.device_context(), axis, out->data<T>(),
                                   out_stride, in->data<T>() + input_offset,
-                                  in_stride);
+                                  in_stride, out_stride[axis]);
       input_offset += out_stride[axis];
     }
   }
diff --git a/paddle/fluid/operators/strided_memcpy.h b/paddle/fluid/operators/strided_memcpy.h
@@ -54,11 +54,11 @@ inline void StridedNumelCopyWithAxis(const platform::DeviceContext& ctx,
                                      int64_t axis, T* dst,
                                      const framework::DDim& dst_stride_numel,
                                      const T* src,
-                                     const framework::DDim& src_stride_numel) {
+                                     const framework::DDim& src_stride_numel,
+                                     int64_t size) {
   int64_t before = dst_stride_numel[0] / dst_stride_numel[axis];
   int64_t src_after = src_stride_numel[axis];
   int64_t dst_after = dst_stride_numel[axis];
-  int64_t copy_size = std::min(src_after, dst_after);
   auto place = ctx.GetPlace();
 
   PADDLE_ENFORCE_EQ(src_stride_numel.size(), dst_stride_numel.size(),
@@ -83,15 +83,14 @@ inline void StridedNumelCopyWithAxis(const platform::DeviceContext& ctx,
     if (platform::is_cpu_place(place)) {
       auto& cpu_place = boost::get<platform::CPUPlace>(place);
       memory::Copy(cpu_place, dst + i * dst_after, cpu_place,
-                   src + i * src_after, sizeof(T) * copy_size);
+                   src + i * src_after, sizeof(T) * size);
     } else {
 #ifdef PADDLE_WITH_CUDA
       auto& gpu_place = boost::get<platform::CUDAPlace>(place);
       auto& cuda_ctx =
           reinterpret_cast<const platform::CUDADeviceContext&>(ctx);
       memory::Copy(gpu_place, dst + i * dst_after, gpu_place,
-                   src + i * src_after, sizeof(T) * copy_size,
-                   cuda_ctx.stream());
+                   src + i * src_after, sizeof(T) * size, cuda_ctx.stream());
 #else
       PADDLE_THROW("Paddle is not compiled with GPU");
 #endif
diff --git a/python/paddle/v2/fluid/distribute_transpiler.py b/python/paddle/v2/fluid/distribute_transpiler.py
@@ -121,6 +121,7 @@ def split_dense_variable(var_list,
                 block_size += dim1 - remains
         # update split_count after aligning
         split_count = int(math.ceil(var_numel / float(block_size)))
+        print("###split var ", var.name, var.shape, block_size, split_count)
         for block_id in xrange(split_count):
             curr_block_size = min(block_size, var_numel - (
                 (block_id) * block_size))
@@ -255,13 +256,15 @@ def _create_vars_from_blocklist(self, program, block_list):
                 splited_shape = [rows]
                 if len(orig_shape) >= 2:
                     splited_shape.extend(orig_shape[1:])
+                print("###splited: ", size, rows, splited_shape)
                 var = program.global_block().create_var(
                     name="%s.block%d" % (varname, i),
                     psersistable=False,
                     dtype=orig_var.dtype,
                     type=orig_var.type,
                     shape=splited_shape)  # flattend splited var
                 var_mapping[varname].append(var)
+                print("###created split var ", var)
         return var_mapping
 
     def _clone_var(self, block, var):
@@ -528,6 +531,8 @@ def get_pserver_program(self, endpoint):
         """
         # step5
         pserver_program = Program()
+        print("param mapping on pserver: #### ",
+              self.param_grad_ep_mapping[endpoint]["params"])
         for v in self.param_grad_ep_mapping[endpoint]["params"]:
             self._clone_var(pserver_program.global_block(), v)
         for v in self.param_grad_ep_mapping[endpoint]["grads"]:

Original file line number	Diff line number	Diff line change
`@@ -38,7 +38,7 @@ class ConcatKernel : public framework::OpKernel<T> {`
`38`	`38`	`auto in_stride = framework::stride_numel(in->dims());`
`39`	`39`	`StridedNumelCopyWithAxis<T>(ctx.device_context(), axis,`
`40`	`40`	`out->data<T>() + output_offset, out_stride,`
`41`		`- in->data<T>(), in_stride);`
	`41`	`+ in->data<T>(), in_stride, in_stride[axis]);`
`42`	`42`	`output_offset += in_stride[axis];`
`43`	`43`	`}`
`44`	`44`	`}`
`@@ -59,7 +59,7 @@ class ConcatGradKernel : public framework::OpKernel<T> {`
`59`	`59`	`auto out_stride = framework::stride_numel(out->dims());`
`60`	`60`	`StridedNumelCopyWithAxis<T>(ctx.device_context(), axis, out->data<T>(),`
`61`	`61`	`out_stride, in->data<T>() + input_offset,`
`62`		`- in_stride);`
	`62`	`+ in_stride, out_stride[axis]);`
`63`	`63`	`input_offset += out_stride[axis];`
`64`	`64`	`}`
`65`	`65`	`}`
Original file line number	Diff line number	Diff line change
`@@ -38,7 +38,7 @@ class SplitOpKernel : public framework::OpKernel<T> {`
`38`	`38`	`auto out_stride = framework::stride_numel(out->dims());`
`39`	`39`	`StridedNumelCopyWithAxis<T>(ctx.device_context(), axis, out->data<T>(),`
`40`	`40`	`out_stride, in->data<T>() + input_offset,`
`41`		`- in_stride);`
	`41`	`+ in_stride, out_stride[axis]);`
`42`	`42`	`input_offset += out_stride[axis];`
`43`	`43`	`}`
`44`	`44`	`}`