MoveBroadcast With Tiling

lamyaa · JaccovG · commit 076baf803fa1 · 2022-10-20T13:27:56.000Z
diff --git a/include/api/mli_ref_runtime_api.hpp b/include/api/mli_ref_runtime_api.hpp
@@ -1137,12 +1137,19 @@ class MoveBroadcast : public ExecutionInterface {
 
     mli_status Update() override;
 
+    // TODO: remove this method and replace with usage of Move kernel once it implemented.
+    void GetIOSizesAndOffsets(uint32_t input_size[kMoveBroadcastRank], uint32_t output_size[kMoveBroadcastRank],
+                              int32_t input_offsets[kMoveBroadcastRank], int32_t output_offsets[kMoveBroadcastRank]);
+
+
 private:
-    TensorIterator<InternalBuffer, kMoveBroadcastRank, kMoveBroadcastIterRank> m_src;
-    TensorIterator<InternalBuffer, kMoveBroadcastRank, kMoveBroadcastIterRank> m_dst;
+    TensorIterator<OffsetBuffer, kMoveBroadcastRank, kMoveBroadcastIterRank> m_src;
+    TensorIterator<OffsetBuffer, kMoveBroadcastRank, kMoveBroadcastIterRank> m_dst;
+    Tensor<InternalBuffer, kMoveBroadcastRank> m_tile_src;
+    Tensor<InternalBuffer, kMoveBroadcastRank> m_tile_dst;
 
     template <typename buf_T, unsigned N>
-    void MoveBroadcastRun(TensorIterator<buf_T, N, N> src, TensorIterator<buf_T, N, N> dst);
+    void MoveBroadcastRun(Tensor<buf_T, N> &src, Tensor<buf_T, N> &dst);
 };
 
 } // namespace snps_arc::metaware::mli::ref
diff --git a/include/mli_types.hpp b/include/mli_types.hpp
@@ -137,8 +137,8 @@ constexpr unsigned kEltwiseRank = 4;
 constexpr short int kReduceMaxRank = 4;
 constexpr short int kReduceMaxIterRank = 4;
 
-constexpr unsigned kMoveBroadcastRank = 5;
-constexpr unsigned kMoveBroadcastIterRank = 5;
+constexpr unsigned kMoveBroadcastRank = 4;      // ToDo: when mli_tensor takes [rank=5] -> change rank from 4 to 5.
+constexpr unsigned kMoveBroadcastIterRank = 4;  // ToDo: when mli_tensor takes [rank=5] -> change rank from 4 to 5.
 
 constexpr short int kResizeDim = 2;
 constexpr short int kResizeBilinearRank = 4;
diff --git a/lib/src/move/mli_move_broadcast_runtime.cc b/lib/src/move/mli_move_broadcast_runtime.cc
@@ -19,30 +19,30 @@ namespace snps_arc::metaware::mli::ref {
 
 MoveBroadcast::MoveBroadcast(void* kernel_private_data_buffer, size_t size, uint64_t membases[], int num_mems) {
     MLI_ASSERT(size == sizeof(MoveBroadcastPrivateData));
-    MoveBroadcastPrivateData private_data;
-    memcpy(&private_data, kernel_private_data_buffer, sizeof(MoveBroadcastPrivateData));
-    MLI_ASSERT(private_data.kernel_id == kMoveBroadcastId);
-    MLI_ASSERT(private_data.size == sizeof(MoveBroadcastPrivateData));
-
-    m_src = TensorIterator<InternalBuffer, kMoveBroadcastRank, kMoveBroadcastIterRank>(private_data.src, membases, num_mems);
-    m_dst = TensorIterator<InternalBuffer, kMoveBroadcastRank, kMoveBroadcastIterRank>(private_data.dst, membases, num_mems);
-    m_src.Reset();
-    m_dst.Reset();
+    MoveBroadcastPrivateData private_buffer;
+    memcpy(&private_buffer, kernel_private_data_buffer, sizeof(MoveBroadcastPrivateData));
+    MLI_ASSERT(private_buffer.kernel_id == kMoveBroadcastId);
+    MLI_ASSERT(private_buffer.size == sizeof(MoveBroadcastPrivateData));
+
+    m_src = private_buffer.src;
+    m_dst = private_buffer.dst;
+    m_tile_src = Tensor<InternalBuffer, kMoveBroadcastRank>(m_src.GetSubTensor(), membases, num_mems);
+    m_tile_dst = Tensor<InternalBuffer, kMoveBroadcastRank>(m_dst.GetSubTensor(), membases, num_mems);
 }
 
 template <typename buf_T, unsigned N>
-int32_t tensor_read(TensorIterator<buf_T, N, N> tsr, uint32_t *index) {
+int32_t tensor_read(Tensor<buf_T, N> tsr, uint32_t *index) {
     int32_t result = 0;
-    int32_t offset = tsr.get_tensor().get_offset(index);
-    switch (tsr.get_tensor().get_elem_size()) {
+    int32_t offset = tsr.get_offset(index);
+    switch (tsr.get_elem_size()) {
         case sizeof(int8_t):
-            result = tsr.get_tensor().template read<int8_t>(offset);
+            result = tsr.template read<int8_t>(offset);
             break;
         case sizeof(int16_t):
-            result = tsr.get_tensor().template read<int16_t>(offset);
+            result = tsr.template read<int16_t>(offset);
             break;
         case sizeof(int32_t):
-            result = tsr.get_tensor().template read<int32_t>(offset);
+            result = tsr.template read<int32_t>(offset);
             break;
         default:
             MLI_ASSERT(false);
@@ -51,17 +51,17 @@ int32_t tensor_read(TensorIterator<buf_T, N, N> tsr, uint32_t *index) {
 }
 
 template <typename buf_T, unsigned N>
-void tensor_write(TensorIterator<buf_T, N, N> tsr, uint32_t *index, int32_t value) {
-    int32_t offset = tsr.get_tensor().get_offset(index);
-    switch (tsr.get_tensor().get_elem_size()) {
+void tensor_write(Tensor<buf_T, N> tsr, uint32_t *index, int32_t value) {
+    int32_t offset = tsr.get_offset(index);
+    switch (tsr.get_elem_size()) {
         case sizeof(int8_t):
-            tsr.get_tensor().template write<int8_t>(offset, value);
+            tsr.template write<int8_t>(offset, value);
             break;
         case sizeof(int16_t):
-            tsr.get_tensor().template write<int16_t>(offset, value);
+            tsr.template write<int16_t>(offset, value);
             break;
         case sizeof(int32_t):
-            tsr.get_tensor().template write<int32_t>(offset, value);
+            tsr.template write<int32_t>(offset, value);
             break;
         default:
             MLI_ASSERT(false);
@@ -70,19 +70,19 @@ void tensor_write(TensorIterator<buf_T, N, N> tsr, uint32_t *index, int32_t valu
 
 // Move Broadcast Core Function
 template <typename buf_T, unsigned N>
-void MoveBroadcast::MoveBroadcastRun(TensorIterator<buf_T, N, N> src, TensorIterator<buf_T, N, N> dst) {
+void MoveBroadcast::MoveBroadcastRun(Tensor<buf_T, N> &src, Tensor<buf_T, N> &dst) {
     uint32_t src_idx[N] = {0};
     uint32_t dst_idx[N] = {0};
     uint32_t src_shape[N] = {0};
     uint32_t dst_shape[N] = {0};
-    uint32_t src_rank = src.get_tensor().get_rank();
-    uint32_t dst_rank = dst.get_tensor().get_rank();
+    uint32_t src_rank = src.get_rank();
+    uint32_t dst_rank = dst.get_rank();
 
     MLI_ASSERT(src_rank == dst_rank);
 
     // get shapes
-    src.get_full_shape(src_shape);
-    dst.get_full_shape(dst_shape);
+    src.get_dims(src_shape);
+    dst.get_dims(dst_shape);
 
     // Tensors with rank less than MLI_MAX_RANK, the tensor is automatically filled with 1's
     for (uint32_t i = src_rank; i < kMoveBroadcastRank; i++) {
@@ -96,12 +96,14 @@ void MoveBroadcast::MoveBroadcastRun(TensorIterator<buf_T, N, N> src, TensorIter
         for (int d1_cnt = 0; d1_cnt < (int)dst_shape[1]; d1_cnt++) {
             for (int d2_cnt = 0; d2_cnt < (int)dst_shape[2]; d2_cnt++) {
                 for (int d3_cnt = 0; d3_cnt < (int)dst_shape[3]; d3_cnt++) {
-                    for (int d4_cnt = 0; d4_cnt < (int)dst_shape[4]; d4_cnt++) {
+                    // ToDo: when mli_tensor takes [rank=5] 
+                    // for (int d4_cnt = 0; d4_cnt < (int)dst_shape[4]; d4_cnt++) {
                         dst_idx[0] = d0_cnt;
                         dst_idx[1] = d1_cnt;
                         dst_idx[2] = d2_cnt;
                         dst_idx[3] = d3_cnt;
-                        dst_idx[4] = d4_cnt;
+                        // dst_idx[4] = d4_cnt;
+                        
                         // inner loop for move broad cast.
                         for (uint32_t i = 0; i < dst_rank; i++) {
                             if(src_shape[i] != dst_shape[i]) {
@@ -114,15 +116,15 @@ void MoveBroadcast::MoveBroadcastRun(TensorIterator<buf_T, N, N> src, TensorIter
                         }
                         int32_t value = tensor_read<buf_T, N>(src, src_idx);
                         tensor_write<buf_T, N>(dst, dst_idx, value);
-                    }
+                    // }
                 }
             }
         }
     }
 }
 
-mli_status MoveBroadcast::Issue() {
-    MoveBroadcastRun<InternalBuffer, kMoveBroadcastRank>(m_src, m_dst);
+mli_status MoveBroadcast::Issue() {    
+    MoveBroadcastRun<InternalBuffer, kMoveBroadcastRank>(m_tile_src, m_tile_dst);
     return MLI_STATUS_OK;
 }
 
@@ -131,7 +133,33 @@ mli_status MoveBroadcast::Prefetch() {
 }
 
 mli_status MoveBroadcast::Update() {
+    m_src.Next();
+    m_dst.Next();
+
+    const auto src_tile_tensor = m_src.GetSubTensor();
+    uint32_t src_tile_shape[kMoveBroadcastRank];
+    src_tile_tensor.get_dims(src_tile_shape);
+    m_tile_src = Tensor<InternalBuffer, kMoveBroadcastRank>(m_tile_src, src_tile_shape);
+
+    const auto dst_tile_tensor = m_dst.GetSubTensor();
+    uint32_t dst_tile_shape[kMoveBroadcastRank];
+    dst_tile_tensor.get_dims(dst_tile_shape);
+    m_tile_dst = Tensor<InternalBuffer, kMoveBroadcastRank>(m_tile_dst, dst_tile_shape);
+
     return MLI_STATUS_OK;
 }
 
+void MoveBroadcast::GetIOSizesAndOffsets(uint32_t src_size[kMoveBroadcastRank], uint32_t dst_size[kMoveBroadcastRank],
+                                         int32_t src_offsets[kMoveBroadcastRank], int32_t dst_offsets[kMoveBroadcastRank]) {
+    
+    m_src.get_pos(src_offsets);
+    m_dst.get_pos(dst_offsets);
+
+    const auto src_tile_tensor = m_src.GetSubTensor();
+    src_tile_tensor.get_dims(src_size);
+
+    const auto dst_tile_tensor = m_dst.GetSubTensor();
+    dst_tile_tensor.get_dims(dst_size);
+}
+
 }  // namespace snps_arc::metaware::mli::ref
diff --git a/user_tests/tests/mli_krn_move_broadcast_30/tests_mli_krn_move_broadcast_30.cc b/user_tests/tests/mli_krn_move_broadcast_30/tests_mli_krn_move_broadcast_30.cc