Merge pull request #2 from lanhin/dev_pim_multithread

lanhin · web-flow · commit 3ec476ba9940 · 2025-04-14T17:15:11.000+08:00
添加测试cpu的执行时间
diff --git a/examples/tensor/ts.cpp b/examples/tensor/ts.cpp
@@ -3,7 +3,9 @@
 #include <iomanip>
 #include <chrono>
 
-#define NR_DPUS 8
+#include <vector>
+
+#define NR_DPUS 2048
 #define NR_LAYER 2
 #define DPU_BINARY "./dpu/gemv_dpu"
 
@@ -21,6 +23,8 @@ int gemv_dpu_kernel(struct pim_context *context, struct ggml_tensor * w, struct
   uint32_t pim_offset = 0;
   struct dpu_set_t dpu;
 
+  std::chrono::high_resolution_clock::time_point ex_tp1 = std::chrono::high_resolution_clock::now();
+
   //ggml_table_f32_f16 tbl is transferred to pim
   DPU_ASSERT(dpu_broadcast_to(context->dpu_set, DPU_MRAM_HEAP_POINTER_NAME, pim_offset, (void *)(ggml_table_f32_f16), sizeof(ggml_table_f32_f16), DPU_XFER_DEFAULT));
   pim_offset += sizeof(ggml_table_f32_f16);
@@ -39,7 +43,7 @@ int gemv_dpu_kernel(struct pim_context *context, struct ggml_tensor * w, struct
   context->pim_metadata.layer_len = w->nb[1] * (context->pim_metadata.rows_per_dpu);
   context->pim_metadata.input_offset = sizeof(ggml_table_f32_f16) + sizeof(struct pim_meta) + context->pim_metadata.layer_len * NR_LAYER;
 
-  std::cout << "layer_num = " << NR_LAYER << ", weight_type = " << (uint16_t)(w->type) << ", rows_per_dpu = " << w->ne[1] / NR_DPUS << ", rest_rows = " << w->ne[1] % NR_DPUS << ", layer_len = " << context->pim_metadata.layer_len << ", input_offset = " << context->pim_metadata.input_offset << std::endl;
+  // std::cout << "layer_num = " << NR_LAYER << ", weight_type = " << (uint16_t)(w->type) << ", rows_per_dpu = " << w->ne[1] / NR_DPUS << ", rest_rows = " << w->ne[1] % NR_DPUS << ", layer_len = " << context->pim_metadata.layer_len << ", input_offset = " << context->pim_metadata.input_offset << std::endl;
 
   //Todo: NR_DPUS contexts are dispatched to different dpus(rest row is different on different dpu)
   DPU_ASSERT(dpu_broadcast_to(context->dpu_set, DPU_MRAM_HEAP_POINTER_NAME, pim_offset, &(context->pim_metadata), sizeof(struct pim_meta), DPU_XFER_DEFAULT));
@@ -61,6 +65,15 @@ int gemv_dpu_kernel(struct pim_context *context, struct ggml_tensor * w, struct
     DPU_ASSERT(dpu_push_xfer(context->dpu_set, DPU_XFER_TO_DPU, DPU_MRAM_HEAP_POINTER_NAME, pim_offset + layer_len * layeridx, layer_len, DPU_XFER_DEFAULT));
   }
 
+  std::chrono::high_resolution_clock::time_point ex_tp2 = std::chrono::high_resolution_clock::now();
+
+  std::chrono::duration<size_t, std::nano> dur = ex_tp2 - ex_tp1;
+
+  std::cout << "dpu: w传输用时：" << std::chrono::duration_cast<std::chrono::milliseconds>(dur).count() << " ms" << std::endl;
+  std::cout << "dpu: w传输用时：" << std::chrono::duration_cast<std::chrono::microseconds>(dur).count() << " us" << std::endl;
+
+  ex_tp1 = std::chrono::high_resolution_clock::now();
+
   // Transfer input into DPUs
   pim_matrix_des input_descript;
   input_descript.type = (int32_t)in_q->type;
@@ -77,14 +90,22 @@ int gemv_dpu_kernel(struct pim_context *context, struct ggml_tensor * w, struct
   DPU_ASSERT(dpu_broadcast_to(context->dpu_set, DPU_MRAM_HEAP_POINTER_NAME, input_offset, in_q->data, bclen, DPU_XFER_DEFAULT));
   input_offset += bclen;
 
-  std::chrono::high_resolution_clock::time_point ex_tp1 = std::chrono::high_resolution_clock::now();
+  ex_tp2 = std::chrono::high_resolution_clock::now();
+
+  dur = ex_tp2 - ex_tp1;
+
+  std::cout << "dpu: in_q传输用时：" << std::chrono::duration_cast<std::chrono::milliseconds>(dur).count() << " ms" << std::endl;
+  std::cout << "dpu: in_q传输用时：" << std::chrono::duration_cast<std::chrono::microseconds>(dur).count() << " us" << std::endl;
+
+  ex_tp1 = std::chrono::high_resolution_clock::now();
   // Launch DPU kernel
   DPU_ASSERT(dpu_launch(context->dpu_set, DPU_SYNCHRONOUS));
-  std::chrono::high_resolution_clock::time_point ex_tp2 = std::chrono::high_resolution_clock::now();
+  ex_tp2 = std::chrono::high_resolution_clock::now();
 
-  std::chrono::duration<size_t, std::nano> dur = ex_tp2 - ex_tp1;
+  dur = ex_tp2 - ex_tp1;
 
-  std::cout << "执行用时：" << std::chrono::duration_cast<std::chrono::milliseconds>(dur).count() << " ms" << std::endl;
+  std::cout << "dpu: 执行用时：" << std::chrono::duration_cast<std::chrono::milliseconds>(dur).count() << " ms" << std::endl;
+  std::cout << "dpu: 执行用时：" << std::chrono::duration_cast<std::chrono::microseconds>(dur).count() << " us" << std::endl;
 
   // Check results
   float *mul_mat_res = (float *)res->data;
@@ -96,6 +117,49 @@ int gemv_dpu_kernel(struct pim_context *context, struct ggml_tensor * w, struct
   return 0;
 }
 
+
+void gemv_cpu_kernel(struct pim_context *context, struct ggml_tensor * w, struct ggml_tensor * in_q, struct ggml_tensor * res_comp) {
+
+  // 初始化上下文
+  ggml_init_params params = {.mem_size = 256*1024*1024};
+  ggml_context* ctx = ggml_init(params);
+
+  // 创建tensor
+  ggml_tensor* A = ggml_new_tensor_2d(ctx, GGML_TYPE_Q4_0, 4096, 4096);
+  ggml_tensor* B = ggml_new_tensor_2d(ctx, GGML_TYPE_Q8_0, 4096, 1);
+
+  assert(A->ne[0] == w->ne[0] && A->ne[1] == w->ne[1] && A->ne[2] == w->ne[2] && A->ne[3] == w->ne[3]);
+  assert(B->ne[0] == in_q->ne[0] && B->ne[1] == in_q->ne[1] && B->ne[2] == in_q->ne[2] && B->ne[3] == in_q->ne[3]);
+
+  memcpy(A->data, w->data, ggml_nbytes(w));
+  memcpy(B->data, in_q->data, ggml_nbytes(in_q));
+
+  // 构建计算图
+  ggml_tensor* C = ggml_mul_mat(ctx, A, B);
+  ggml_cgraph* gf = ggml_new_graph(ctx);
+  ggml_build_forward_expand(gf, C);
+
+  std::chrono::high_resolution_clock::time_point ex_tp1 = std::chrono::high_resolution_clock::now();
+  // 执行计算
+  ggml_graph_compute_with_ctx(ctx, gf, 64); // 使用4线程
+  std::chrono::high_resolution_clock::time_point ex_tp2 = std::chrono::high_resolution_clock::now();
+
+  std::chrono::duration<size_t, std::nano> dur = ex_tp2 - ex_tp1;
+
+  std::cout << "执行用时：" << std::chrono::duration_cast<std::chrono::microseconds>(dur).count() << " us" << std::endl;
+  std::cout << "执行用时：" << std::chrono::duration_cast<std::chrono::milliseconds>(dur).count() << " ms" << std::endl;
+
+  
+  // 保存结果
+  print_tensor(C, stdout);
+
+  std::cout << "error between cpu and dpu before gemv:" << std::endl;
+  compare_tensor(C, res_comp);
+  
+  // 释放资源
+  ggml_free(ctx);
+}
+
 int main(int argc, char** argv) {
   // init fp table for fp16 dump
   fp_table_init();
@@ -106,15 +170,15 @@ int main(int argc, char** argv) {
   DPU_ASSERT(dpu_alloc(NR_DPUS, NULL, &pqcontext->dpu_set));
   DPU_ASSERT(dpu_load(pqcontext->dpu_set, DPU_BINARY, NULL));
 
-  const char* filenamea = "tensor-files/a.tensor";
-  const char* filenameb = "tensor-files/b.tensor";
-  const char* filenamebq = "tensor-files/b_quant.tensor";
-  const char* filenamec = "tensor-files/c.tensor";
+  const char* filenamea   = "tensor-files/a.tensor";
+  const char* filenameb   = "tensor-files/b.tensor";
+  const char* filenamebq  = "tensor-files/b_quant.tensor";
+  const char* filenamec   = "tensor-files/c.tensor";
   const char* filenamec_p = "tensor-files/c_pim.tensor";
-  struct ggml_tensor * ts_a = tensor_import(filenamea);
-  struct ggml_tensor * ts_b = tensor_import(filenameb);
-  struct ggml_tensor * ts_bq = tensor_import(filenamebq);
-  struct ggml_tensor * ts_c = tensor_import(filenamec);
+  struct ggml_tensor * ts_a     = tensor_import(filenamea);
+  struct ggml_tensor * ts_b     = tensor_import(filenameb);
+  struct ggml_tensor * ts_bq    = tensor_import(filenamebq);
+  struct ggml_tensor * ts_c     = tensor_import(filenamec);
   struct ggml_tensor * ts_c_pim = tensor_import(filenamec_p);
   // std::cout<<"ts_a:"<<std::endl;
   // dump_tensor(ts_a, stdout);
@@ -126,20 +190,29 @@ int main(int argc, char** argv) {
   // dump_tensor(ts_c, stdout);
   // std::cout<<"ts_c_pim:"<<std::endl;
   // dump_tensor(ts_c_pim, stdout);
+// #define IS_CONTIGUOUS(t, tn) {\
+//   if(ggml_is_contiguous(t)) printf("%s is contiguous\n", tn);\
+// }\
 
-  std::cout << "ts_a: " << std::endl;
-  print_tensor(ts_a, stdout);
-  std::cout << "ts_b: " << std::endl;
-  print_tensor(ts_b, stdout);
+//   IS_CONTIGUOUS(ts_a, "ts_a");
+//   IS_CONTIGUOUS(ts_b, "ts_b");
+//   IS_CONTIGUOUS(ts_bq, "ts_bq");
+//   IS_CONTIGUOUS(ts_c, "ts_c");
+//   IS_CONTIGUOUS(ts_c_pim, "ts_ac_pim");
+// #undef IS_CONTIGUOUS
 
-  gemv_dpu_kernel(pqcontext, ts_a, ts_bq, ts_c_pim);
-  // std::cout<<"ts_c_pim calculated by DPUs:"<<std::endl;
-  // dump_tensor(ts_c_pim, stdout);
 
-  float first_res = mul_add_q4_0_q8_0(ts_a, ts_bq);
-  std::cout<<"first element: "<<std::fixed << std::setprecision(6)<<first_res<<std::endl;
+  // dpu code 
+  // gemv_dpu_kernel(pqcontext, ts_a, ts_bq, ts_c_pim);
+  // std::cout << "error between c and c_pim:" << std::endl;
+  // compare_tensor(ts_c, ts_c_pim);
+
+  // cpu code
+  gemv_cpu_kernel(pqcontext, ts_a, ts_bq, ts_c_pim);
+
+  // float first_res = mul_add_q4_0_q8_0(ts_a, ts_bq);
+  // std::cout<<"first element: "<<std::fixed << std::setprecision(6)<<first_res<<std::endl;
 
-  std::cout << "error between c and c_pim:" << std::endl;
-  compare_tensor(ts_c, ts_c_pim);
+  
   return 0;
 }