AXERA-TECH
diff --git a/‎src/runner/LLM.hpp‎
Lines changed: 3 additions & 106 deletions b/‎src/runner/LLM.hpp‎
Lines changed: 3 additions & 106 deletions
diff --git a/‎src/runner/ax_model_runner/ax_model_runner.hpp‎
Lines changed: 53 additions & 59 deletions b/‎src/runner/ax_model_runner/ax_model_runner.hpp‎
Lines changed: 53 additions & 59 deletions
@@ -184,7 +184,7 @@ class LLM
 
         std::vector<int> rets(attr.axmodel_num);
         std::atomic<int> process_idx = 2;
-#pragma omp parallel for
+#pragma omp parallel for if (_attr.dev_ids.size() > 1)
         for (int i = 0; i < attr.axmodel_num; i++)
         {
             char axmodel_path[1024];
@@ -273,9 +273,9 @@ class LLM
     {
         for (int i = 0; i < _attr.axmodel_num; i++)
         {
-            llama_layers[i].layer.release();
+            llama_layers[i].layer.deinit();
         }
-        llama_post.release();
+        llama_post.deinit();
 
         embed_selector.Deinit();
 
@@ -710,109 +710,6 @@ class LLM
         return 0;
     }
 
-    // int Encode(cv::Mat src, std::vector<unsigned short> &out_embed)
-    // {
-    //     std::vector<float> mean = {0.485, 0.456, 0.406};
-    //     std::vector<float> scale = {0.229, 0.224, 0.225};
-    //     timer t;
-    //     t.start();
-    //     cv::Mat dst;
-    //     cv::resize(src, dst, cv::Size(_attr.image_encoder_width, _attr.image_encoder_height));
-    //     cv::cvtColor(dst, dst, cv::COLOR_BGR2RGB);
-
-    //     // std::vector<float> input_data(dst.rows * dst.cols * 3);
-
-    //     float *input_data = (float *)image_encoder.get_input(0).pVirAddr;
-
-    //     unsigned char *img_data = dst.data;
-    //     int letterbox_rows = dst.rows;
-    //     int letterbox_cols = dst.cols;
-
-    //     for (int h = 0; h < letterbox_rows; h++)
-    //     {
-    //         for (int w = 0; w < letterbox_cols; w++)
-    //         {
-    //             for (int c = 0; c < 3; c++)
-    //             {
-    //                 int in_index = h * letterbox_cols * 3 + w * 3 + c;
-    //                 int out_index = c * letterbox_rows * letterbox_cols + h * letterbox_cols + w;
-    //                 input_data[out_index] = (float(img_data[in_index]) / 255.0 - mean[c]) / scale[c];
-    //             }
-    //         }
-    //     }
-
-    //     // void *data = image_encoder.get_input("input").pVirAddr;
-    //     // memcpy(data, dst.data, dst.rows * dst.cols * 3);
-
-    //     // std::vector<char> vit_in;
-    //     // if (!read_file("/home/axera/internvl2_5-8b-mpo_ax-infer/img.bin", vit_in))
-    //     // {
-    //     //     ALOGE("read img.bin failed");
-    //     //     return -1;
-    //     // }
-    //     // memcpy(input_data, vit_in.data(), image_encoder.get_input(0).nSize);
-
-    //     image_encoder.inference();
-    //     int size = 1;
-    //     for (size_t i = 0; i < image_encoder.get_output(0).vShape.size(); i++)
-    //     {
-    //         size *= image_encoder.get_output(0).vShape[i];
-    //     }
-
-    //     out_embed.resize(size);
-
-    //     float *out_data = (float *)image_encoder.get_output(0).pVirAddr;
-
-    //     for (size_t i = 0; i < size; i++)
-    //     {
-    //         out_embed[i] = bfloat16(out_data[i]).data;
-    //     }
-
-    //     // memcpy(out_embed.data(), image_encoder.get_output(0).pVirAddr, image_encoder.get_output(0).nSize);
-    //     ALOGI("image encode time : %0.2f ms, size : %ld", t.cost(), out_embed.size());
-    //     return 0;
-    // }
-
-    // int Encode(std::vector<unsigned short> &img_embed, std::vector<unsigned short> &out_embed, std::string prompt = "What is in the image?")
-    // {
-    //     std::vector<int> input_ids = tokenizer->Encode(prompt, true);
-
-    //     // constexpr int IMG_CONTEXT = 151648;	// InternVL2
-    //     // constexpr int IMG_CONTEXT = 151667; // InternVL2.5
-    //     constexpr int IMG_CONTEXT = 92546; // InternVL2.5-8B-MPO
-    //     int offset = 0;
-
-    //     for (size_t i = 0; i < input_ids.size(); i++)
-    //     {
-    //         if (input_ids[i] == IMG_CONTEXT)
-    //         {
-    //             offset = i;
-    //             break;
-    //         }
-    //     }
-
-    //     // for (size_t i = 0; i < input_ids.size(); i++)
-    //     // {
-    //     //     printf("%d ", input_ids[i]);
-    //     // }
-    //     // printf("\n");
-
-    //     if (input_ids.size() > _attr.prefill_token_num)
-    //     {
-    //         ALOGE("input_ids(%ld) > prefill_token_num(%d)", input_ids.size(), _attr.prefill_token_num);
-    //         return -1;
-    //     }
-    //     out_embed.resize(input_ids.size() * _attr.tokens_embed_size);
-
-    //     for (size_t i = 0; i < input_ids.size(); i++)
-    //     {
-    //         embed_selector.getByIndex(input_ids[i], out_embed.data() + i * _attr.tokens_embed_size);
-    //     }
-    //     memcpy(out_embed.data() + offset * _attr.tokens_embed_size, img_embed.data(), img_embed.size() * sizeof(unsigned short));
-    //     ALOGI("offset : %d out_embed.size() : %ld", offset, out_embed.size());
-    //     return 0;
-    // }
-
     int Encode(std::vector<unsigned short> &out_embed, std::string prompt, std::string last_reply, std::vector<int> &tokens_ids, std::vector<int> &tokens_diff)
     {
         if (!tokenizer->Encode(prompt, last_reply, tokens_ids, tokens_diff))
 
@@ -58,9 +58,35 @@ class ax_runner_base
 
     int dev_id = 0;
 
+    // 辅助函数：初始化完成后构建映射表，提高后续查找速度
+    void build_tensor_maps()
+    {
+        map_input_tensors.clear();
+        for (const auto &t : minput_tensors)
+            map_input_tensors[t.sName] = t;
+
+        map_output_tensors.clear();
+        for (const auto &t : moutput_tensors)
+            map_output_tensors[t.sName] = t;
+
+        map_group_input_tensors.clear();
+        for (const auto &grp : mgroup_input_tensors)
+        {
+            for (const auto &t : grp)
+                map_group_input_tensors[t.sName].push_back(t);
+        }
+
+        map_group_output_tensors.clear();
+        for (const auto &grp : mgroup_output_tensors)
+        {
+            for (const auto &t : grp)
+                map_group_output_tensors[t.sName].push_back(t);
+        }
+    }
+
 public:
     virtual int init(const char *model_file, int devid) = 0;
-    virtual int init(char *model_buffer, size_t model_size) = 0;
+    virtual int init(char *model_buffer, size_t model_size, int devid) = 0;
 
     virtual void deinit() = 0;
 
@@ -74,83 +100,51 @@ class ax_runner_base
 
     const ax_runner_tensor_t &get_input(int idx) { return minput_tensors[idx]; }
     const ax_runner_tensor_t *get_inputs_ptr() { return minput_tensors.data(); }
-    const ax_runner_tensor_t &get_input(std::string name)
+
+    const ax_runner_tensor_t &get_input(const std::string &name)
     {
-        if (map_input_tensors.size() == 0)
-        {
-            for (size_t i = 0; i < minput_tensors.size(); i++)
-            {
-                map_input_tensors[minput_tensors[i].sName] = minput_tensors[i];
-            }
-        }
-        if (map_input_tensors.find(name) == map_input_tensors.end())
-        {
+        auto it = map_input_tensors.find(name);
+        if (it == map_input_tensors.end())
             throw std::runtime_error("input tensor not found: " + name);
-        }
-
-        return map_input_tensors[name];
+        return it->second;
     }
 
     const ax_runner_tensor_t &get_input(int grpid, int idx) { return mgroup_input_tensors[grpid][idx]; }
     const ax_runner_tensor_t *get_inputs_ptr(int grpid) { return mgroup_input_tensors[grpid].data(); }
-    const ax_runner_tensor_t &get_input(int grpid, std::string name)
+
+    const ax_runner_tensor_t &get_input(int grpid, const std::string &name)
     {
-        if (map_group_input_tensors.size() == 0)
-        {
-            for (size_t i = 0; i < mgroup_input_tensors.size(); i++)
-            {
-                for (size_t j = 0; j < mgroup_input_tensors[i].size(); j++)
-                {
-                    map_group_input_tensors[mgroup_input_tensors[i][j].sName].push_back(mgroup_input_tensors[i][j]);
-                }
-            }
-        }
-        if (map_group_input_tensors.find(name) == map_group_input_tensors.end())
-        {
+        auto it = map_group_input_tensors.find(name);
+        if (it == map_group_input_tensors.end())
             throw std::runtime_error("input tensor not found: " + name);
-        }
-        return map_group_input_tensors[name][grpid];
-        // return map_input_tensors[name];
+        // 简单的越界检查
+        if (grpid < 0 || grpid >= (int)it->second.size())
+            throw std::runtime_error("group id out of range for: " + name);
+        return it->second[grpid];
     }
 
     const ax_runner_tensor_t &get_output(int idx) { return moutput_tensors[idx]; }
     const ax_runner_tensor_t *get_outputs_ptr() { return moutput_tensors.data(); }
-    const ax_runner_tensor_t &get_output(std::string name)
+
+    const ax_runner_tensor_t &get_output(const std::string &name)
     {
-        if (map_output_tensors.size() == 0)
-        {
-            for (size_t i = 0; i < moutput_tensors.size(); i++)
-            {
-                map_output_tensors[moutput_tensors[i].sName] = moutput_tensors[i];
-            }
-        }
-        if (map_output_tensors.find(name) == map_output_tensors.end())
-        {
+        auto it = map_output_tensors.find(name);
+        if (it == map_output_tensors.end())
             throw std::runtime_error("output tensor not found: " + name);
-        }
-
-        return map_output_tensors[name];
+        return it->second;
     }
 
     const ax_runner_tensor_t &get_output(int grpid, int idx) { return mgroup_output_tensors[grpid][idx]; }
     const ax_runner_tensor_t *get_outputs_ptr(int grpid) { return mgroup_output_tensors[grpid].data(); }
-    const ax_runner_tensor_t &get_output(int grpid, std::string name)
+
+    const ax_runner_tensor_t &get_output(int grpid, const std::string &name)
     {
-        if (map_group_output_tensors.size() == 0)
-        {
-            for (size_t i = 0; i < mgroup_output_tensors.size(); i++)
-            {
-                for (size_t j = 0; j < mgroup_output_tensors[i].size(); j++)
-                {
-                    map_group_output_tensors[mgroup_output_tensors[i][j].sName].push_back(mgroup_output_tensors[i][j]);
-                }
-            }
-        }
-        if (map_group_output_tensors.find(name) == map_group_output_tensors.end())
-        {
-            throw std::runtime_error("input tensor not found: " + name);
-        }
-        return map_group_output_tensors[name][grpid];
+        auto it = map_group_output_tensors.find(name);
+        if (it == map_group_output_tensors.end())
+            throw std::runtime_error("output tensor not found: " + name);
+        if (grpid < 0 || grpid >= (int)it->second.size())
+            throw std::runtime_error("group id out of range for: " + name);
+        return it->second[grpid];
     }
 
     virtual int get_algo_width() = 0;