InfiniTensor
diff --git a/‎Cargo.toml‎
Lines changed: 1 addition & 1 deletion b/‎Cargo.toml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/user-guide/doc.md‎
Lines changed: 2 additions & 2 deletions b/‎docs/user-guide/doc.md‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎models/llama/nvidia-gpu/Cargo.toml‎ ‎models/llama/cuda/Cargo.toml‎models/llama/nvidia-gpu/Cargo.toml renamed to models/llama/cuda/Cargo.toml
Lines changed: 1 addition & 1 deletion b/‎models/llama/nvidia-gpu/Cargo.toml‎ ‎models/llama/cuda/Cargo.toml‎models/llama/nvidia-gpu/Cargo.toml renamed to models/llama/cuda/Cargo.toml
Lines changed: 1 addition & 1 deletion
diff --git a/‎models/llama/nvidia-gpu/build.rs‎ ‎models/llama/cuda/build.rs‎models/llama/nvidia-gpu/build.rs renamed to models/llama/cuda/build.rs b/‎models/llama/nvidia-gpu/build.rs‎ ‎models/llama/cuda/build.rs‎models/llama/nvidia-gpu/build.rs renamed to models/llama/cuda/build.rs
diff --git a/‎models/llama/nvidia-gpu/src/infer.rs‎ ‎models/llama/cuda/src/infer.rs‎models/llama/nvidia-gpu/src/infer.rs renamed to models/llama/cuda/src/infer.rs b/‎models/llama/nvidia-gpu/src/infer.rs‎ ‎models/llama/cuda/src/infer.rs‎models/llama/nvidia-gpu/src/infer.rs renamed to models/llama/cuda/src/infer.rs
diff --git a/‎models/llama/nvidia-gpu/src/lib.rs‎ ‎models/llama/cuda/src/lib.rs‎models/llama/nvidia-gpu/src/lib.rs renamed to models/llama/cuda/src/lib.rs
Lines changed: 1 addition & 0 deletions b/‎models/llama/nvidia-gpu/src/lib.rs‎ ‎models/llama/cuda/src/lib.rs‎models/llama/nvidia-gpu/src/lib.rs renamed to models/llama/cuda/src/lib.rs
Lines changed: 1 addition & 0 deletions
diff --git a/‎…ls/llama/nvidia-gpu/src/nccl_parallel.rs‎ ‎models/llama/cuda/src/nccl_parallel.rs‎models/llama/nvidia-gpu/src/nccl_parallel.rs renamed to models/llama/cuda/src/nccl_parallel.rs b/‎…ls/llama/nvidia-gpu/src/nccl_parallel.rs‎ ‎models/llama/cuda/src/nccl_parallel.rs‎models/llama/nvidia-gpu/src/nccl_parallel.rs renamed to models/llama/cuda/src/nccl_parallel.rs
diff --git a/‎models/llama/infini/src/infer.rs‎
Lines changed: 4 additions & 0 deletions b/‎models/llama/infini/src/infer.rs‎
Lines changed: 4 additions & 0 deletions
@@ -9,7 +9,7 @@ members = [
     "models/llama/common-cpu",
     "models/llama/opencl",
     "models/llama/infini",
-    "models/llama/nvidia-gpu",
+    "models/llama/cuda",
 
     "models/clip/common",
     "models/clip/common-cpu",
 
@@ -166,6 +166,6 @@ cargo test --release --package `model` --lib -- `test` --exact --nocapture
 | `llama-cpu`    | `infer::test_infer`         | 默认值“1”。任意间隔的正整数数组，表示每个线程分布模型的份数，数组的项数必须是 2 的幂 | 纯 cpu 后端，不需要任何额外依赖
 | `llama-infini` | `infer::test_infer`         | 默认值“cpu;0”。格式“硬件类型; 卡号”，硬件类型目前支持 `cpu`、`nv`、`ascend` | 九源统一软件栈后端
 | `llama-cl`     | `infer::test_infer`         | TODO | OpenCL 后端
-| `llama-nv`     | `infer::test_infer`         | 默认值“0”。单个非负整数，推理使用的卡号 | 原生 CUDA Toolkit 后端
-| `llama-nv`     | `nccl_parallel::test_infer` | 默认值“0”。任意间隔的非负整数集合，参与分布式推理的卡号 | 原生 CUDA Toolkit 后端，同时依赖 NCCL 实现分布式
+| `llama-cuda`   | `infer::test_infer`         | 默认值“0”。单个非负整数，推理使用的卡号 | 原生 CUDA Toolkit 后端
+| `llama-cuda`   | `nccl_parallel::test_infer` | 默认值“0”。任意间隔的非负整数集合，参与分布式推理的卡号 | 原生 CUDA Toolkit 后端，同时依赖 NCCL 实现分布式
 | `gpt2-cpu`     | `infer::test_infer`         | TODO | 纯 cpu 后端，不需要任何额外依赖
@@ -1,5 +1,5 @@
 [package]
-name = "llama-nv"
+name = "llama-cuda"
 version = "0.0.0"
 edition = "2021"
 authors = ["YdrMaster <ydrml@hotmail.com>"]
 
@@ -197,6 +197,7 @@ impl<'blk> Weights<'blk> {
                 push! {
                     attn_norm
                     attn_qkv
+                    attn_qkv_bias
                     attn_o
                     ffn_norm
                     ffn_gate_up
 
@@ -72,6 +72,10 @@ fn test_infer() {
             infini_rt::init(infini_rt::DEVICE_NVIDIA);
             WorkerSeed::new(InfiniNode::nv_gpu(&indices))
         }
+        "cambricon" => {
+            infini_rt::init(infini_rt::DEVICE_CAMBRICON);
+            WorkerSeed::new(InfiniNode::cambricon_mlu(&indices))
+        }
         "ascend" => {
             infini_rt::init(infini_rt::DEVICE_ASCEND);
             WorkerSeed::new(InfiniNode::ascend_npu(&indices))