InfiniTensor
diff --git a/‎Cargo.toml‎
Lines changed: 1 addition & 1 deletion b/‎Cargo.toml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎common/Cargo.toml‎
Lines changed: 1 addition & 1 deletion b/‎common/Cargo.toml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎models/gpt2/common-cpu/Cargo.toml‎
Lines changed: 4 additions & 2 deletions b/‎models/gpt2/common-cpu/Cargo.toml‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎models/gpt2/common-cpu/src/infer.rs‎
Lines changed: 136 additions & 67 deletions b/‎models/gpt2/common-cpu/src/infer.rs‎
Lines changed: 136 additions & 67 deletions
diff --git a/‎models/gpt2/common-cpu/src/lib.rs‎
Lines changed: 56 additions & 26 deletions b/‎models/gpt2/common-cpu/src/lib.rs‎
Lines changed: 56 additions & 26 deletions
@@ -35,7 +35,7 @@ itertools = "0.13"
 env_logger = "0.11"
 build-script-cfg = "0.0"
 
-operators = { git = "https://github.com/YdrMaster/operators-rs", rev = "01b1667", default-features = false }
+operators = { git = "https://github.com/YdrMaster/operators-rs", rev = "7886d54", default-features = false }
 
 search-cl-tools = { git = "https://github.com/InfiniTensor/clrt", rev = "f69b160" }
 search-infini-tools = { git = "https://github.com/InfiniTensor/infini-rt", rev = "e8362c3" }
 
@@ -4,4 +4,4 @@ version = "0.0.0"
 edition = "2021"
 authors = ["YdrMaster <[email protected]>"]
 
-[dependencies]
+[dependencies]
@@ -8,9 +8,11 @@ authors = ["onenewcode <[email protected]>", "YdrMaster <[email protected]>"]
 
 [dependencies]
 gpt2.path = "../common"
+common.workspace = true
 operators = { workspace = true, features = ["common-cpu"] }
 
 [dev-dependencies]
-test-utils.workspace = true
+test-utils = { workspace = true, features = ["llama"] }
 gguf.workspace = true
-ndarray-layout.workspace = true
+regex.workspace = true
+
@@ -1,27 +1,35 @@
 use crate::{Operators, RandomSample, Weights};
-use gguf::GGufModel;
-use gpt2::{ext::ggml_quants::f16, GPT2Storage, Gpt2Meta, Gpt2Worker, Tensor};
+use common::Distribution;
+use gguf::ext::utok;
+use gguf::{GGufModel, Tokenizer};
+use gpt2::{ext::ggml_quants::f16, GPT2Storage, Gpt2Worker, Tensor};
+use operators::common_cpu::InprocNode;
 use operators::{
-    common_cpu::{Cpu, ThisThread},
+    all_reduce::common_cpu::Operator as AllReduce,
+    common_cpu::ThisThread,
     random_sample::{KVPair, SampleArgs},
     Blob,
 };
+use regex::Regex;
+use std::iter::zip;
+use std::ptr::copy_nonoverlapping;
 use std::slice::from_raw_parts_mut;
-use test_utils::{Inference, TokenizerAndPrompt};
-
-type Worker<'w> = Gpt2Worker<Operators, Weights<'w>>;
+use std::sync::{mpsc, Arc, Barrier};
+use std::thread;
+use test_utils::{Inference, Task, TokenizerAndPrompt, WorkerSeed};
 
+type Worker<'w> = Gpt2Worker<Operators<InprocNode<usize>, AllReduce>, Weights<'w>>;
 #[test]
 fn test_infer() {
     let Some(Inference {
         model,
+        devices,
         prompt,
         as_user,
         temperature,
         top_p,
         top_k,
         max_steps,
-        ..
     }) = Inference::load()
     else {
         return;
@@ -40,77 +48,138 @@ fn test_infer() {
     let sample_args = SampleArgs::new(temperature, top_p, top_k).expect("invalid sample args");
     println!("{sample_args:?}");
 
-    let &Gpt2Meta {
-        dt_embd,
-        nctx,
-        nvoc,
-        d,
-        ..
-    } = &model.meta;
-    let weights = Weights::new(&model);
-    let mut worker = Worker::new(0, &Cpu, model.meta.clone(), weights);
-    let mut cache = model.meta.kv_cache(nctx).map(Blob::new);
-    let indices = RandomSample::build_indices(nvoc, &ThisThread);
-    let sample = RandomSample::new(&Cpu);
+    let lens = devices
+        .map(|devices| {
+            Regex::new(r"\d+")
+                .unwrap()
+                .find_iter(&devices)
+                .map(|c| c.as_str().parse().unwrap())
+                .collect()
+        })
+        .unwrap_or_else(|| vec![1]);
+    let dist = lens.iter().sum();
+    println!("distribution: {lens:?}");
 
-    test_utils::test_infer(eos, tokenizer, &prompt, max_steps, |input, pos| {
-        // 词汇编码缓存
-        let mut embd = Tensor::new(dt_embd, &[input.len(), d]).map(Blob::new);
-        // 词汇位置缓存
-        let mut logits = model.meta.logits(1).map(Blob::new);
-        let l = embd.get().len() / input.len();
-        for (i, &tok) in input.iter().enumerate() {
-            embd.get_mut()[i * l..][..l]
-                .copy_from_slice(&model.token_embd[tok as usize * l..][..l]);
-        }
-        worker
-            .launch(
-                gpt2::args::Args {
-                    embd: embd.map_slice_mut(),
-                    logits: logits.map_slice_mut(),
-                    idx: postion(input.len(), pos).map_slice(),
-                    requests: vec![gpt2::args::Request {
-                        cache: cache.map_slice_mut(),
-                        seq_len: input.len(),
-                        out_len: 1,
-                        pos,
-                    }],
-                    max_seq_len: input.len(),
-                    max_att_len: pos + input.len(),
-                },
-                &mut [],
-                &ThisThread,
-            )
-            .unwrap();
+    let (seeds, senders) = WorkerSeed::new(InprocNode::new(lens.len()));
+    let barrier = Arc::new(Barrier::new(dist + 1));
+    thread::scope(|s| {
+        let _workers = zip(lens, seeds)
+            .enumerate()
+            .scan(0, |start, (id, (len, seed))| {
+                let dist = Distribution::new(*start, len, dist);
+                *start += len;
 
-        let mut pair = KVPair::new(0, f16::ZERO);
-        let mut pairs = Tensor::kv_pair_vec(1, |_| unsafe {
-            from_raw_parts_mut(&mut pair as *mut _ as _, size_of_val(&pair))
-        });
+                let meta = model.meta.distribute(dist);
+                let model = &model;
+                let barrier = barrier.clone();
+                Some(s.spawn(move || {
+                    let WorkerSeed { node, tasks } = seed;
+                    let weights = Weights::new(model, dist);
+                    let mut worker = Worker::new(id, &node, meta.clone(), weights);
+                    let mut cache = meta.kv_cache(meta.nctx).map(Blob::new);
 
-        sample
-            .launch(
-                &mut pairs,
-                &logits,
-                &indices,
-                sample_args,
-                &mut [],
-                &ThisThread,
-            )
-            .unwrap();
+                    let sample = RandomSample::new(&node);
+                    let indices = RandomSample::build_indices(model.meta.nvoc, &ThisThread);
+                    let mut pair = KVPair::new(0, f16::ZERO);
+                    let mut pairs = Tensor::kv_pair_vec(1, |_| unsafe {
+                        from_raw_parts_mut(&mut pair as *mut _ as *mut u8, size_of_val(&pair))
+                    });
 
-        pair.idx() as _
-    });
+                    barrier.wait();
+                    for task in tasks {
+                        let Task {
+                            nt,
+                            pos,
+                            embd,
+                            next,
+                        } = task;
+                        let mut embd = meta.embd(nt).map(|size| {
+                            let mut blob = Blob::new(size);
+                            unsafe { copy_nonoverlapping(embd, blob.as_mut_ptr(), size) };
+                            blob
+                        });
+                        let mut logits = meta.logits(if id == 0 { 1 } else { 0 }).map(Blob::new);
+                        worker
+                            .launch(
+                                gpt2::args::Args {
+                                    embd: embd.map_slice_mut(),
+                                    logits: logits.map_slice_mut(),
+                                    idx: postion(nt, pos).map_slice(),
+                                    requests: vec![gpt2::args::Request {
+                                        cache: cache.map_slice_mut(),
+                                        seq_len: nt,
+                                        out_len: 1,
+                                        pos,
+                                    }],
+                                    max_seq_len: nt,
+                                    max_att_len: pos + nt,
+                                },
+                                &mut [],
+                                &ThisThread,
+                            )
+                            .unwrap();
+                        if id == 0 {
+                            sample
+                                .launch(
+                                    &mut pairs,
+                                    &logits,
+                                    &indices,
+                                    sample_args,
+                                    &mut [],
+                                    &ThisThread,
+                                )
+                                .unwrap();
+                            next.send(pair.idx() as _).unwrap()
+                        }
+                    }
+                }))
+            })
+            .collect::<Vec<_>>();
+
+        let senders = senders.into_boxed_slice();
+        barrier.wait();
+        test_infer_par(&model, senders, eos, tokenizer, &prompt, max_steps)
+    })
 }
 
+pub fn test_infer_par(
+    model: &GPT2Storage<&[u8]>,
+    senders: Box<[mpsc::Sender<Task>]>,
+    eos: utok,
+    tokenizer: Tokenizer,
+    prompt: &str,
+    max_steps: usize,
+) {
+    let (next, next_recv) = mpsc::channel();
+    test_utils::test_infer(eos, tokenizer, prompt, max_steps, |input, pos| {
+        let mut embd = model.meta.embd(input.len()).map(Blob::new).take();
+
+        let d = embd.len() / input.len();
+        for (i, &tok) in input.iter().enumerate() {
+            embd[i * d..][..d].copy_from_slice(&model.token_embd[tok as usize * d..][..d]);
+        }
+
+        for sender in &senders {
+            sender
+                .send(Task {
+                    nt: input.len(),
+                    pos,
+                    embd: embd.as_ptr(),
+                    next: next.clone(),
+                })
+                .unwrap()
+        }
+        next_recv.recv().unwrap()
+    });
+}
 fn postion(l: usize, pos: usize) -> Tensor<Blob> {
     use gguf::ggml_quants::digit_layout::types as ty;
     let mut ans = Tensor::new(ty::U32, &[1, l]).map(Blob::new);
     let (&mut [], data, &mut []) = (unsafe { ans.get_mut().align_to_mut::<u32>() }) else {
         panic!()
     };
-    for i in 0..l {
-        data[i] = (pos + i) as u32;
-    }
+    data.iter_mut()
+        .enumerate()
+        .for_each(|(i, item)| *item = (pos + i) as u32);
     ans
 }
@@ -1,28 +1,37 @@
-use gpt2::{
-    storage::{BlkStorage, Storage},
-    BlkWeight, Tensor, WeightLoader,
-};
-pub use gpt2::{GPT2BlkStorage, GPT2Storage};
+use common::{Contiguous, Distribution};
+use gpt2::{storage::BlkStorage, BlkWeight, Tensor, WeightLoader};
 use operators::{
     all_reduce::{AllReduce, NonAllReduce},
     common_cpu::Cpu,
     random_sample::common_cpu::Operator as RandomSampleCpu,
     rearrange::common_cpu::Operator as Rearrange,
-    ByteOf, QueueOf, TopoNode,
+    Blob, ByteOf, QueueOf, TopoNode,
 };
+use std::marker::PhantomData;
 use std::ops::Deref;
-use std::{marker::PhantomData, ptr::copy_nonoverlapping};
+
+pub use gpt2::{GPT2BlkStorage, GPT2Storage, TensorUsage::Computation};
 
 pub struct Operators<N = Cpu, R = NonAllReduce<Cpu, Rearrange>>(PhantomData<(N, R)>);
 
 pub type RandomSample = gpt2::RandomSample<Cpu, RandomSampleCpu>;
 
 pub struct Weights<'w> {
-    blks: Box<[BlkStorage<&'w [u8]>]>,
+    blks: Box<[GPT2BlkStorage<Contiguous<'w, Blob>>]>,
     output_norm_w: &'w [u8],
     output_norm_b: &'w [u8],
     output: &'w [u8],
     pos_embd: &'w [u8],
+    // dt_embd: DigitLayout,
+    // dt_mat: DigitLayout,
+    // size_qkv_b: usize,
+    // size_qkv_w: usize,
+    // size_o_b: usize,
+    // size_o_w: usize,
+    // size_up_b: usize,
+    // size_up_w: usize,
+    // size_down_b: usize,
+    // size_down_w: usize,
 }
 
 macro_rules! op {
@@ -53,39 +62,60 @@ where
     {
         println!("{tensor}");
     }
-
-    fn memcpy_d2h<T: Copy>(
-        dst: &mut [T],
-        src: &[ByteOf<Self::Hardware>],
-        _queue: &QueueOf<Self::Hardware>,
-    ) {
-        let count = size_of_val(dst);
-        assert_eq!(size_of_val(src), count);
-        unsafe { copy_nonoverlapping(src.as_ptr(), dst.as_mut_ptr().cast::<u8>(), count) }
-    }
 }
 
 impl<'w> Weights<'w> {
-    pub fn new(model: &'w Storage<&'w [u8]>) -> Self {
-        let Storage {
-            output_norm_w,
-            output_norm_b,
+    pub fn new(model: &'w GPT2Storage<&'w [u8]>, dist: Distribution) -> Self {
+        let GPT2Storage {
+            meta,
             output,
             blocks,
             pos_embd,
+            output_norm_b,
+            output_norm_w,
             ..
         } = model;
 
+        let blks = blocks
+            .iter()
+            .map(|blk| {
+                blk.into_vec()
+                    .into_iter()
+                    .map(|(which, data)| {
+                        (which, meta.distribute_data(which, data, dist, Blob::new))
+                    })
+                    .collect::<GPT2BlkStorage<_>>()
+            })
+            .collect::<Box<_>>();
+
+        // let meta = meta.distribute(dist);
+        // let size_qkv_w = meta.attn_qkv_w(Computation).take();
+        // let size_qkv_b = meta.attn_qkv_b(Computation).take();
+        // let size_o_w = meta.attn_o_w(Computation).take();
+        // let size_o_b = meta.attn_o_b(Computation).take();
+        // let size_up_w = meta.ffn_down_w(Computation).take();
+        // let size_up_b = meta.ffn_down_b(Computation).take();
+        // let size_down_w = meta.ffn_down_w(Computation).take();
+        // let size_down_b = meta.ffn_down_b(Computation).take();
         Self {
-            pos_embd,
-            blks: blocks.clone(),
-            output_norm_w,
+            blks,
             output_norm_b,
+            output_norm_w,
             output,
+            pos_embd,
+            // dt_embd: meta.dt_embd,
+            // dt_mat: meta.dt_linear,
+            // size_qkv_b,
+            // size_qkv_w,
+            // size_o_b,
+            // size_o_w,
+            // size_up_b,
+            // size_up_w,
+            // size_down_b,
+            // size_down_w,
         }
     }
 }
-
 impl WeightLoader for Weights<'_> {
     type Hardware = Cpu;
     type Memory<'s>