InfiniTensor
diff --git a/‎Cargo.toml‎
Lines changed: 1 addition & 0 deletions b/‎Cargo.toml‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎models/gpt2/common-cpu/Cargo.toml‎
Lines changed: 3 additions & 2 deletions b/‎models/gpt2/common-cpu/Cargo.toml‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎models/gpt2/common-cpu/src/infer.rs‎
Lines changed: 107 additions & 68 deletions b/‎models/gpt2/common-cpu/src/infer.rs‎
Lines changed: 107 additions & 68 deletions
diff --git a/‎models/gpt2/common-cpu/src/lib.rs‎
Lines changed: 27 additions & 17 deletions b/‎models/gpt2/common-cpu/src/lib.rs‎
Lines changed: 27 additions & 17 deletions
diff --git a/‎models/gpt2/common/src/compute.rs‎
Lines changed: 5 additions & 4 deletions b/‎models/gpt2/common/src/compute.rs‎
Lines changed: 5 additions & 4 deletions
@@ -16,6 +16,7 @@ members = [
 
     "models/gpt2/common",
     "models/gpt2/common-cpu",
+    "models/gpt2/cuda",
 ]
 resolver = "2"
 
 
@@ -8,9 +8,10 @@ authors = ["onenewcode <[email protected]>", "YdrMaster <[email protected]>"]
 
 [dependencies]
 gpt2.path = "../common"
+common.workspace = true
 operators = { workspace = true, features = ["common-cpu"] }
 
 [dev-dependencies]
-test-utils.workspace = true
+test-utils = { workspace = true, features = ["gpt2"] }
 gguf.workspace = true
-ndarray-layout.workspace = true
+regex.workspace = true
@@ -1,27 +1,35 @@
 use crate::{Operators, RandomSample, Weights};
+use common::Distribution;
 use gguf::GGufModel;
-use gpt2::{ext::ggml_quants::f16, Gpt2Meta, Gpt2Worker, Storage, Tensor};
+use gpt2::{ext::ggml_quants::f16, GPT2Storage, Gpt2Worker, Tensor};
 use operators::{
-    common_cpu::{Cpu, ThisThread},
+    all_reduce::common_cpu::Operator as AllReduce,
+    common_cpu::{InprocNode, ThisThread},
     random_sample::{KVPair, SampleArgs},
     Blob,
 };
-use std::slice::from_raw_parts_mut;
-use test_utils::{Inference, TokenizerAndPrompt};
-
-type Worker<'w> = Gpt2Worker<Operators, Weights<'w>>;
+use regex::Regex;
+use std::{
+    iter::zip,
+    ptr::copy_nonoverlapping,
+    slice::from_raw_parts_mut,
+    sync::{Arc, Barrier},
+    thread,
+};
+use test_utils::{test_infer_paralle, Inference, Task, TokenizerAndPrompt, WorkerSeed};
 
+type Worker<'w> = Gpt2Worker<Operators<InprocNode<usize>, AllReduce>, Weights<'w>>;
 #[test]
 fn test_infer() {
     let Some(Inference {
         model,
+        devices,
         prompt,
         as_user,
         temperature,
         top_p,
         top_k,
         max_steps,
-        ..
     }) = Inference::load()
     else {
         return;
@@ -34,73 +42,104 @@ fn test_infer() {
         prompt,
     } = TokenizerAndPrompt::new(&gguf, prompt, as_user);
 
-    let model = Storage::from_gguf(&gguf);
+    let model = GPT2Storage::from_gguf(&gguf);
     println!("{:?}", model.meta);
 
     let sample_args = SampleArgs::new(temperature, top_p, top_k).expect("invalid sample args");
     println!("{sample_args:?}");
 
-    let &Gpt2Meta {
-        dt_embd,
-        nctx,
-        nvoc,
-        d,
-        ..
-    } = &model.meta;
-    let weights = Weights::new(&model);
-    let mut worker = Worker::new(&Cpu, model.meta.clone(), weights);
-    let mut cache = model.meta.kv_cache(nctx).map(Blob::new);
-    let indices = RandomSample::build_indices(nvoc, &ThisThread);
-    let sample = RandomSample::new(&Cpu);
+    let lens = devices
+        .map(|devices| {
+            Regex::new(r"\d+")
+                .unwrap()
+                .find_iter(&devices)
+                .map(|c| c.as_str().parse().unwrap())
+                .collect()
+        })
+        .unwrap_or_else(|| vec![1]);
+    let dist = lens.iter().sum();
+    println!("distribution: {lens:?}");
+
+    let (seeds, senders) = WorkerSeed::new(InprocNode::new(lens.len()));
+    let barrier = Arc::new(Barrier::new(dist + 1));
+    thread::scope(|s| {
+        let _workers = zip(lens, seeds)
+            .enumerate()
+            .scan(0, |start, (id, (len, seed))| {
+                let dist = Distribution::new(*start, len, dist);
+                *start += len;
 
-    test_utils::test_infer(eos, tokenizer, &prompt, max_steps, |input, pos| {
-        // 词汇编码缓存
-        let mut embd = Tensor::new(dt_embd, &[input.len(), d]).map(Blob::new);
-        // 词汇位置缓存
-        let mut logits = model.meta.logits(1).map(Blob::new);
-        let l = embd.get().len() / input.len();
-        for (i, &tok) in input.iter().enumerate() {
-            embd.get_mut()[i * l..][..l]
-                .copy_from_slice(&model.token_embd[tok as usize * l..][..l]);
-        }
-        worker
-            .launch(
-                gpt2::args::Args {
-                    embd: embd.map_slice_mut(),
-                    logits: logits.map_slice_mut(),
-                    idx: postion(input.len(), pos).map_slice(),
-                    requests: vec![gpt2::args::Request {
-                        cache: cache.map_slice_mut(),
-                        seq_len: input.len(),
-                        out_len: 1,
-                        pos,
-                    }],
-                    max_seq_len: input.len(),
-                    max_att_len: pos + input.len(),
-                },
-                &mut [],
-                &ThisThread,
-            )
-            .unwrap();
+                let meta = model.meta.distribute(dist);
+                let model = &model;
+                let barrier = barrier.clone();
+                Some(s.spawn(move || {
+                    let WorkerSeed { node, tasks } = seed;
+                    let weights = Weights::new(model, dist);
+                    let mut worker = Worker::new(id, &node, meta.clone(), weights);
+                    let mut cache = meta.kv_cache(meta.nctx).map(Blob::new);
 
-        let mut pair = KVPair::new(0, f16::ZERO);
-        let mut pairs = Tensor::kv_pair_vec(1, |_| unsafe {
-            from_raw_parts_mut(&mut pair as *mut _ as _, size_of_val(&pair))
-        });
+                    let sample = RandomSample::new(&node);
+                    let indices = RandomSample::build_indices(model.meta.nvoc, &ThisThread);
+                    let mut pair = KVPair::new(0, f16::ZERO);
+                    let mut pairs = Tensor::kv_pair_vec(1, |_| unsafe {
+                        from_raw_parts_mut(&mut pair as *mut _ as *mut u8, size_of_val(&pair))
+                    });
 
-        sample
-            .launch(
-                &mut pairs,
-                &logits,
-                &indices,
-                sample_args,
-                &mut [],
-                &ThisThread,
-            )
-            .unwrap();
+                    barrier.wait();
+                    for task in tasks {
+                        let Task {
+                            nt,
+                            pos,
+                            embd,
+                            next,
+                        } = task;
+                        let mut embd = meta.embd(nt).map(|size| {
+                            let mut blob = Blob::new(size);
+                            unsafe { copy_nonoverlapping(embd, blob.as_mut_ptr(), size) };
+                            blob
+                        });
+                        let mut logits = meta.logits(if id == 0 { 1 } else { 0 }).map(Blob::new);
+                        worker
+                            .launch(
+                                gpt2::args::Args {
+                                    embd: embd.map_slice_mut(),
+                                    logits: logits.map_slice_mut(),
+                                    idx: postion(nt, pos).map_slice(),
+                                    requests: vec![gpt2::args::Request {
+                                        cache: cache.map_slice_mut(),
+                                        seq_len: nt,
+                                        out_len: 1,
+                                        pos,
+                                    }],
+                                    max_seq_len: nt,
+                                    max_att_len: pos + nt,
+                                },
+                                &mut [],
+                                &ThisThread,
+                            )
+                            .unwrap();
+                        if id == 0 {
+                            sample
+                                .launch(
+                                    &mut pairs,
+                                    &logits,
+                                    &indices,
+                                    sample_args,
+                                    &mut [],
+                                    &ThisThread,
+                                )
+                                .unwrap();
+                            next.send(pair.idx() as _).unwrap()
+                        }
+                    }
+                }))
+            })
+            .collect::<Vec<_>>();
 
-        pair.idx() as _
-    });
+        let senders = senders.into_boxed_slice();
+        barrier.wait();
+        test_infer_paralle(&model, senders, eos, tokenizer, &prompt, max_steps)
+    })
 }
 
 fn postion(l: usize, pos: usize) -> Tensor<Blob> {
@@ -109,8 +148,8 @@ fn postion(l: usize, pos: usize) -> Tensor<Blob> {
     let (&mut [], data, &mut []) = (unsafe { ans.get_mut().align_to_mut::<u32>() }) else {
         panic!()
     };
-    for i in 0..l {
-        data[i] = (pos + i) as u32;
-    }
+    data.iter_mut()
+        .enumerate()
+        .for_each(|(i, item)| *item = (pos + i) as u32);
     ans
 }
@@ -1,23 +1,22 @@
-use gpt2::{
-    storage::{BlkStorage, Storage},
-    BlkWeight, Tensor, WeightLoader,
-};
+use common::{Contiguous, Distribution};
+use gpt2::{storage::BlkStorage, BlkWeight, Tensor, WeightLoader};
 use operators::{
     all_reduce::{AllReduce, NonAllReduce},
     common_cpu::Cpu,
     random_sample::common_cpu::Operator as RandomSampleCpu,
     rearrange::common_cpu::Operator as Rearrange,
-    ByteOf, QueueOf, TopoNode,
+    Blob, ByteOf, QueueOf, TopoNode,
 };
-use std::marker::PhantomData;
-use std::ops::Deref;
+use std::{marker::PhantomData, ops::Deref};
+
+pub use gpt2::{GPT2BlkStorage, GPT2Storage, TensorUsage::Computation};
 
 pub struct Operators<N = Cpu, R = NonAllReduce<Cpu, Rearrange>>(PhantomData<(N, R)>);
 
 pub type RandomSample = gpt2::RandomSample<Cpu, RandomSampleCpu>;
 
 pub struct Weights<'w> {
-    blks: Box<[BlkStorage<&'w [u8]>]>,
+    blks: Box<[GPT2BlkStorage<Contiguous<'w, Blob>>]>,
     output_norm_w: &'w [u8],
     output_norm_b: &'w [u8],
     output: &'w [u8],
@@ -55,26 +54,37 @@ where
 }
 
 impl<'w> Weights<'w> {
-    pub fn new(model: &'w Storage<&'w [u8]>) -> Self {
-        let Storage {
-            output_norm_w,
-            output_norm_b,
+    pub fn new(model: &'w GPT2Storage<&'w [u8]>, dist: Distribution) -> Self {
+        let GPT2Storage {
+            meta,
             output,
             blocks,
             pos_embd,
+            output_norm_b,
+            output_norm_w,
             ..
         } = model;
 
+        let blks = blocks
+            .iter()
+            .map(|blk| {
+                blk.into_vec()
+                    .into_iter()
+                    .map(|(which, data)| {
+                        (which, meta.distribute_data(which, data, dist, Blob::new))
+                    })
+                    .collect::<GPT2BlkStorage<_>>()
+            })
+            .collect::<Box<_>>();
         Self {
-            pos_embd,
-            blks: blocks.clone(),
-            output_norm_w,
+            blks,
             output_norm_b,
+            output_norm_w,
             output,
+            pos_embd,
         }
     }
 }
-
 impl WeightLoader for Weights<'_> {
     type Hardware = Cpu;
     type Memory<'s>
@@ -103,7 +113,6 @@ impl WeightLoader for Weights<'_> {
             ffn_down_w,
             ffn_down_b,
         } = &self.blks[iblk];
-
         match which {
             BlkWeight::AttnNorm => [attn_norm_w, attn_norm_b],
             BlkWeight::AttnQKV => [attn_qkv_w, attn_qkv_b],
@@ -113,6 +122,7 @@ impl WeightLoader for Weights<'_> {
             BlkWeight::FfnDown => [ffn_down_w, ffn_down_b],
         }
     }
+
     #[inline]
     fn output_norm(&self, _queue: &QueueOf<Self::Hardware>) -> [Self::Memory<'_>; 2] {
         [self.output_norm_w, self.output_norm_b]
 
@@ -60,6 +60,8 @@ pub trait WeightLoader {
 }
 
 pub struct Gpt2Worker<Ops: Operators, W> {
+    #[allow(dead_code)]
+    id: usize,
     meta: Gpt2Meta,
     weights: WeightDecorator<W>,
     add_rows: Ops::AddRows,
@@ -70,14 +72,14 @@ pub struct Gpt2Worker<Ops: Operators, W> {
     add: Ops::Add,
     rearrange: Ops::Rearrange,
     all_reduce: Ops::AllReduce,
-    pub debug: bool,
 }
 
 impl<Ops: Operators, W> Gpt2Worker<Ops, W> {
-    pub fn new(node: &Ops::TopoNode, meta: Gpt2Meta, weights: W) -> Self {
+    pub fn new(id: usize, node: &Ops::TopoNode, meta: Gpt2Meta, weights: W) -> Self {
         let processor = node.processor();
         Self {
-            weights: meta.decorator(weights), // meta.decorator
+            id,
+            weights: meta.decorator(weights),
             meta,
             add_rows: Ops::AddRows::new(processor),
             layer_norm: Ops::LayerNorm::new(processor),
@@ -87,7 +89,6 @@ impl<Ops: Operators, W> Gpt2Worker<Ops, W> {
             add: Ops::Add::new(processor),
             rearrange: Ops::Rearrange::new(processor),
             all_reduce: Ops::AllReduce::new(node),
-            debug: true,
         }
     }
Original file line number	Diff line number	Diff line change
`@@ -16,6 +16,7 @@ members = [`
`16`	`16`
`17`	`17`	`"models/gpt2/common",`
`18`	`18`	`"models/gpt2/common-cpu",`
	`19`	`+ "models/gpt2/cuda",`
`19`	`20`	`]`
`20`	`21`	`resolver = "2"`
`21`	`22`