oxiglade
diff --git a/‎.github/dependabot.yml‎
Lines changed: 14 additions & 0 deletions b/‎.github/dependabot.yml‎
Lines changed: 14 additions & 0 deletions
diff --git a/‎.github/workflows/publish-docs.yml‎
Lines changed: 3 additions & 3 deletions b/‎.github/workflows/publish-docs.yml‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎.github/workflows/validate.yml‎
Lines changed: 17 additions & 30 deletions b/‎.github/workflows/validate.yml‎
Lines changed: 17 additions & 30 deletions
diff --git a/‎.gitignore‎
Lines changed: 3 additions & 0 deletions b/‎.gitignore‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎Cargo.toml‎
Lines changed: 16 additions & 11 deletions b/‎Cargo.toml‎
Lines changed: 16 additions & 11 deletions
diff --git a/‎examples/lm/Cargo.toml‎
Lines changed: 18 additions & 0 deletions b/‎examples/lm/Cargo.toml‎
Lines changed: 18 additions & 0 deletions
diff --git a/‎examples/lm/src/main.rs‎
Lines changed: 84 additions & 0 deletions b/‎examples/lm/src/main.rs‎
Lines changed: 84 additions & 0 deletions
diff --git a/‎examples/mistral/Cargo.toml‎
Lines changed: 4 additions & 6 deletions b/‎examples/mistral/Cargo.toml‎
Lines changed: 4 additions & 6 deletions
diff --git a/‎mlx-lm-utils/.gitignore‎
Lines changed: 1 addition & 0 deletions b/‎mlx-lm-utils/.gitignore‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎mlx-lm-utils/Cargo.toml‎
Lines changed: 18 additions & 0 deletions b/‎mlx-lm-utils/Cargo.toml‎
Lines changed: 18 additions & 0 deletions
@@ -0,0 +1,14 @@
+version: 2
+updates:
+  - package-ecosystem: cargo
+    directory: /
+    schedule:
+      interval: weekly
+  - package-ecosystem: github-actions
+    directory: /
+    schedule:
+      interval: weekly
+  - package-ecosystem: gitsubmodule
+    directory: /
+    schedule:
+      interval: weekly
@@ -21,7 +21,7 @@ jobs:
       group: ${{ github.workflow }}-${{ github.ref }}
     steps:
       - name: Checkout
-        uses: actions/checkout@v4
+        uses: actions/checkout@v5
         with:
           submodules: true
       - name: Setup Dependencies
@@ -35,7 +35,7 @@ jobs:
       - name: Setup Pages
         uses: actions/configure-pages@v5
       - name: Upload artifact
-        uses: actions/upload-pages-artifact@v3
+        uses: actions/upload-pages-artifact@v4
         with:
           path: './target/doc'
   deploy-docs:
@@ -47,4 +47,4 @@ jobs:
     steps:
       - name: Deploy to GitHub Pages
         id: deployment
-        uses: actions/deploy-pages@v4
+        uses: actions/deploy-pages@v4
@@ -5,55 +5,42 @@ on:
       - main
   pull_request:
     types: [opened, synchronize]
-    
+
 concurrency:
   group: ${{ github.workflow }}-${{ github.ref }}
   cancel-in-progress: true
 jobs:
-  rustfmt-check:
+  checks:
     runs-on: blaze/macos-15
     steps:
-      - name: Checkout
-        uses: actions/checkout@v4
+      - uses: actions/checkout@v5
         with:
           submodules: true
-      - name: Setup Xcode
-        run: sudo xcodes select 16.0
-      - name: Install Rust
-        uses: actions-rust-lang/setup-rust-toolchain@v1
+      - run: sudo xcodes select 16.4
+      - uses: actions-rust-lang/setup-rust-toolchain@v1
         with:
           components: rustfmt, clippy
-      - name: Run cargo fmt
-        run: cargo fmt -- --check
-      - name: Run cargo clippy
-        run: cargo clippy -- -D warnings
+      - run: cargo --version
+      - run: cargo fmt -- --check
+      - run: cargo clippy -- -D warnings
 
   tests:
-    runs-on: blaze/macos-15
+    runs-on: blaze/${{ matrix.runner }}
     strategy:
       matrix:
-        rust: [ stable, 1.81.0 ]
-        include:
-          - cache: stable
-            rust: stable
-          - cache: 1-81-0
-            rust: 1.81.0
+        runner: [ macos-15 ]
+        rust: [ 1.82.0, stable ]
     steps:
-      - name: Checkout
-        uses: actions/checkout@v4
+      - uses: actions/checkout@v5
         with:
           submodules: true
-      - name: Setup Xcode
-        run: sudo xcodes select 16.0
-      - name: Install Rust
-        uses: actions-rust-lang/setup-rust-toolchain@v1
+      - run: sudo xcodes select 16.4
+      - uses: actions-rust-lang/setup-rust-toolchain@v1
         with:
           cache: false
           toolchain: ${{ matrix.rust }}
           rustflags: "" # Disable when we're ready
-      - name: Setup cache
-        uses: Swatinem/rust-cache@v2
+      - uses: Swatinem/rust-cache@v2
         with:
-          key: ${{ runner.os }}-${{ matrix.cache }}-${{ matrix.backend }}-${{ hashFiles('**/Cargo.toml') }}
-      - name: Run tests
-        run: cargo test --all -- --test-threads=1 # MLX is not thread safe
+          key: ${{ matrix.rust }}-${{ matrix.runner }}-${{ hashFiles('**/Cargo.toml') }}
+      - run: cargo test --all -- --test-threads=1 # MLX is not thread safe
@@ -16,3 +16,6 @@ Cargo.lock
 settings.json
 **.DS_Store
 .idea
+
+# Local cache 
+cache/
@@ -1,7 +1,7 @@
 [workspace.package]
-# All but mlx-sys should follow the same version. mlx-sys should follow 
+# All but mlx-sys should follow the same version. mlx-sys should follow
 # the version of mlx-c.
-version = "0.25.1"
+version = "0.25.2"
 edition = "2021"
 authors = [
     "Minghua Wu <michael.wu1107@gmail.com>",
@@ -13,13 +13,16 @@ keywords = ["mlx", "deep-learning", "machine-learning"]
 categories = ["science"]
 license = "MIT OR Apache-2.0"
 documentation = "https://oxideai.github.io/mlx-rs/mlx_rs/"
+rust-version = "1.82.0"
 
 [workspace]
 members = [
-    "mlx-macros", 
-    "mlx-sys", 
-    "mlx-rs", 
+    "mlx-macros",
+    "mlx-sys",
+    "mlx-rs",
     "mlx-internal-macros",
+    "mlx-lm",
+    "mlx-lm-utils", 
     "mlx-tests",
     "examples/*", 
 ]
@@ -31,7 +34,9 @@ resolver = "2"
 mlx-sys = { version = "=0.2.0", path = "mlx-sys" }
 mlx-macros = { version = "0.25", path = "mlx-macros" }
 mlx-internal-macros = { version = "0.25", path = "mlx-internal-macros" }
-mlx-rs = { version = "0.25.1", path = "mlx-rs" }
+mlx-rs = { version = "0.25", path = "mlx-rs" }
+mlx-lm = { version = "0.0.1", path = "mlx-lm" }
+mlx-lm-utils = { version = "0.0.1", path = "mlx-lm-utils" }
 
 # external dependencies
 thiserror = "2"
@@ -45,18 +50,18 @@ num_enum = "0.7"
 num-traits = "0.2"
 paste = "1"
 smallvec = "1"
-strum = { version = "0.26", features = ["derive"] }
+strum = { version = "0.27", features = ["derive"] }
 libc = "0.2"
 parking_lot = "0.12"
 tempfile = "3"
 itertools = "0.14"
 syn = { version = "2", features = ["full"] }
 quote = "1"
-darling = "0.20"
+darling = "0.21"
 proc-macro2 = "1"
-bindgen = "0.70"
+bindgen = "0.72"
 cmake = "0.1"
 cc = "1"
-safetensors = "0.5"
+safetensors = "0.6"
 bytemuck = "1"
-memmap2 = "0.9"
+memmap2 = "0.9"
@@ -0,0 +1,18 @@
+[package]
+name = "lm"
+version.workspace = true
+edition.workspace = true
+authors.workspace = true
+repository.workspace = true
+keywords.workspace = true
+categories.workspace = true
+license.workspace = true
+documentation.workspace = true
+rust-version.workspace = true
+
+[dependencies]
+mlx-rs.workspace = true
+mlx-lm.workspace = true
+mlx-lm-utils.workspace = true
+
+anyhow = "1"
@@ -0,0 +1,84 @@
+use std::path::Path;
+
+use mlx_lm::{cache::ConcatKeyValueCache, models::qwen3::load_qwen3_model};
+use mlx_lm_utils::tokenizer::{
+    load_model_chat_template_from_file, ApplyChatTemplateArgs, Conversation, Role, Tokenizer,
+};
+use mlx_rs::{
+    ops::indexing::{IndexOp, NewAxis},
+    transforms::eval,
+    Array,
+};
+
+const CACHED_TEST_MODEL_DIR: &str = "./cache/Qwen3-4B-bf16";
+
+fn qwen3() -> anyhow::Result<()> {
+    let model_dir = Path::new(CACHED_TEST_MODEL_DIR);
+
+    let model_id = "mlx-community/Qwen3-4B-bf16".to_string();
+    let tokenizer_file = model_dir.join("tokenizer.json");
+    let tokenizer_config_file = model_dir.join("tokenizer_config.json");
+    let mut tokenizer =
+        Tokenizer::from_file(tokenizer_file).map_err(|e| anyhow::anyhow!("{:?}", e))?;
+    let model_chat_template = load_model_chat_template_from_file(tokenizer_config_file)?
+        .expect("Model chat template not found");
+
+    let conversations = vec![Conversation {
+        role: Role::User,
+        content: "what's your name?",
+    }];
+    let args = ApplyChatTemplateArgs {
+        conversations: vec![conversations.into()],
+        documents: None,
+        model_id: &model_id,
+        chat_template_id: None,
+        add_generation_prompt: None,
+        continue_final_message: None,
+    };
+    let encodings = tokenizer.apply_chat_template_and_encode(model_chat_template, args)?;
+    let prompt: Vec<u32> = encodings
+        .iter()
+        .flat_map(|encoding| encoding.get_ids())
+        .copied()
+        .collect();
+    let prompt_tokens = Array::from(&prompt[..]).index(NewAxis);
+
+    let mut cache = Vec::new();
+    let mut model = load_qwen3_model(model_dir)?;
+    let generate = mlx_lm::models::qwen3::Generate::<ConcatKeyValueCache>::new(
+        &mut model,
+        &mut cache,
+        0.2,
+        &prompt_tokens,
+    );
+
+    let mut tokens = Vec::new();
+    for (token, ntoks) in generate.zip(0..256) {
+        let token = token.unwrap();
+        tokens.push(token.clone());
+
+        if ntoks == 0 {
+            eval(&tokens).unwrap();
+        }
+
+        if tokens.len() % 20 == 0 {
+            eval(&tokens).unwrap();
+            let slice: Vec<u32> = tokens.drain(..).map(|t| t.item::<u32>()).collect();
+            let s = tokenizer.decode(&slice, true).unwrap();
+            print!("{s}");
+        }
+    }
+
+    eval(&tokens).unwrap();
+    let slice: Vec<u32> = tokens.drain(..).map(|t| t.item::<u32>()).collect();
+    let s = tokenizer.decode(&slice, true).unwrap();
+    println!("{s}");
+
+    println!("------");
+
+    Ok(())
+}
+
+fn main() -> anyhow::Result<()> {
+    qwen3()
+}
@@ -9,15 +9,13 @@ authors.workspace = true
 mlx-rs.workspace = true
 
 # External dependencies
-tokenizers = "=0.21.0" # 0.21.1 uses features that went stable in 1.82 while our MSRV is 1.81
-thiserror = "1.0"
+tokenizers = "0.22.0"
+thiserror = "2"
 anyhow = "1.0"
-hf-hub = "=0.4.1" # 0.4.2 uses features that went stable in 1.82 while our MSRV is 1.81
+hf-hub = "0.4.3"
 dotenv = "0.15"
 serde = { version = "1", features = ["derive"] }
 serde_json = "1"
 clap = { version = "4", features = ["derive"] }
 safetensors.workspace = true
-
-# Fix idna-adapter version so that it works with rustc 1.81
-idna_adapter = "=1.2.0"
+idna_adapter = "1.2"
@@ -0,0 +1 @@
+/hf_cache/
@@ -0,0 +1,18 @@
+[package]
+name = "mlx-lm-utils"
+version = "0.0.1"
+edition.workspace = true
+authors.workspace = true
+repository.workspace = true
+keywords.workspace = true
+categories.workspace = true
+license.workspace = true
+documentation.workspace = true
+
+[dependencies]
+minijinja = { version = "2", features = ["loader"] }
+minijinja-contrib = { version = "2", features = ["pycompat"] }
+serde = { version = "1", features = ["derive"] }
+serde_json = "1"
+thiserror = "2"
+tokenizers = "0.22"