formatted

DrJesseGlass · DrJesseGlass · commit 8447af4fb7ae · 2025-12-05T16:35:29.000-05:00
diff --git a/candle-examples/examples/smollm3/main.rs b/candle-examples/examples/smollm3/main.rs
@@ -47,7 +47,7 @@ impl SmolLM3Model {
                     num_attention_heads: cfg.num_attention_heads,
                     num_key_value_heads: cfg.num_key_value_heads,
                     rope_theta: cfg.rope_theta as f32, // Convert f64 to f32
-                    eos_token_id: Some(128012), // Default SmolLM3 EOS
+                    eos_token_id: Some(128012),        // Default SmolLM3 EOS
                     no_rope_layers: None,
                     no_rope_layer_interval: None,
                 }
@@ -61,7 +61,10 @@ impl SmolLM3Model {
                     num_key_value_heads: cfg.num_key_value_heads,
                     rope_theta: cfg.rope_theta as f32, // Convert f64 to f32
                     eos_token_id: cfg.eos_token_id,
-                    no_rope_layers: cfg.no_rope_layers.as_ref().map(|v| v.iter().map(|&x| x as u32).collect()), // Convert Vec<usize> to Vec<u32>
+                    no_rope_layers: cfg
+                        .no_rope_layers
+                        .as_ref()
+                        .map(|v| v.iter().map(|&x| x as u32).collect()), // Convert Vec<usize> to Vec<u32>
                     no_rope_layer_interval: cfg.no_rope_layer_interval,
                 }
             }
@@ -313,13 +316,17 @@ fn format_prompt(prompt: &str, use_chat_template: bool, enable_thinking: bool) -
         let today_date = now.format("%d %B %Y").to_string();
 
         // Set reasoning mode based on thinking flag
-        let reasoning_mode = if enable_thinking { "/think" } else { "/no_think" };
+        let reasoning_mode = if enable_thinking {
+            "/think"
+        } else {
+            "/no_think"
+        };
 
         // Build the assistant start with or without thinking tags
         let assistant_start = if enable_thinking {
-            "<|im_start|>assistant\n<think>\n"  // Open for reasoning
+            "<|im_start|>assistant\n<think>\n" // Open for reasoning
         } else {
-            "<|im_start|>assistant\n<think>\n\n</think>\n"  // Empty = skip reasoning
+            "<|im_start|>assistant\n<think>\n\n</think>\n" // Empty = skip reasoning
         };
 
         format!(
@@ -337,10 +344,7 @@ You are a helpful AI assistant named SmolLM, trained by Hugging Face.\n\
 <|im_start|>user\n\
 {}<|im_end|>\n\
 {}",
-            today_date,
-            reasoning_mode,
-            prompt,
-            assistant_start
+            today_date, reasoning_mode, prompt, assistant_start
         )
     } else {
         prompt.to_string()
@@ -381,8 +385,22 @@ fn run_generation(
 
     println!("\n=== Generation Settings ===");
     println!("Model type: {:?}", args.model_type);
-    println!("Chat template: {}", if use_chat_template { "enabled" } else { "disabled" });
-    println!("Thinking mode: {}", if args.thinking { "enabled (/think)" } else { "disabled (/no_think)" });
+    println!(
+        "Chat template: {}",
+        if use_chat_template {
+            "enabled"
+        } else {
+            "disabled"
+        }
+    );
+    println!(
+        "Thinking mode: {}",
+        if args.thinking {
+            "enabled (/think)"
+        } else {
+            "disabled (/no_think)"
+        }
+    );
     println!("Raw prompt: {}", prompt_str);
 
     // Encode prompt
@@ -597,4 +615,4 @@ fn main() -> Result<()> {
     run_generation(&mut model, tokenizer, &args, &device)?;
 
     Ok(())
-}
+}
diff --git a/candle-transformers/src/models/smol/mod.rs b/candle-transformers/src/models/smol/mod.rs
@@ -63,5 +63,5 @@
 //! - [SmolLM3 Model Card](https://huggingface.co/HuggingFaceTB/SmolLM3-3B)
 //! - [NoPE Paper](https://arxiv.org/abs/2410.01926)
 
-pub mod smollm3;
 pub mod quantized_smollm3;
+pub mod smollm3;
diff --git a/candle-transformers/src/models/smol/quantized_smollm3.rs b/candle-transformers/src/models/smol/quantized_smollm3.rs
@@ -1,11 +1,11 @@
+use crate::models::with_tracing::QMatMul;
+use crate::quantized_var_builder::VarBuilder;
+use candle::quantized::gguf_file;
 use candle::{DType, Device, Module, Result, Tensor};
+use candle_nn::kv_cache::KvCache;
 use candle_nn::Activation;
-use candle::quantized::gguf_file;
-use crate::quantized_var_builder::VarBuilder;
-use std::sync::Arc;
 use std::io::Write;
-use crate::models::with_tracing::QMatMul;
-use candle_nn::kv_cache::KvCache;
+use std::sync::Arc;
 
 const MAX_SEQ_LEN: usize = 4096;
 use candle::IndexOp;
@@ -82,17 +82,23 @@ impl QuantizedConfig {
 
         // Helper to get required metadata
         let get_u32 = |key: &str| -> Result<usize> {
-            metadata.get(key)
+            metadata
+                .get(key)
                 .and_then(|v| v.to_u32().ok())
                 .map(|v| v as usize)
-                .ok_or_else(|| candle::Error::Msg(format!("Missing or invalid metadata key: {}", key)))
+                .ok_or_else(|| {
+                    candle::Error::Msg(format!("Missing or invalid metadata key: {}", key))
+                })
         };
 
         let get_f32 = |key: &str| -> Result<f64> {
-            metadata.get(key)
+            metadata
+                .get(key)
                 .and_then(|v| v.to_f32().ok())
                 .map(|v| v as f64)
-                .ok_or_else(|| candle::Error::Msg(format!("Missing or invalid metadata key: {}", key)))
+                .ok_or_else(|| {
+                    candle::Error::Msg(format!("Missing or invalid metadata key: {}", key))
+                })
         };
 
         Ok(Self {
@@ -174,7 +180,12 @@ impl RotaryEmbedding {
         })
     }
 
-    pub fn apply_rotary_emb(&self, q: &Tensor, k: &Tensor, offset: usize) -> Result<(Tensor, Tensor)> {
+    pub fn apply_rotary_emb(
+        &self,
+        q: &Tensor,
+        k: &Tensor,
+        offset: usize,
+    ) -> Result<(Tensor, Tensor)> {
         let (_, _, seq_len, _) = q.dims4()?;
         let cos = self.cos.narrow(0, offset, seq_len)?;
         let sin = self.sin.narrow(0, offset, seq_len)?;
@@ -265,7 +276,7 @@ impl QuantizedAttention {
         let q_weight = q_weight.to_device(device)?; // Move to GPU
 
         // Re-quantize (now on GPU)
-        use candle::quantized::{QTensor, GgmlDType};
+        use candle::quantized::{GgmlDType, QTensor};
         let q_weight_qtensor = QTensor::quantize(&q_weight, GgmlDType::Q8_0)?;
         drop(q_weight_raw); // Explicitly free CPU memory
         drop(q_weight);
@@ -298,21 +309,22 @@ impl QuantizedAttention {
         })
     }
 
-    fn forward(
-        &mut self,
-        x: &Tensor,
-        mask: Option<&Tensor>,
-        offset: usize,
-    ) -> Result<Tensor> {
+    fn forward(&mut self, x: &Tensor, mask: Option<&Tensor>, offset: usize) -> Result<Tensor> {
         let (b, seq_len, _) = x.dims3()?;
 
-        let q = self.q_proj.forward(x)?
+        let q = self
+            .q_proj
+            .forward(x)?
             .reshape((b, seq_len, self.num_heads, self.head_dim))?
             .transpose(1, 2)?;
-        let k = self.k_proj.forward(x)?
+        let k = self
+            .k_proj
+            .forward(x)?
             .reshape((b, seq_len, self.num_kv_heads, self.head_dim))?
             .transpose(1, 2)?;
-        let v = self.v_proj.forward(x)?
+        let v = self
+            .v_proj
+            .forward(x)?
             .reshape((b, seq_len, self.num_kv_heads, self.head_dim))?
             .transpose(1, 2)?;
 
@@ -375,22 +387,21 @@ impl QuantizedDecoderLayer {
             self_attn: QuantizedAttention::new(attn_vb.clone(), cfg, layer_idx, rotary_emb)?,
             mlp: QuantizedMLP::new(attn_vb.clone(), layer_idx)?,
             input_layernorm: RmsNorm::new(
-                attn_vb.get_no_shape("attn_norm.weight")?.dequantize(vb.device())?,
+                attn_vb
+                    .get_no_shape("attn_norm.weight")?
+                    .dequantize(vb.device())?,
                 cfg.rms_norm_eps,
             ),
             post_attention_layernorm: RmsNorm::new(
-                attn_vb.get_no_shape("ffn_norm.weight")?.dequantize(vb.device())?,
+                attn_vb
+                    .get_no_shape("ffn_norm.weight")?
+                    .dequantize(vb.device())?,
                 cfg.rms_norm_eps,
             ),
         })
     }
 
-    fn forward(
-        &mut self,
-        x: &Tensor,
-        mask: Option<&Tensor>,
-        offset: usize,
-    ) -> Result<Tensor> {
+    fn forward(&mut self, x: &Tensor, mask: Option<&Tensor>, offset: usize) -> Result<Tensor> {
         let residual = x;
         let x = self.input_layernorm.forward(x)?;
         let x = self.self_attn.forward(&x, mask, offset)?;
@@ -419,7 +430,7 @@ pub struct QuantizedModelForCausalLM {
 
 impl QuantizedModelForCausalLM {
     pub fn from_gguf<P: AsRef<std::path::Path>>(path: P, device: &Device) -> Result<Self> {
-        use candle::quantized::{QTensor, GgmlDType};
+        use candle::quantized::{GgmlDType, QTensor};
 
         // Open file once to read metadata
         let mut file = std::fs::File::open(path.as_ref())?;
@@ -437,14 +448,9 @@ impl QuantizedModelForCausalLM {
         let embed_tokens = candle_nn::Embedding::new(embed_tensor_gpu, config.hidden_size);
 
         // Create rotary embedding if needed
-        let needs_rope = (0..config.num_hidden_layers)
-            .any(|i| !config.should_skip_rope(i));
+        let needs_rope = (0..config.num_hidden_layers).any(|i| !config.should_skip_rope(i));
         let rotary_emb = if needs_rope {
-            Some(Arc::new(RotaryEmbedding::new(
-                DType::F32,
-                &config,
-                device,
-            )?))
+            Some(Arc::new(RotaryEmbedding::new(DType::F32, &config, device)?))
         } else {
             None
         };
@@ -454,7 +460,11 @@ impl QuantizedModelForCausalLM {
         println!("Loading {} decoder layers...", config.num_hidden_layers);
         for layer_idx in 0..config.num_hidden_layers {
             if layer_idx % 4 == 0 || layer_idx == config.num_hidden_layers - 1 {
-                print!("  Layer {}/{}...\r", layer_idx + 1, config.num_hidden_layers);
+                print!(
+                    "  Layer {}/{}...\r",
+                    layer_idx + 1,
+                    config.num_hidden_layers
+                );
                 std::io::stdout().flush().ok();
             }
             layers.push(QuantizedDecoderLayer::new(
@@ -464,7 +474,10 @@ impl QuantizedModelForCausalLM {
                 rotary_emb.clone(),
             )?);
         }
-        println!("  Layer {}/{} - Done!    ", config.num_hidden_layers, config.num_hidden_layers);
+        println!(
+            "  Layer {}/{} - Done!    ",
+            config.num_hidden_layers, config.num_hidden_layers
+        );
 
         // Load output norm
         let norm = RmsNorm::new(
@@ -551,4 +564,4 @@ impl QuantizedModelForCausalLM {
     pub fn config(&self) -> &QuantizedConfig {
         &self.config
     }
-}
+}
diff --git a/candle-transformers/src/models/smol/smollm3.rs b/candle-transformers/src/models/smol/smollm3.rs
@@ -36,7 +36,6 @@ pub struct Config {
 }
 
 impl Config {
-
     pub fn should_skip_rope(&self, layer_idx: usize) -> bool {
         // Method 1: Explicit array (some model variants may provide this)
         if let Some(ref no_rope_layers) = self.no_rope_layers {
@@ -112,9 +111,24 @@ impl SmolLM3MLP {
     pub(crate) fn new(cfg: &Config, vb: VarBuilder) -> Result<Self> {
         let mlp_bias = cfg.mlp_bias.unwrap_or(false);
         Ok(Self {
-            gate_proj: linear_b(cfg.hidden_size, cfg.intermediate_size, mlp_bias, vb.pp("gate_proj"))?,
-            up_proj: linear_b(cfg.hidden_size, cfg.intermediate_size, mlp_bias, vb.pp("up_proj"))?,
-            down_proj: linear_b(cfg.intermediate_size, cfg.hidden_size, mlp_bias, vb.pp("down_proj"))?,
+            gate_proj: linear_b(
+                cfg.hidden_size,
+                cfg.intermediate_size,
+                mlp_bias,
+                vb.pp("gate_proj"),
+            )?,
+            up_proj: linear_b(
+                cfg.hidden_size,
+                cfg.intermediate_size,
+                mlp_bias,
+                vb.pp("up_proj"),
+            )?,
+            down_proj: linear_b(
+                cfg.intermediate_size,
+                cfg.hidden_size,
+                mlp_bias,
+                vb.pp("down_proj"),
+            )?,
             act_fn: cfg.hidden_act,
         })
     }
@@ -350,7 +364,11 @@ impl Model {
         // Only create rotary embedding if at least one layer uses RoPE
         let needs_rope = (0..cfg.num_hidden_layers).any(|i| !cfg.should_skip_rope(i));
         let rotary = if needs_rope {
-            Some(Arc::new(SmolLM3RotaryEmbedding::new(vb.dtype(), cfg, vb.device())?))
+            Some(Arc::new(SmolLM3RotaryEmbedding::new(
+                vb.dtype(),
+                cfg,
+                vb.device(),
+            )?))
         } else {
             None
         };
@@ -444,10 +462,9 @@ impl ModelForCausalLM {
             .forward(input, offset)?
             .narrow(1, l - 1, 1)?
             .apply(&self.lm_head)
-
     }
 
     pub fn clear_kv_cache(&mut self) {
         self.base.clear_kv_cache();
     }
-}
+}