Add support for rope_parameters in config.json

alvarobartt · alvarobartt · commit 4910244097e3 · 2026-02-18T16:51:44.000+01:00
See huggingface/transformers#39847
diff --git a/backends/candle/src/lib.rs b/backends/candle/src/lib.rs
@@ -538,6 +538,7 @@ impl CandleBackend {
                         rms_norm_eps: config.rms_norm_eps,
                         model_type: config.model_type.clone(),
                         rope_theta: config.rope_theta,
+                        rope_parameters: config.rope_parameters,
                         sliding_window: config.sliding_window,
                         rope_scaling: config.rope_scaling,
                         use_bidirectional_attention: config.use_bidirectional_attention,
diff --git a/backends/candle/src/models/flash_gte.rs b/backends/candle/src/models/flash_gte.rs
@@ -199,9 +199,15 @@ impl FlashGTEModel {
             Self::inner_load(vb.pp("new"), config)
                 .or_else(|_| Self::inner_load(vb.clone(), config))?;
 
+        // NOTE: https://github.com/huggingface/transformers/pull/39847
+        let rope_theta = config.rope_theta.unwrap_or(match config.rope_parameters {
+            Some(rope_parameters) => rope_parameters.rope_theta,
+            None => candle::bail!("Neither `rope_theta` nor `rope_parameters.rope_theta` is defined in the `config.json`")
+        });
+
         let inv_freqs = get_inv_freqs(
             layers[0].attention.attention_head_size,
-            config.rope_theta,
+            rope_theta,
             vb.device(),
             config.rope_scaling.as_ref(),
         )?;
diff --git a/backends/candle/src/models/flash_mistral.rs b/backends/candle/src/models/flash_mistral.rs
@@ -268,9 +268,15 @@ impl FlashMistralModel {
 
         let norm = RMSNorm::load(vb.pp("norm"), config.hidden_size, config.rms_norm_eps)?;
 
+        // NOTE: https://github.com/huggingface/transformers/pull/39847
+        let rope_theta = config.rope_theta.unwrap_or(match config.rope_parameters {
+            Some(rope_parameters) => rope_parameters.rope_theta,
+            None => candle::bail!("Neither `rope_theta` nor `rope_parameters.rope_theta` is defined in the `config.json`")
+        });
+
         let inv_freqs = get_inv_freqs(
             layers[0].attention.attention_head_size,
-            config.rope_theta,
+            rope_theta,
             vb.device(),
             config.rope_scaling.as_ref(),
         )?;
diff --git a/backends/candle/src/models/flash_qwen2.rs b/backends/candle/src/models/flash_qwen2.rs
@@ -285,9 +285,15 @@ impl FlashQwen2Model {
 
         let norm = RMSNorm::load(vb.pp("norm"), config.hidden_size, config.rms_norm_eps)?;
 
+        // NOTE: https://github.com/huggingface/transformers/pull/39847
+        let rope_theta = config.rope_theta.unwrap_or(match config.rope_parameters {
+            Some(rope_parameters) => rope_parameters.rope_theta,
+            None => candle::bail!("Neither `rope_theta` nor `rope_parameters.rope_theta` is defined in the `config.json`")
+        });
+
         let inv_freqs = get_inv_freqs(
             layers[0].attention.attention_head_size,
-            config.rope_theta,
+            rope_theta,
             vb.device(),
             None,
         )?;
diff --git a/backends/candle/src/models/flash_qwen3.rs b/backends/candle/src/models/flash_qwen3.rs
@@ -353,9 +353,15 @@ impl FlashQwen3Model {
             None
         };
 
+        // NOTE: https://github.com/huggingface/transformers/pull/39847
+        let rope_theta = config.rope_theta.unwrap_or(match config.rope_parameters {
+            Some(rope_parameters) => rope_parameters.rope_theta,
+            None => candle::bail!("Neither `rope_theta` nor `rope_parameters.rope_theta` is defined in the `config.json`")
+        });
+
         let inv_freqs = get_inv_freqs(
             layers[0].attention.attention_head_size,
-            config.rope_theta,
+            rope_theta,
             vb.device(),
             None,
         )?;
diff --git a/backends/candle/src/models/gemma3.rs b/backends/candle/src/models/gemma3.rs
@@ -8,6 +8,13 @@ use candle_nn::{Embedding, Module, VarBuilder};
 use serde::Deserialize;
 use text_embeddings_backend_core::{Batch, ModelType, Pool};
 
+#[derive(Deserialize)]
+struct RopeParameters {
+    rope_theta: f32,
+    #[allow(unused)]
+    rope_type: String,
+}
+
 #[derive(Debug, Clone, PartialEq, Deserialize)]
 pub struct Gemma3Config {
     pub attention_bias: bool,
@@ -23,9 +30,10 @@ pub struct Gemma3Config {
     pub query_pre_attn_scalar: usize,
     pub rms_norm_eps: f32,
     pub rope_local_base_freq: f32,
-    pub rope_theta: f32,
+    pub rope_theta: Option<f32>,
+    pub rope_parameters: Option<RopeParameters>,
     pub sliding_window: Option<usize>,
-    #[serde(rename(deserialize = "_sliding_window_pattern"))]
+    #[serde(rename = "_sliding_window_pattern")]
     pub sliding_window_pattern: usize,
     pub vocab_size: usize,
 }
@@ -653,7 +661,13 @@ impl Gemma3Model {
             .head_dim
             .unwrap_or(config.hidden_size / config.num_attention_heads);
 
-        let inv_freqs = get_inv_freqs(rotary_dim, config.rope_theta, vb.device(), None)?;
+        // NOTE: https://github.com/huggingface/transformers/pull/39847
+        let rope_theta = config.rope_theta.unwrap_or(match config.rope_parameters {
+            Some(rope_parameters) => rope_parameters.rope_theta,
+            None => candle::bail!("Neither `rope_theta` nor `rope_parameters.rope_theta` is defined in the `config.json`")
+        });
+
+        let inv_freqs = get_inv_freqs(rotary_dim, rope_theta, vb.device(), None)?;
         let rotary_cache =
             get_cos_sin(config.max_position_embeddings, &inv_freqs, vb.dtype(), true)?;
 
diff --git a/backends/candle/src/models/gte.rs b/backends/candle/src/models/gte.rs
@@ -3,12 +3,20 @@ use crate::layers::{
     RopeScaling,
 };
 use crate::models::{Model, PositionEmbeddingType};
+
 use candle::{DType, Device, IndexOp, Result, Tensor, D};
 use candle_nn::{Embedding, Module, VarBuilder};
 use serde::Deserialize;
 use std::collections::HashMap;
 use text_embeddings_backend_core::{Batch, ModelType, Pool};
 
+#[derive(Deserialize)]
+struct RopeParameters {
+    pub rope_theta: f32,
+    #[allow(unused)]
+    rope_type: String,
+}
+
 #[derive(Debug, Clone, PartialEq, Deserialize)]
 pub struct GTEConfig {
     pub vocab_size: usize,
@@ -22,7 +30,8 @@ pub struct GTEConfig {
     pub layer_norm_type: String,
     pub layer_norm_eps: f32,
     pub position_embedding_type: PositionEmbeddingType,
-    pub rope_theta: f32,
+    pub rope_theta: Option<f32>,
+    pub rope_parameters: Option<RopeParameters>,
     pub rope_scaling: Option<RopeScaling>,
     #[serde(default)]
     pub logn_attention_scale: bool,
@@ -412,10 +421,16 @@ impl GTEModel {
             Self::inner_load(vb.pp("new"), config)
                 .or_else(|_| Self::inner_load(vb.clone(), config))?;
 
+        // NOTE: https://github.com/huggingface/transformers/pull/39847
+        let rope_theta = config.rope_theta.unwrap_or(match config.rope_parameters {
+            Some(rope_parameters) => rope_parameters.rope_theta,
+            None => candle::bail!("Neither `rope_theta` nor `rope_parameters.rope_theta` is defined in the `config.json`")
+        });
+
         let rotary_dim = encoder.layers[0].attention.attention_head_size;
         let inv_freqs = get_inv_freqs(
             rotary_dim,
-            config.rope_theta,
+            rope_theta,
             vb.device(),
             config.rope_scaling.as_ref(),
         )?;
diff --git a/backends/candle/src/models/llama.rs b/backends/candle/src/models/llama.rs
@@ -1,6 +1,13 @@
 use crate::layers::{HiddenAct, RopeScaling};
 use serde::Deserialize;
 
+#[derive(Deserialize)]
+struct RopeParameters {
+    pub rope_theta: f32,
+    #[allow(unused)]
+    rope_type: String,
+}
+
 #[derive(Debug, Clone, PartialEq, Deserialize)]
 pub struct LlamaConfig {
     pub vocab_size: usize,
@@ -14,7 +21,8 @@ pub struct LlamaConfig {
     pub initializer_range: f64,
     pub rms_norm_eps: f32,
     pub model_type: Option<String>,
-    pub rope_theta: f32,
+    pub rope_theta: Option<f32>,
+    pub rope_parameters: Option<RopeParameters>,
     pub sliding_window: Option<usize>,
     pub rope_scaling: Option<RopeScaling>,
     #[serde(default)]
diff --git a/backends/candle/src/models/mistral.rs b/backends/candle/src/models/mistral.rs
@@ -1,6 +1,13 @@
 use crate::layers::{HiddenAct, RopeScaling};
 use serde::Deserialize;
 
+#[derive(Deserialize)]
+struct RopeParameters {
+    pub rope_theta: f32,
+    #[allow(unused)]
+    rope_type: String,
+}
+
 #[derive(Debug, Clone, PartialEq, Deserialize)]
 pub struct MistralConfig {
     pub vocab_size: usize,
@@ -14,7 +21,8 @@ pub struct MistralConfig {
     pub initializer_range: f64,
     pub rms_norm_eps: f32,
     pub model_type: Option<String>,
-    pub rope_theta: f32,
+    pub rope_theta: Option<f32>,
+    pub rope_parameters: Option<RopeParameters>,
     pub sliding_window: Option<usize>,
     pub rope_scaling: Option<RopeScaling>,
     #[serde(default)]
diff --git a/backends/candle/src/models/qwen2.rs b/backends/candle/src/models/qwen2.rs
@@ -6,6 +6,13 @@ fn default_is_causal() -> bool {
     true
 }
 
+#[derive(Deserialize)]
+struct RopeParameters {
+    pub rope_theta: f32,
+    #[allow(unused)]
+    rope_type: String,
+}
+
 #[derive(Debug, Clone, PartialEq, Deserialize)]
 pub struct Qwen2Config {
     pub vocab_size: usize,
@@ -17,7 +24,8 @@ pub struct Qwen2Config {
     pub hidden_act: HiddenAct,
     pub max_position_embeddings: usize,
     pub rms_norm_eps: f32,
-    pub rope_theta: f32,
+    pub rope_theta: Option<f32>,
+    pub rope_parameters: Option<RopeParameters>,
     pub sliding_window: Option<usize>,
     pub use_sliding_window: bool,
     #[serde(default = "default_is_causal")]
diff --git a/backends/candle/src/models/qwen3.rs b/backends/candle/src/models/qwen3.rs
@@ -2,11 +2,19 @@ use crate::layers::{
     apply_rotary, get_cos_sin, get_cublas_lt_wrapper, get_inv_freqs, HiddenAct, Linear, RMSNorm,
 };
 use crate::models::Model;
+
 use candle::{DType, Device, IndexOp, Result, Tensor, D};
 use candle_nn::{Embedding, Module, VarBuilder};
 use serde::Deserialize;
 use text_embeddings_backend_core::{Batch, ModelType, Pool};
 
+#[derive(Deserialize)]
+struct RopeParameters {
+    pub rope_theta: f32,
+    #[allow(unused)]
+    rope_type: String,
+}
+
 #[derive(Debug, Clone, PartialEq, Deserialize)]
 pub struct Qwen3Config {
     pub attention_bias: bool,
@@ -20,7 +28,8 @@ pub struct Qwen3Config {
     pub hidden_act: HiddenAct,
     pub max_position_embeddings: usize,
     pub rms_norm_eps: f32,
-    pub rope_theta: f32,
+    pub rope_theta: Option<f32>,
+    pub rope_parameters: Option<RopeParameters>,
     pub sliding_window: Option<usize>,
     pub use_sliding_window: bool,
     pub eos_token_id: usize,
@@ -454,7 +463,13 @@ impl Qwen3Model {
             .head_dim
             .unwrap_or(config.hidden_size / config.num_attention_heads);
 
-        let inv_freqs = get_inv_freqs(rotary_dim, config.rope_theta, vb.device(), None)?;
+        // NOTE: https://github.com/huggingface/transformers/pull/39847
+        let rope_theta = config.rope_theta.unwrap_or(match config.rope_parameters {
+            Some(rope_parameters) => rope_parameters.rope_theta,
+            None => candle::bail!("Neither `rope_theta` nor `rope_parameters.rope_theta` is defined in the `config.json`")
+        });
+
+        let inv_freqs = get_inv_freqs(rotary_dim, rope_theta, vb.device(), None)?;
 
         let rotary_cache =
             get_cos_sin(config.max_position_embeddings, &inv_freqs, vb.dtype(), true)?;