Fix: Prioritize default head_dim when provided by architecture (Gemma3) over computed head_dim

turboderp · turboderp · commit a03db457ef6e · 2025-03-15T11:52:51.000+01:00
diff --git a/exllamav2/config.py b/exllamav2/config.py
@@ -273,7 +273,11 @@ def prepare(self, no_tensors: bool = False):
             read_config,
             int,
             "head_dim",
-            (self.hidden_size // self.num_attention_heads) if self.num_attention_heads else self.arch.lm.default_head_dim,
+            (
+                self.arch.lm.default_head_dim if self.arch.lm.default_head_dim != no_default else
+                (self.hidden_size // self.num_attention_heads) if self.num_attention_heads else
+                no_default
+            ),
             opt_subkey = "text_config"
         )