Use hidden_size_per_head as head_size fallback (vllm-project#24221)

nopperl · web-flow · commit 2b30afa4420c · 2025-09-04T12:59:16.000+01:00
Signed-off-by: nopperl &lt;54780682+nopperl@users.noreply.github.com&gt;
diff --git a/vllm/config/__init__.py b/vllm/config/__init__.py
@@ -1426,6 +1426,11 @@ def get_head_size(self) -> int:
         if getattr(self.hf_text_config, "head_dim", None) is not None:
             return self.hf_text_config.head_dim
 
+        # NOTE: Some models (such as PLaMo2.1) use `hidden_size_per_head`
+        if getattr(self.hf_text_config, "hidden_size_per_head",
+                   None) is not None:
+            return self.hf_text_config.hidden_size_per_head
+
         # FIXME(woosuk): This may not be true for all models.
         return (self.hf_text_config.hidden_size //
                 self.hf_text_config.num_attention_heads)