Add support for ShieldGemma2ForImageClassification

infil00p · infil00p · commit 4ff63d519a07 · 2025-11-14T22:28:15.000-08:00
- Register ShieldGemma2ForImageClassification for both TEXT and MMPROJ model types
- Add prefix handling for 'model.' and 'model.language_model.' prefixes in tensor names
- Enable conversion of ShieldGemma models to GGUF format with vision encoder support

This enables conversion of google/shieldgemma-2-4b-it and similar models
for content moderation tasks with llama.cpp multimodal support.
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -5740,7 +5740,7 @@ def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iter
         return [(self.map_tensor_name(name), data_torch)]
 
 
-@ModelBase.register("Gemma3ForCausalLM", "Gemma3ForConditionalGeneration")
+@ModelBase.register("Gemma3ForCausalLM", "Gemma3ForConditionalGeneration", "ShieldGemma2ForImageClassification")
 class Gemma3Model(TextModel):
     model_arch = gguf.MODEL_ARCH.GEMMA3
     norm_shift = 1.0  # Gemma3RMSNorm adds 1.0 to the norm value
@@ -5778,13 +5778,17 @@ def set_gguf_parameters(self):
     def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
         del bid  # unused
 
-        if "language_model." in name:
-            name = name.replace("language_model.", "")
-
-        elif name.startswith("multi_modal_projector.") or name.startswith("vision_tower.") \
-                or name.startswith("multimodal_projector.") or name.startswith("vision_model."):
+        # Skip vision tensors (check before prefix removal)
+        if "multi_modal_projector." in name or "vision_tower." in name \
+                or "multimodal_projector." in name or "vision_model." in name:
             return [] # skip vision tensors
 
+        # Handle ShieldGemma2 prefix
+        if name.startswith("model.language_model."):
+            name = name.replace("model.language_model.", "")
+        elif "language_model." in name:
+            name = name.replace("language_model.", "")
+
         # remove OOV (out-of-vocabulary) rows in token_embd
         if "embed_tokens.weight" in name:
             vocab = self._create_vocab_sentencepiece()
@@ -5874,7 +5878,7 @@ def set_gguf_parameters(self):
         self._try_set_pooling_type()
 
 
-@ModelBase.register("Gemma3ForConditionalGeneration")
+@ModelBase.register("Gemma3ForConditionalGeneration", "ShieldGemma2ForImageClassification")
 class Gemma3VisionModel(MmprojModel):
     def set_gguf_parameters(self):
         super().set_gguf_parameters()
@@ -5908,6 +5912,10 @@ def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iter
         if "vision_model.head." in name:
             return [] # skip redundant tensors for tinygemma3
 
+        # Handle ShieldGemma2 prefix
+        if name.startswith("model."):
+            name = name.replace("model.", "", 1)
+
         if name.startswith("multi_modal_projector.") or name.startswith("vision_tower.") \
                 or name.startswith("multimodal_projector.") or name.startswith("vision_model."):
             # process vision tensors