(wip) convert ultravox-enc to gguf

ngxson · ngxson · commit 62695aa886f3 · 2025-04-03T16:11:32.000+02:00
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -5277,6 +5277,56 @@ def _reverse_hf_permute(data_torch, n_heads, hidden_dim):
         return data_torch
 
 
+@Model.register("UltravoxModel")
+class UltravoxEncoderModel(Model):
+    model_arch = gguf.MODEL_ARCH.ULTRAVOX_ENC
+
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        audio_config = self.hparams["audio_config"]
+        self.block_count = audio_config["encoder_layers"]
+        self.tensor_map = gguf.get_tensor_name_map(self.model_arch, self.block_count)
+
+    def set_gguf_parameters(self):
+        audio_config = self.hparams["audio_config"]
+        self.gguf_writer.add_context_length(audio_config["max_source_positions"])
+        self.gguf_writer.add_embedding_length(audio_config["d_model"])
+        self.gguf_writer.add_feed_forward_length(audio_config["encoder_ffn_dim"])
+        self.gguf_writer.add_head_count(audio_config["encoder_attention_heads"])
+        self.gguf_writer.add_head_count_kv(audio_config["encoder_attention_heads"])
+        self.gguf_writer.add_layer_norm_eps(1e-5) # default from whisper
+        self.gguf_writer.add_block_count(audio_config["encoder_layers"])
+        self.gguf_writer.add_n_mel_bins(audio_config["num_mel_bins"])
+        # We only have encoder, so we will always use non-causal attention
+        self.gguf_writer.add_causal_attention(False)
+
+    def set_vocab(self):
+        self._set_vocab_none()
+
+    def generate_extra_tensors(self) -> Iterable[tuple[str, Tensor]]:
+        # TODO: maybe we can generate these filters ourselves?
+        from huggingface_hub import hf_hub_download
+        mel_filters_path = hf_hub_download(
+            repo_id="ggml-org/models",
+            filename="mel_filters.npz",
+        )
+        with np.load(mel_filters_path) as f:
+            yield ("mel_filters", torch.from_numpy(f["mel_128"]))
+
+    def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
+        del bid  # unused
+
+        name = name.replace("audio_tower.layers.", "model.layers.")
+        name = name.replace(".fc", ".mlp.fc")
+        name = name.replace(".self_attn_layer_norm", ".input_layernorm")
+        name = name.replace(".final_layer_norm", ".post_attention_layernorm")
+
+        if "conv1.bias" in name or "conv2.bias" in name:
+            data_torch = data_torch.unsqueeze(-1).transpose(0, 1)
+
+        return [(self.map_tensor_name(name), data_torch)]
+
+
 ###### CONVERSION LOGIC ######
 
 
diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py
@@ -173,6 +173,9 @@ class ConvNext:
         EMBEDDING_LENGTH = "{arch}.convnext.embedding_length"
         BLOCK_COUNT      = "{arch}.convnext.block_count"
 
+    class Whisper:
+        N_MEL_BINS       = "{arch}.n_mel_bins"
+
     class Tokenizer:
         MODEL                = "tokenizer.ggml.model"
         PRE                  = "tokenizer.ggml.pre"
@@ -288,6 +291,7 @@ class MODEL_ARCH(IntEnum):
     WAVTOKENIZER_DEC = auto()
     PLM              = auto()
     BAILINGMOE       = auto()
+    ULTRAVOX_ENC     = auto()
 
 
 class MODEL_TENSOR(IntEnum):
@@ -427,6 +431,13 @@ class MODEL_TENSOR(IntEnum):
     POSNET_ATTN_K        = auto()
     POSNET_ATTN_V        = auto()
     POSNET_ATTN_OUT      = auto()
+    WHISPER_CONV1        = auto()
+    WHISPER_CONV2        = auto()
+    WHISPER_MEL_FILTERS  = auto()
+    MM_PROJ_MLP_1        = auto() # ultravox
+    MM_PROJ_MLP_2        = auto() # ultravox
+    MM_PROJ_NORM_MID     = auto() # ultravox
+    MM_PROJ_NORM_PRE     = auto() # ultravox
 
 
 MODEL_ARCH_NAMES: dict[MODEL_ARCH, str] = {
@@ -492,6 +503,7 @@ class MODEL_TENSOR(IntEnum):
     MODEL_ARCH.WAVTOKENIZER_DEC: "wavtokenizer-dec",
     MODEL_ARCH.PLM:              "plm",
     MODEL_ARCH.BAILINGMOE:       "bailingmoe",
+    MODEL_ARCH.ULTRAVOX_ENC:     "ultravox-enc",
 }
 
 TENSOR_NAMES: dict[MODEL_TENSOR, str] = {
@@ -631,6 +643,13 @@ class MODEL_TENSOR(IntEnum):
     MODEL_TENSOR.POSNET_ATTN_K:             "posnet.{bid}.attn_k",
     MODEL_TENSOR.POSNET_ATTN_V:             "posnet.{bid}.attn_v",
     MODEL_TENSOR.POSNET_ATTN_OUT:           "posnet.{bid}.attn_output",
+    MODEL_TENSOR.WHISPER_CONV1:             "whisper.conv1",
+    MODEL_TENSOR.WHISPER_CONV2:             "whisper.conv2",
+    MODEL_TENSOR.WHISPER_MEL_FILTERS:       "whisper.mel_filters",
+    MODEL_TENSOR.MM_PROJ_MLP_1:             "mm.proj.mlp_1",
+    MODEL_TENSOR.MM_PROJ_MLP_2:             "mm.proj.mlp_2",
+    MODEL_TENSOR.MM_PROJ_NORM_MID:          "mm.proj.norm_mid",
+    MODEL_TENSOR.MM_PROJ_NORM_PRE:          "mm.proj.norm_pre",
 }
 
 MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
@@ -1688,6 +1707,25 @@ class MODEL_TENSOR(IntEnum):
         MODEL_TENSOR.FFN_DOWN_SHEXP,
         MODEL_TENSOR.FFN_UP_SHEXP,
     ],
+    MODEL_ARCH.ULTRAVOX_ENC: [
+        MODEL_TENSOR.POS_EMBD,
+        MODEL_TENSOR.WHISPER_CONV1,
+        MODEL_TENSOR.WHISPER_CONV2,
+        MODEL_TENSOR.WHISPER_MEL_FILTERS,
+        MODEL_TENSOR.OUTPUT_NORM,
+        MODEL_TENSOR.ATTN_NORM,
+        MODEL_TENSOR.ATTN_K,
+        MODEL_TENSOR.ATTN_Q,
+        MODEL_TENSOR.ATTN_V,
+        MODEL_TENSOR.ATTN_OUT,
+        MODEL_TENSOR.FFN_NORM,
+        MODEL_TENSOR.FFN_UP,
+        MODEL_TENSOR.FFN_DOWN,
+        MODEL_TENSOR.MM_PROJ_MLP_1, # ultravox
+        MODEL_TENSOR.MM_PROJ_MLP_2, # ultravox
+        MODEL_TENSOR.MM_PROJ_NORM_MID, # ultravox
+        MODEL_TENSOR.MM_PROJ_NORM_PRE, # ultravox
+    ],
     # TODO
 }
 
diff --git a/gguf-py/gguf/gguf_writer.py b/gguf-py/gguf/gguf_writer.py
@@ -887,6 +887,9 @@ def add_remove_extra_whitespaces(self, value: bool) -> None:
     def add_precompiled_charsmap(self, charsmap: Sequence[bytes]) -> None:
         self.add_array(Keys.Tokenizer.PRECOMPILED_CHARSMAP, charsmap)
 
+    def add_n_mel_bins(self, value: int) -> None:
+        self.add_uint32(Keys.Whisper.N_MEL_BINS, value)
+
     def add_chat_template(self, value: str | Sequence[Mapping[str, str]]) -> None:
         if not isinstance(value, str):
             template_default = None
diff --git a/gguf-py/gguf/tensor_mapping.py b/gguf-py/gguf/tensor_mapping.py
@@ -55,6 +55,7 @@ class TensorNameMap:
             "transformer.wpe",                 # gpt2
             "embeddings.position_embeddings",  # bert
             "wpe",                             # gpt2
+            "audio_tower.embed_positions",     # ultravox
         ),
 
         # Output
@@ -89,6 +90,7 @@ class TensorNameMap:
             "rwkv.ln_out",                             # rwkv6
             "model.ln_out",                            # rwkv7
             "backbone.final_layer_norm",               # wavtokenizer
+            "audio_tower.layer_norm",                  # ultravox
         ),
 
         # Rope frequencies
@@ -103,6 +105,28 @@ class TensorNameMap:
         MODEL_TENSOR.CONV1D: (
             "backbone.embed", # roberta
         ),
+
+        MODEL_TENSOR.WHISPER_CONV1: (
+            "audio_tower.conv1",
+        ),
+        MODEL_TENSOR.WHISPER_CONV2: (
+            "audio_tower.conv2",
+        ),
+        MODEL_TENSOR.MM_PROJ_MLP_1: (
+            "multi_modal_projector.linear_1", # ultravox
+        ),
+        MODEL_TENSOR.MM_PROJ_MLP_2: (
+            "multi_modal_projector.linear_2", # ultravox
+        ),
+        MODEL_TENSOR.MM_PROJ_NORM_MID: (
+            "multi_modal_projector.ln_mid", # ultravox
+        ),
+        MODEL_TENSOR.MM_PROJ_NORM_PRE: (
+            "multi_modal_projector.ln_pre", # ultravox
+        ),
+        MODEL_TENSOR.WHISPER_MEL_FILTERS: (
+            "mel_filters",
+        ),
     }
 
     block_mappings_cfg: dict[MODEL_TENSOR, tuple[str, ...]] = {
@@ -206,6 +230,7 @@ class TensorNameMap:
             "transformer.h.{bid}.self_attention.dense",                     # falcon
             "h.{bid}.self_attention.dense",                                 # bloom
             "model.layers.{bid}.self_attn.o_proj",                          # llama-hf nemotron olmoe olmo2 phimoe
+            "model.layers.{bid}.self_attn.out_proj"   ,                     # ultravox
             "model.layers.{bid}.self_attn.linear_attn",                     # deci
             "layers.{bid}.attention.wo",                                    # llama-pth
             "encoder.layer.{bid}.attention.output.dense",                   # bert