wip

ngxson · ngxson · commit 2d743b6758c3 · 2025-03-30T00:21:29.000+01:00
diff --git a/examples/tts/convert_csm_to_gguf.py b/examples/tts/convert_csm_to_gguf.py
@@ -89,8 +89,6 @@ class CSMModelConverter:
     fname_out: Path
     ftype: gguf.LlamaFileType
 
-    projection_tensor: Tensor # projecting from n_embd_backbone (2048) to n_embd_decoder (1024)
-
     def __init__(self,
                  safetensors_path: Union[Path, str],
                  path_to_vocab_gguf: Path,
@@ -110,24 +108,18 @@ def __init__(self,
         # backbone
         self.gguf_writer_backbone = gguf.GGUFWriter(
             path=None,
-            arch="llama",
+            arch="llama-csm",
             endianess=endianess)
 
         # decoder
         self.gguf_writer_decoder = gguf.GGUFWriter(
             path=None,
-            arch="llama",
+            arch="llama-csm",
             endianess=endianess)
 
         Llama_3_2_1B().write_gguf_metadata(self.gguf_writer_backbone, self.gguf_reader_vocab)
         Llama_3_2_100M().write_gguf_metadata(self.gguf_writer_decoder, self.gguf_reader_vocab)
 
-        # get projection tensor)
-        for name, data_torch in self.state_dict.items():
-            if name == "projection.weight":
-                self.projection_tensor = data_torch
-                break
-
         # load tensors
         for component in ("backbone", "decoder"):
             print()
@@ -165,10 +157,7 @@ def rename_transformer(name: str) -> str:
 
         if "audio_embeddings." in name:
             is_decoder = True
-            if component == "decoder":
-                name = name.replace("audio_embeddings.", "token_embd.")
-                data_torch = torch.mm(data_torch, self.projection_tensor.T)
-                print("Applied projection to audio_embeddings", data_torch.shape)
+            name = name.replace("audio_embeddings.", "audio_embd.")
 
         elif "text_embeddings." in name:
             is_backbone = True
@@ -189,11 +178,18 @@ def rename_transformer(name: str) -> str:
         elif name == "audio_head":
             is_decoder = True
             name = "audio_head.weight"
+            if component == "decoder":
+                # add padding at the beginning so that build_lora_mm_id can be used
+                zero_tensor = torch.zeros(1, 1024, 2051)
+                data_torch = torch.cat([zero_tensor, data_torch], dim=0)
+                assert data_torch.shape == (32, 1024, 2051)
+                # then, transpose it
+                data_torch = data_torch.transpose(1, 2)
 
         elif name == "projection.weight":
             is_decoder = True
-            name = "inp_proj.weight"
-            self.projection_tensor = data_torch
+            is_backbone = True
+            name = "csm_proj.weight"
 
         if can_quantize:
             if self.ftype == gguf.LlamaFileType.ALL_F32:
@@ -203,7 +199,9 @@ def rename_transformer(name: str) -> str:
             elif self.ftype == gguf.LlamaFileType.MOSTLY_BF16:
                 data_qtype = gguf.GGMLQuantizationType.BF16
             elif self.ftype == gguf.LlamaFileType.MOSTLY_Q8_0:
-                data_qtype = gguf.GGMLQuantizationType.Q8_0
+                # decoder is very sensitive to quantization, do not quantize it lower than F16
+                data_qtype = gguf.GGMLQuantizationType.Q8_0 if component != "decoder" \
+                                else gguf.GGMLQuantizationType.F16
             else:
                 raise ValueError(f"Unsupported file type: {self.ftype}")
 
diff --git a/examples/tts/tts-csm.cpp b/examples/tts/tts-csm.cpp
@@ -30,13 +30,12 @@ static llama_token sample_greedy(const float * logits, int n_vocab) {
 static bool ggml_callback(struct ggml_tensor * t, bool ask, void * user_data) {
     std::vector<float> * embd = (std::vector<float> *) user_data;
 
-    if (t && strcmp(t->name, "result_norm") == 0) {
+    if (t && (strcmp(t->name, "output_csm_proj") == 0 || strcmp(t->name, "output_audio_embd") == 0)) {
         if (ask) return true;
 
-        auto n_bytes = ggml_nbytes(t);
-        embd->resize(n_bytes);
-        ggml_backend_tensor_get(t, embd->data(), 0, n_bytes);
-        printf("result_norm\n");
+        embd->resize(ggml_nelements(t));
+        ggml_backend_tensor_get(t, embd->data(), 0, ggml_nbytes(t));
+        // printf("%s tensor size: %lld, %lld\n", t->name, t->ne[0], t->ne[1]);
         return true;
     }
 
@@ -54,34 +53,37 @@ int main(int argc, char ** argv) {
     params.n_batch   = 8192;
     params.n_ctx     = 8192;
 
-    params.sampling.top_k = 4;
-    params.sampling.samplers = { COMMON_SAMPLER_TYPE_TOP_K, };
-
     if (!common_params_parse(argc, argv, params, LLAMA_EXAMPLE_TTS, print_usage)) {
         return 1;
     }
 
     llama_backend_init();
     llama_numa_init(params.numa);
 
-    common_params params_decoder(params); // duplicate the params
-    string_replace_all(params_decoder.model, "-backbone", "-decoder");
-
     std::vector<float> embd;
     params.cb_eval = ggml_callback;
     params.cb_eval_user_data = &embd;
+    params.warmup = false;
+
+    common_params params_decoder(params); // duplicate the params
+    string_replace_all(params_decoder.model, "-backbone", "-decoder");
+
     common_init_result llama_backbone = common_init_from_params(params);
     llama_model   * model_bb = llama_backbone.model.get();
     llama_context * ctx_bb   = llama_backbone.context.get();
 
-    //common_init_result llama_decoder  = common_init_from_params(params_decoder);
-    //llama_model   * model_dc = llama_decoder.model.get();
-    //llama_context * ctx_dc   = llama_decoder.context.get();
+    common_init_result llama_decoder  = common_init_from_params(params_decoder);
+    llama_model   * model_dc = llama_decoder.model.get();
+    llama_context * ctx_dc   = llama_decoder.context.get();
 
     if (model_bb == nullptr || ctx_bb == nullptr) {
         return ENOENT;
     }
 
+    if (model_dc == nullptr || ctx_dc == nullptr) {
+        return ENOENT;
+    }
+
     const llama_vocab * vocab = llama_model_get_vocab(model_bb);
     llama_tokens prompt_tokens = common_tokenize(vocab, params.prompt, false, true);
     prompt_tokens.insert(prompt_tokens.begin(), llama_vocab_bos(vocab));
@@ -93,27 +95,92 @@ int main(int argc, char ** argv) {
     }
     printf("\n");
 
+    llama_pos n_past_bb = 0;
     llama_batch batch = llama_batch_init(params.n_batch, 0, 1);
+    common_batch_clear(batch);
     for (size_t i = 0; i < prompt_tokens.size(); ++i) {
-        common_batch_add(batch, prompt_tokens[i], i, { 0 }, false);
+        common_batch_add(batch, prompt_tokens[i], n_past_bb++, { 0 }, false);
     }
     batch.logits[batch.n_tokens - 1] = true;
 
-    if (llama_decode(ctx_bb, batch) != 0) {
-        LOG_ERR("%s: llama_decode() failed\n", __func__);
-        return 1;
-    }
+    std::vector<float> inp_past_embd(2048, 0.0f);
+    llama_batch batch_past_embd = llama_batch_init(1, inp_past_embd.size(), 1);
 
-    //auto vocab_dc = llama_model_get_vocab(model_dc);
-    auto logits   = llama_get_logits_ith(ctx_bb, batch.n_tokens - 1);
-    //printf("next tok: %d\n", sample_greedy(logits, llama_vocab_n_tokens(vocab_dc)));
-    for (size_t i = 0; i < 10; ++i) {
-        printf("%4.2f, ", logits[i]);
-    }
-    printf("next tok: %d\n", sample_greedy(logits, 65632));
+    for (int k = 0; k < 4; ++k) {
+        if (llama_decode(ctx_bb, k == 0 ? batch : batch_past_embd) != 0) {
+            LOG_ERR("%s: llama_decode() failed\n", __func__);
+            return 1;
+        }
+
+        auto vocab_dc = llama_model_get_vocab(model_dc);
+        auto logits   = llama_get_logits_ith(ctx_bb, k == 0 ? (batch.n_tokens - 1) : 0);
+        // for (size_t i = 0; i < 10; ++i) {
+        //     printf("%4.2f, ", logits[i]);
+        // }
+        // printf("\n");
+
+        llama_token latent_token = sample_greedy(logits, llama_vocab_n_tokens(vocab_dc));
+        // printf("latent_token: %d\n", latent_token);
+        printf("%5d, ", latent_token);
+
+        // for (size_t i = 0; i < 10; ++i) {
+        //     printf("%4.2f, ", embd[i]);
+        // }
+        // printf("\n");
+
+        
+
+        // decode
+        prompt_tokens.clear();
+        prompt_tokens.push_back(latent_token);
+        inp_past_embd = std::vector<float>(inp_past_embd.size(), 0.0f);
+        {
+            llama_kv_self_clear(ctx_dc);
+            llama_batch batch_embd  = llama_batch_init(1, embd.size(), 1);
+            llama_batch batch_token = llama_batch_init(1, 0, 1);
+            {
+                batch_embd.n_tokens     = 1;
+                batch_embd.pos[0]       = 0;
+                batch_embd.seq_id[0][0] = 0;
+                batch_embd.n_seq_id[0]  = 1;
+                batch_embd.logits[0]    = false;
+                memcpy(batch_embd.embd, embd.data(), embd.size() * sizeof(float));
+            }
+            llama_decode(ctx_dc, batch_embd);
+        
+            llama_token audio_token = latent_token;
+            for (int i = 0; i < 31; ++i) {
+                common_batch_clear(batch_token);
+                // encoder vocab is further divided into 32 codebooks, each with 2051 entries
+                llama_token inp_tok = audio_token + 2051*i;
+                common_batch_add(batch_token, inp_tok, i+1, { 0 }, true);
+                llama_decode(ctx_dc, batch_token);
+                auto logits = llama_get_logits_ith(ctx_dc, 0);
+                audio_token = sample_greedy(logits, llama_vocab_n_tokens(vocab_dc));
+                printf("%d,", audio_token);
+                prompt_tokens.push_back(audio_token);
+
+                GGML_ASSERT(inp_past_embd.size() == embd.size());
+                for (size_t i = 0; i < inp_past_embd.size(); ++i) {
+                    inp_past_embd[i] += embd[i];
+                }
+            }
+            printf("\n");
+
+            llama_batch_free(batch_embd);
+            llama_batch_free(batch_token);
+        }
 
-    for (size_t i = 0; i < 10; ++i) {
-        printf("%4.2f, ", embd[i]);
+        // prepare for the next iteration
+        {
+            batch_past_embd.n_tokens     = 1;
+            batch_past_embd.pos[0]       = n_past_bb;
+            batch_past_embd.seq_id[0][0] = 0;
+            batch_past_embd.n_seq_id[0]  = 1;
+            batch_past_embd.logits[0]    = true;
+            memcpy(batch_past_embd.embd, inp_past_embd.data(), inp_past_embd.size() * sizeof(float));
+        }
+        n_past_bb++;
     }
 
     return 0;
diff --git a/src/llama-arch.cpp b/src/llama-arch.cpp
@@ -6,6 +6,7 @@
 
 static const std::map<llm_arch, const char *> LLM_ARCH_NAMES = {
     { LLM_ARCH_LLAMA,            "llama"            },
+    { LLM_ARCH_LLAMA_CSM,        "llama-csm"        },
     { LLM_ARCH_DECI,             "deci"             },
     { LLM_ARCH_FALCON,           "falcon"           },
     { LLM_ARCH_GROK,             "grok"             },
@@ -229,9 +230,36 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
             { LLM_TENSOR_FFN_GATE_EXPS,     "blk.%d.ffn_gate_exps" },
             { LLM_TENSOR_FFN_DOWN_EXPS,     "blk.%d.ffn_down_exps" },
             { LLM_TENSOR_FFN_UP_EXPS,       "blk.%d.ffn_up_exps" },
+        },
+    },
+    {
+        LLM_ARCH_LLAMA_CSM, // like LLM_ARCH_LLAMA, but with extra tensors for Sesame CSM
+        {
+            { LLM_TENSOR_TOKEN_EMBD,        "token_embd" },
+            { LLM_TENSOR_OUTPUT_NORM,       "output_norm" },
+            { LLM_TENSOR_OUTPUT,            "output" },
+            { LLM_TENSOR_ROPE_FREQS,        "rope_freqs" },
+            { LLM_TENSOR_ATTN_NORM,         "blk.%d.attn_norm" },
+            { LLM_TENSOR_ATTN_Q,            "blk.%d.attn_q" },
+            { LLM_TENSOR_ATTN_K,            "blk.%d.attn_k" },
+            { LLM_TENSOR_ATTN_V,            "blk.%d.attn_v" },
+            { LLM_TENSOR_ATTN_OUT,          "blk.%d.attn_output" },
+            { LLM_TENSOR_ATTN_ROT_EMBD,     "blk.%d.attn_rot_embd" },
+            { LLM_TENSOR_FFN_GATE_INP,      "blk.%d.ffn_gate_inp" },
+            { LLM_TENSOR_FFN_NORM,          "blk.%d.ffn_norm" },
+            { LLM_TENSOR_FFN_GATE,          "blk.%d.ffn_gate" },
+            { LLM_TENSOR_FFN_DOWN,          "blk.%d.ffn_down" },
+            { LLM_TENSOR_FFN_UP,            "blk.%d.ffn_up" },
+            { LLM_TENSOR_FFN_GATE_EXP,      "blk.%d.ffn_gate.%d" },
+            { LLM_TENSOR_FFN_DOWN_EXP,      "blk.%d.ffn_down.%d" },
+            { LLM_TENSOR_FFN_UP_EXP,        "blk.%d.ffn_up.%d" },
+            { LLM_TENSOR_FFN_GATE_EXPS,     "blk.%d.ffn_gate_exps" },
+            { LLM_TENSOR_FFN_DOWN_EXPS,     "blk.%d.ffn_down_exps" },
+            { LLM_TENSOR_FFN_UP_EXPS,       "blk.%d.ffn_up_exps" },
+            { LLM_TENSOR_CSM_AUDIO_EMBD,    "audio_embd" },
             { LLM_TENSOR_CSM_CBOOK_OUTPUT,  "codebook0_head" },
             { LLM_TENSOR_CSM_AUDIO_OUTPUT,  "audio_head" },
-            { LLM_TENSOR_CSM_INP_PROJ,      "inp_proj" },
+            { LLM_TENSOR_CSM_PROJ,          "csm_proj" },
         },
     },
     {
@@ -1573,9 +1601,10 @@ static const std::map<llm_tensor, llm_tensor_info> LLM_TENSOR_INFOS = {
     {LLM_TENSOR_CONVNEXT_PW1,               {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
     {LLM_TENSOR_CONVNEXT_PW2,               {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
     {LLM_TENSOR_CONVNEXT_GAMMA,             {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
+    {LLM_TENSOR_CSM_AUDIO_EMBD,             {LLM_TENSOR_LAYER_INPUT,     GGML_OP_GET_ROWS}},
     {LLM_TENSOR_CSM_CBOOK_OUTPUT,           {LLM_TENSOR_LAYER_OUTPUT,    GGML_OP_MUL_MAT}},
     {LLM_TENSOR_CSM_AUDIO_OUTPUT,           {LLM_TENSOR_LAYER_OUTPUT,    GGML_OP_MUL_MAT}},
-    {LLM_TENSOR_CSM_INP_PROJ,               {LLM_TENSOR_LAYER_INPUT,     GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_CSM_PROJ,                   {LLM_TENSOR_LAYER_INPUT,     GGML_OP_MUL_MAT}},
 };
 
 LLM_KV::LLM_KV(llm_arch arch, const char * suffix) : arch(arch), suffix(suffix) {}
diff --git a/src/llama-arch.h b/src/llama-arch.h
@@ -10,6 +10,7 @@
 
 enum llm_arch {
     LLM_ARCH_LLAMA,
+    LLM_ARCH_LLAMA_CSM,
     LLM_ARCH_DECI,
     LLM_ARCH_FALCON,
     LLM_ARCH_BAICHUAN,
@@ -347,9 +348,10 @@ enum llm_tensor {
     LLM_TENSOR_POS_NET_ATTN_K,
     LLM_TENSOR_POS_NET_ATTN_V,
     LLM_TENSOR_POS_NET_ATTN_OUT,
+    LLM_TENSOR_CSM_AUDIO_EMBD,
     LLM_TENSOR_CSM_CBOOK_OUTPUT,
     LLM_TENSOR_CSM_AUDIO_OUTPUT,
-    LLM_TENSOR_CSM_INP_PROJ,
+    LLM_TENSOR_CSM_PROJ,
 };
 
 enum llm_tensor_layer {
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
diff --git a/src/llama-model.h b/src/llama-model.h