Added CogVLM

Tianyue-Zhao · Tianyue-Zhao · commit 07f588d71886 · 2025-02-16T00:50:53.000Z
diff --git a/include/llama.h b/include/llama.h
@@ -267,6 +267,7 @@ extern "C" {
         int8_t       *  logits; // TODO: rename this to "output"
 
         struct ggml_tensor *  embd_tensor;
+        struct ggml_tensor *  cross_embd_tensor;
     } llama_batch;
 
     enum llama_model_kv_override_type {
diff --git a/src/llama-arch.cpp b/src/llama-arch.cpp
@@ -62,6 +62,7 @@ static const std::map<llm_arch, const char *> LLM_ARCH_NAMES = {
     { LLM_ARCH_GRANITE,          "granite"          },
     { LLM_ARCH_GRANITE_MOE,      "granitemoe"       },
     { LLM_ARCH_CHAMELEON,        "chameleon"        },
+    { LLM_ARCH_COGVLM,           "cogvlm"           },
     { LLM_ARCH_WAVTOKENIZER_DEC, "wavtokenizer-dec" },
     { LLM_ARCH_VISION_LLAVA,     "llava"            },
     { LLM_ARCH_VISION_MOBILEVLM, "mobilevlm"        },
@@ -1298,6 +1299,30 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
             { LLM_TENSOR_ATTN_K_NORM,     "blk.%d.attn_k_norm" },
         },
     },
+    {
+        LLM_ARCH_COGVLM,
+        {
+            { LLM_TENSOR_TOKEN_EMBD,         "embed_tokens" },
+            { LLM_TENSOR_OUTPUT_NORM,        "norm" },
+            { LLM_TENSOR_OUTPUT,             "lm_head" },
+            { LLM_TENSOR_ATTN_NORM,          "layers.%d.input_layernorm" },  // input_norm_w
+            { LLM_TENSOR_ATTN_TXT_QKV,       "layers.%d.self_attn.language_expert_query_key_value" },  // language_qkv_w
+            { LLM_TENSOR_ATTN_IMG_QKV,       "layers.%d.self_attn.vision_expert_query_key_value" },  // vision_qkv_w
+            { LLM_TENSOR_ATTN_TXT_DENSE,     "layers.%d.self_attn.language_expert_dense" },  // language_dense_w
+            { LLM_TENSOR_ATTN_IMG_DENSE,     "layers.%d.self_attn.vision_expert_dense" },  // vision_dense_w
+            { LLM_TENSOR_ATTN_NORM_2,        "layers.%d.post_cross_attention_layernorm" },  // self_attn_norm_w
+            { LLM_TENSOR_CROSS_ATTN_Q,       "layers.%d.cross_attn.query" },  // cross_query_w
+            { LLM_TENSOR_CROSS_ATTN_KV,      "layers.%d.cross_attn.key_value" },  // cross_query_kv
+            { LLM_TENSOR_CROSS_ATTN_DENSE,   "layers.%d.cross_attn.dense" },  // cross_dense_w
+            { LLM_TENSOR_FFN_NORM,           "layers.%d.post_attention_layernorm" },  // attn_norm_w
+            { LLM_TENSOR_FFN_TXT_UP,         "layers.%d.mlp.language_mlp.up_proj" },  // language_up_proj_w
+            { LLM_TENSOR_FFN_TXT_GATE,       "layers.%d.mlp.language_mlp.gate_proj" },  // language_gate_proj_w
+            { LLM_TENSOR_FFN_TXT_DOWN,       "layers.%d.mlp.language_mlp.down_proj" },  // language_down_proj_w
+            { LLM_TENSOR_FFN_IMG_UP,         "layers.%d.mlp.vision_mlp.up_proj" },  // vision_up_proj_w
+            { LLM_TENSOR_FFN_IMG_GATE,       "layers.%d.mlp.vision_mlp.gate_proj" },  // vision_gate_proj_w
+            { LLM_TENSOR_FFN_IMG_DOWN,       "layers.%d.mlp.vision_mlp.down_proj" }  // vision_down_proj_w
+        },
+    },
     {
         LLM_ARCH_WAVTOKENIZER_DEC,
         {
diff --git a/src/llama-arch.h b/src/llama-arch.h
@@ -66,6 +66,7 @@ enum llm_arch {
     LLM_ARCH_GRANITE_MOE,
     LLM_ARCH_CHAMELEON,
     LLM_ARCH_WAVTOKENIZER_DEC,
+    LLM_ARCH_COGVLM,
     // vision
     LLM_ARCH_VISION_LLAVA,
     LLM_ARCH_VISION_MOBILEVLM,
@@ -354,6 +355,19 @@ enum llm_tensor {
     LLM_TENSOR_POS_NET_ATTN_K,
     LLM_TENSOR_POS_NET_ATTN_V,
     LLM_TENSOR_POS_NET_ATTN_OUT,
+    LLM_TENSOR_ATTN_TXT_QKV,
+    LLM_TENSOR_ATTN_IMG_QKV,
+    LLM_TENSOR_ATTN_TXT_DENSE,
+    LLM_TENSOR_ATTN_IMG_DENSE,
+    LLM_TENSOR_CROSS_ATTN_Q,
+    LLM_TENSOR_CROSS_ATTN_KV,
+    LLM_TENSOR_CROSS_ATTN_DENSE,
+    LLM_TENSOR_FFN_TXT_UP,
+    LLM_TENSOR_FFN_TXT_GATE,
+    LLM_TENSOR_FFN_TXT_DOWN,
+    LLM_TENSOR_FFN_IMG_UP,
+    LLM_TENSOR_FFN_IMG_GATE,
+    LLM_TENSOR_FFN_IMG_DOWN,
     // vision
     LLM_TENSOR_V_MMPROJ,
     LLM_TENSOR_V_MMPROJ_FC,
diff --git a/src/llama-batch.cpp b/src/llama-batch.cpp
@@ -32,6 +32,7 @@ llama_ubatch llama_sbatch::reserve_ubatch(size_t n_ubatch, bool has_embd) {
         /*seq_id       =*/ ubatch_seq_id.data(),
         /*output       =*/ ubatch_output.data(),
         /*embd_tensor  =*/ nullptr,
+        /*cross_embd   =*/ nullptr,
     };
     return ubatch;
 }
@@ -74,6 +75,9 @@ void llama_sbatch::add_seq_to_ubatch(llama_ubatch & ubatch, llama_sbatch_seq & s
     } else {
         ubatch.embd = nullptr;
     }
+    if (batch->cross_embd) {
+        ubatch.cross_embd = batch->cross_embd;
+    }
     if (ubatch.equal_seqs) {
         for (size_t i = 0; i < length; ++i) {
             ubatch.pos[ubatch.n_tokens + i] = batch->pos[ids[seq.offset + i]];
@@ -324,6 +328,7 @@ struct llama_batch llama_batch_get_one(
         /*seq_id         =*/ nullptr,
         /*logits         =*/ nullptr,
         /*embd_tensor    =*/ nullptr,
+        /*cross_embd     =*/ nullptr,
     };
 }
 
@@ -337,6 +342,7 @@ struct llama_batch llama_batch_init(int32_t n_tokens_alloc, int32_t embd, int32_
         /*seq_id         =*/ nullptr,
         /*logits         =*/ nullptr,
         /*embd_tensor    =*/ nullptr,
+        /*cross_embd     =*/ nullptr,
     };
 
     if (embd) {
@@ -370,6 +376,7 @@ struct llama_batch llama_batch_get_one_from_tensor(struct ggml_tensor * tensor,
         /*seq_id         =*/ nullptr,
         /*logits         =*/ nullptr,
         /*embd_tensor    =*/ tensor,
+        /*cross_embd     =*/ nullptr,
     };
     batch.pos      = (llama_pos *)     malloc(sizeof(llama_pos) * n_tokens);
     batch.n_seq_id = (int32_t *)       malloc(sizeof(int32_t)   * n_tokens);
diff --git a/src/llama-batch.h b/src/llama-batch.h
@@ -23,6 +23,7 @@ struct llama_ubatch {
     int8_t       *  output;   // [n_tokens]
 
     struct ggml_tensor * embd_tensor;
+    struct ggml_tensor * cross_embd;
 };
 
 struct llama_sbatch_seq {
diff --git a/src/llama-context.h b/src/llama-context.h
@@ -27,6 +27,7 @@ struct llama_context {
     struct llama_sbatch       sbatch;  // TODO: revisit if needed
     struct llama_kv_cache     kv_self;
     struct llama_adapter_cvec cvec;
+    struct llama_cross_kv_cache kv_cross;
 
     std::unordered_map<struct llama_adapter_lora *, float> lora;
 
diff --git a/src/llama-hparams.h b/src/llama-hparams.h
@@ -41,6 +41,7 @@ struct llama_hparams {
     uint32_t n_expert = 0;
     uint32_t n_expert_used = 0;
     uint32_t n_rel_attn_bkts = 0;
+    uint32_t n_embd_cross = 1024; // For cross attention with different hidden size
 
     // for WavTokenizer
     struct llama_hparams_posnet   posnet;
diff --git a/src/llama-kv-cache.cpp b/src/llama-kv-cache.cpp
@@ -716,3 +716,74 @@ void llama_kv_cache_view_update(struct llama_kv_cache_view * view, const struct
             __func__, kv.used, used_cells);
     }
 }
+
+// Cross attention KV cache
+bool llama_cross_kv_cache_init(struct llama_cross_kv_cache & cache,
+                                         const llama_model & model,
+                                                 ggml_type   type_k,
+                                                 ggml_type   type_v,
+                                                  uint32_t   n_elements,
+                                                      bool   offload) {
+    const struct llama_hparams & hparams = model.hparams;
+    const int32_t n_layer = hparams.n_layer;
+
+    // create a context for each buffer type
+    std::map<ggml_backend_buffer_type_t, ggml_context *> ctx_map;
+    auto ctx_for_buft = [&](ggml_backend_buffer_type_t buft) -> ggml_context * {
+        auto it = ctx_map.find(buft);
+        if (it == ctx_map.end()) {
+            struct ggml_init_params params = {
+                /*.mem_size   =*/ size_t(2u*n_layer*ggml_tensor_overhead()),
+                /*.mem_buffer =*/ NULL,
+                /*.no_alloc   =*/ true,
+            };
+            ggml_context * ctx = ggml_init(params);
+            if (!ctx) {
+                return nullptr;
+            }
+            ctx_map[buft] = ctx;
+            cache.ctxs.emplace_back(ctx);
+            return ctx;
+        }
+        return it->second;
+    };
+
+    for (int i = 0; i < n_layer; i++) {
+        ggml_backend_buffer_type_t buft;
+        if (offload) {
+            auto * dev = model.dev_layer(i);
+            buft = ggml_backend_dev_buffer_type(dev);
+        } else {
+            buft = ggml_backend_cpu_buffer_type();
+        }
+        ggml_context * ctx = ctx_for_buft(buft);
+
+        if (!ctx) {
+            LLAMA_LOG_ERROR("%s: failed to initialize cross KV cache", __func__);
+            return false;
+        }
+
+        ggml_tensor * k = ggml_new_tensor_1d(ctx, type_k, n_elements);
+        ggml_tensor * v = ggml_new_tensor_1d(ctx, type_v, n_elements);
+        ggml_format_name(k, "cross_cache_k_l%d", i);
+        ggml_format_name(v, "cross_cache_v_l%d", i);
+        cache.k_l.push_back(k);
+        cache.v_l.push_back(v);
+    }
+
+    for (auto it : ctx_map) {
+        auto * buft = it.first;
+        auto * ctx = it.second;
+        
+        ggml_backend_buffer_t buf = ggml_backend_alloc_ctx_tensors_from_buft(ctx, buft);
+        if (!buf) {
+            LLAMA_LOG_ERROR("%s: failed to allocate buffer for cross kv cache\n", __func__);
+            return false;
+        }
+        ggml_backend_buffer_clear(buf, 0);
+        LLAMA_LOG_INFO("%s: %10s cross KV buffer size = %8.2f MiB\n", __func__, ggml_backend_buffer_name(buf), ggml_backend_buffer_get_size(buf)/1024.0/1024.0);
+        cache.bufs.emplace_back(buf);
+    }
+
+    return true;
+}
diff --git a/src/llama-kv-cache.h b/src/llama-kv-cache.h
@@ -216,3 +216,21 @@ struct llama_kv_slot_restorer {
     }
 };
 
+// Simple cache that holds the computed K and V tensors
+// for each layer's cross attention calculation
+struct llama_cross_kv_cache {
+    std::vector<struct ggml_tensor *> k_l;
+    std::vector<struct ggml_tensor *> v_l;
+
+    std::vector<ggml_context_ptr> ctxs;
+    std::vector<ggml_backend_buffer_ptr> bufs;
+
+    bool cache_filled;
+};
+
+bool llama_cross_kv_cache_init(struct llama_cross_kv_cache & cache,
+                                         const llama_model & model,
+                                                 ggml_type   type_k,
+                                                 ggml_type   type_v,
+                                                  uint32_t   n_elements,
+                                                      bool   offload);
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -1244,6 +1244,15 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                     default: type = LLM_TYPE_UNKNOWN;
                }
             } break;
+        case LLM_ARCH_COGVLM:
+            {
+                ml.get_key(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS, hparams.f_norm_rms_eps);
+
+                switch (hparams.n_layer) {
+                    case 32: model.type = e_model::MODEL_7B; break;
+                    default: model.type = e_model::MODEL_UNKNOWN;
+                }
+            }break;
         case LLM_ARCH_WAVTOKENIZER_DEC:
             {
                 ml.get_key(LLM_KV_ATTENTION_LAYERNORM_EPS,    hparams.f_norm_eps);
@@ -1443,6 +1452,7 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
         const int64_t n_expert      = hparams.n_expert;
         const int64_t n_expert_used = hparams.n_expert_used;
         const int64_t n_ctx_train   = hparams.n_ctx_train;
+        const int64_t n_embd_cross  = hparams.n_embd_cross;
 
         if (n_expert > 0 && hparams.n_expert_used == 0) {
             throw std::runtime_error("model has expert layers but no expert layers are used");
@@ -3372,6 +3382,46 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
                         layer.ffn_up   = create_tensor(tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   n_ff}, 0);
                     }
                 } break;
+            case LLM_ARCH_COGVLM:
+                {
+                    model.tok_embd = ml.create_tensor(ctx_input, tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab});
+
+                    model.output_norm = ml.create_tensor(ctx_input, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd});
+
+                    model.output = ml.create_tensor(ctx_output, tn(LLM_TENSOR_OUTPUT, "weight"), {n_embd, n_vocab});
+
+                    // Not supporting ctx_split
+                    for (int i=0; i < n_layer; i++) {
+                        ggml_context * ctx_layer = ctx_for_layer(i);
+
+                        auto & layer = model.layers[i];
+
+                        layer.attn_norm = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_ATTN_NORM, "weight", i), {n_embd});
+
+                        layer.wqkv_txt = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_ATTN_TXT_QKV, "weight", i), {n_embd, n_embd * 3});
+                        layer.wqkv_img = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_ATTN_IMG_QKV, "weight", i), {n_embd, n_embd * 3});
+                        layer.wdense_txt = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_ATTN_TXT_DENSE, "weight", i), {n_embd, n_embd});
+                        layer.wdense_img = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_ATTN_IMG_DENSE, "weight", i), {n_embd, n_embd});
+
+                        layer.attn_norm_2 = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_ATTN_NORM_2, "weight", i), {n_embd});
+
+                        layer.wq_cross = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_CROSS_ATTN_Q, "weight", i), {n_embd, n_embd_cross});
+                        // The input dimension is the number of dimensions from the cross vision encoder
+                        // it might not be guaranteed that this is the same as the number of dimensions
+                        // in the cogvlm attention calculation
+                        layer.wkv_cross = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_CROSS_ATTN_KV, "weight", i), {n_embd_cross, n_embd_cross * 2});
+                        layer.wdense_cross = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_CROSS_ATTN_DENSE, "weight", i), {n_embd_cross, n_embd});
+
+                        layer.ffn_norm = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd});
+
+                        layer.ffn_gate_txt = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_FFN_TXT_GATE, "weight", i), {n_embd, n_ff});
+                        layer.ffn_down_txt = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_FFN_TXT_DOWN, "weight", i), {n_ff, n_embd});
+                        layer.ffn_up_txt = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_FFN_TXT_UP, "weight", i), {n_embd, n_ff});
+                        layer.ffn_gate_img = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_FFN_IMG_GATE, "weight", i), {n_embd, n_ff});
+                        layer.ffn_down_img = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_FFN_IMG_DOWN, "weight", i), {n_ff, n_embd});
+                        layer.ffn_up_img = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_FFN_IMG_UP, "weight", i), {n_embd, n_ff});
+                    }
+                } break;
             case LLM_ARCH_WAVTOKENIZER_DEC:
                 {
                     tok_embd = create_tensor(tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {hparams.n_embd_features, n_vocab}, 0);
diff --git a/src/llama-model.h b/src/llama-model.h
@@ -165,11 +165,18 @@ struct llama_layer {
     struct ggml_tensor * wq_cross  = nullptr;
     struct ggml_tensor * wk_cross  = nullptr;
     struct ggml_tensor * wv_cross  = nullptr;
+    // Added this here to reuse the T5 variables
+    struct ggml_tensor * wkv_cross;
     struct ggml_tensor * wo_cross  = nullptr;
     struct ggml_tensor * wq_enc    = nullptr;
     struct ggml_tensor * wk_enc    = nullptr;
     struct ggml_tensor * wv_enc    = nullptr;
     struct ggml_tensor * wo_enc    = nullptr;
+    struct ggml_tensor * wqkv_txt;
+    struct ggml_tensor * wqkv_img;
+    struct ggml_tensor * wdense_txt;
+    struct ggml_tensor * wdense_img;
+    struct ggml_tensor * wdense_cross;
 
     // attention bias
     struct ggml_tensor * bq   = nullptr;
@@ -199,6 +206,12 @@ struct llama_layer {
     struct ggml_tensor * ffn_gate_enc = nullptr;
     struct ggml_tensor * ffn_down_enc = nullptr;
     struct ggml_tensor * ffn_up_enc   = nullptr;
+    struct ggml_tensor * ffn_gate_txt;
+    struct ggml_tensor * ffn_down_txt;
+    struct ggml_tensor * ffn_up_txt;
+    struct ggml_tensor * ffn_gate_img;
+    struct ggml_tensor * ffn_down_img;
+    struct ggml_tensor * ffn_up_img;
 
     // ff MoE
     struct ggml_tensor * ffn_gate_inp  = nullptr;
diff --git a/src/llama.cpp b/src/llama.cpp