re-format and delete unused implementations

huydt-bti · huydt-bti · commit eab776e9e1bf · 2025-06-05T00:35:33.000+09:00
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -3935,6 +3935,7 @@ def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iter
 
         return super().modify_tensors(data_torch, name, bid)
 
+
 @ModelBase.register("ModernBert", "ModernBertForMaskedLM", "ModernBertForSequenceClassification")
 class ModernBertModel(BertModel):
     model_arch = gguf.MODEL_ARCH.MODERN_BERT
@@ -3958,6 +3959,7 @@ def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iter
 
         return super().modify_tensors(data_torch, name, bid)
 
+
 @ModelBase.register("RobertaModel", "RobertaForSequenceClassification")
 class RobertaModel(BertModel):
     model_arch = gguf.MODEL_ARCH.BERT
diff --git a/gguf-py/gguf/gguf_writer.py b/gguf-py/gguf/gguf_writer.py
@@ -812,7 +812,7 @@ def add_rope_dimension_sections(self, dims: Sequence[int]) -> None:
 
     def add_rope_freq_base(self, value: float) -> None:
         self.add_float32(Keys.Rope.FREQ_BASE.format(arch=self.arch), value)
-    
+
     def add_rope_freq_base_swa(self, value: float) -> None:
         self.add_float32(Keys.Rope.FREQ_BASE_SWA.format(arch=self.arch), value)
 
diff --git a/src/llama-graph.cpp b/src/llama-graph.cpp
@@ -363,111 +363,6 @@ void llm_graph_input_attn_no_cache::set_input(const llama_ubatch * ubatch) {
     }
 }
 
-void llm_graph_input_attn_no_cache_iswa::set_input(const llama_ubatch * ubatch) {
-    // Standard attention mask
-    if (kq_mask) {
-        if (cparams.causal_attn) {
-            const int64_t n_kv         = ubatch->n_tokens;
-            const int64_t n_tokens     = ubatch->n_tokens;
-            const int64_t n_seq_tokens = ubatch->n_seq_tokens;
-            const int64_t n_seqs       = ubatch->n_seqs;
-
-            GGML_ASSERT(ggml_backend_buffer_is_host(kq_mask->buffer));
-            float * data = (float *) kq_mask->data;
-
-            for (int h = 0; h < 1; ++h) {
-                for (int s1 = 0; s1 < n_seqs; ++s1) {
-                    const llama_seq_id seq_id = ubatch->seq_id[s1][0];
-
-                    for (int j = 0; j < n_seq_tokens; ++j) {
-                        const int32_t tj = s1*n_seq_tokens + j;
-
-                        for (int s0 = 0; s0 < n_seqs; ++s0) {
-                            for (int i = 0; i < n_seq_tokens; ++i) {
-                                const int32_t ti = s0 * n_seq_tokens + i;
-                                float         f  = -INFINITY;
-
-                                for (int s = 0; s < ubatch->n_seq_id[s0]; ++s) {
-                                    if (ubatch->seq_id[s0][s] == seq_id && ubatch->pos[ti] <= ubatch->pos[tj]) {
-                                        if (hparams.use_alibi) {
-                                            f = -std::abs(ubatch->pos[ti] - ubatch->pos[tj]);
-                                        } else {
-                                            f = 0.0f;
-                                        }
-                                        break;
-                                    }
-                                }
-
-                                data[h * (n_kv * n_tokens) + tj * n_kv + ti] = f;
-                            }
-                        }
-                    }
-                }
-
-                for (int i = n_tokens; i < GGML_PAD(n_tokens, GGML_KQ_MASK_PAD); ++i) {
-                    for (int j = 0; j < n_kv; ++j) {
-                        data[h*(n_kv*n_tokens) + i*n_kv + j] = -INFINITY;
-                    }
-                }
-            }
-        }
-    }
-
-    // SWA attention mask
-    if (kq_mask_swa) {
-        if (cparams.causal_attn) {
-            const int64_t n_kv         = ubatch->n_tokens;
-            const int64_t n_tokens     = ubatch->n_tokens;
-            const int64_t n_seq_tokens = ubatch->n_seq_tokens;
-            const int64_t n_seqs       = ubatch->n_seqs;
-            const int64_t window_size  = hparams.n_swa;
-
-            GGML_ASSERT(ggml_backend_buffer_is_host(kq_mask_swa->buffer));
-            float * data = (float *) kq_mask_swa->data;
-
-            for (int h = 0; h < 1; ++h) {
-                for (int s1 = 0; s1 < n_seqs; ++s1) {
-                    const llama_seq_id seq_id = ubatch->seq_id[s1][0];
-
-                    for (int j = 0; j < n_seq_tokens; ++j) {
-                        const int32_t tj = s1*n_seq_tokens + j;
-
-                        for (int s0 = 0; s0 < n_seqs; ++s0) {
-                            for (int i = 0; i < n_seq_tokens; ++i) {
-                                const int32_t ti = s0 * n_seq_tokens + i;
-                                float         f  = -INFINITY;
-
-                                for (int s = 0; s < ubatch->n_seq_id[s0]; ++s) {
-                                    if (ubatch->seq_id[s0][s] == seq_id && ubatch->pos[ti] <= ubatch->pos[tj]) {
-                                        const bool in_window = (ubatch->pos[tj] - ubatch->pos[ti]) <= window_size;
-                                        
-                                        if (in_window) {
-                                            if (hparams.use_alibi) {
-                                                f = -std::abs(ubatch->pos[ti] - ubatch->pos[tj]);
-                                            } else {
-                                                f = 0.0f;
-                                            }
-                                        }
-                                        break;
-                                    }
-                                }
-
-                                data[h * (n_kv * n_tokens) + tj * n_kv + ti] = f;
-                            }
-                        }
-                    }
-                }
-
-                for (int i = n_tokens; i < GGML_PAD(n_tokens, GGML_KQ_MASK_PAD); ++i) {
-                    for (int j = 0; j < n_kv; ++j) {
-                        data[h*(n_kv*n_tokens) + i*n_kv + j] = -INFINITY;
-                    }
-                }
-            }
-        }
-    }
-}
-
 void llm_graph_input_attn_kv_unified::set_input(const llama_ubatch * ubatch) {
     if (self_kq_mask) {
         kv_state->set_input_kq_mask(self_kq_mask, ubatch, cparams.causal_attn);
diff --git a/src/llama-graph.h b/src/llama-graph.h
@@ -243,28 +243,6 @@ class llm_graph_input_attn_no_cache : public llm_graph_input_i {
     const llama_cparams & cparams;
 };
 
-class llm_graph_input_attn_no_cache_iswa : public llm_graph_input_i {
-public:
-    llm_graph_input_attn_no_cache_iswa(const llama_hparams & hparams, const llama_cparams & cparams) :
-        hparams(hparams),
-        cparams(cparams) {
-    }
-    ~llm_graph_input_attn_no_cache_iswa() = default;
-
-    void set_input(const llama_ubatch * ubatch) override;
-
-    ggml_tensor * get_kq_mask()     const { return kq_mask_cnv; }
-    ggml_tensor * get_kq_mask_swa() const { return kq_mask_swa_cnv; }
-
-    ggml_tensor * kq_mask         = nullptr; // F32 [n_tokens, n_batch]
-    ggml_tensor * kq_mask_cnv     = nullptr; //     [n_tokens, n_batch]
-    ggml_tensor * kq_mask_swa     = nullptr; // F32 [n_tokens, n_batch]
-    ggml_tensor * kq_mask_swa_cnv = nullptr; //     [n_tokens, n_batch]
-
-    const llama_hparams & hparams;
-    const llama_cparams & cparams;
-};
-
 class llm_graph_input_attn_kv_unified : public llm_graph_input_i {
 public:
     llm_graph_input_attn_kv_unified(
@@ -565,8 +543,6 @@ struct llm_graph_context {
 
     llm_graph_input_attn_no_cache * build_attn_inp_no_cache() const;
 
-    llm_graph_input_attn_no_cache_iswa * build_attn_inp_no_cache_iswa() const;
-
     ggml_tensor * build_attn(
             llm_graph_input_attn_no_cache * inp,
             ggml_cgraph * gf,
@@ -580,19 +556,6 @@ struct llm_graph_context {
                   float   kq_scale,
                     int   il) const;
 
-    ggml_tensor * build_attn(
-            llm_graph_input_attn_no_cache_iswa * inp,
-            ggml_cgraph * gf,
-            ggml_tensor * wo,
-            ggml_tensor * wo_b,
-            ggml_tensor * q_cur, // [n_embd_head_q, n_head_q, n_tokens]
-            ggml_tensor * k_cur, // [n_embd_head_k, n_head_k, n_tokens]
-            ggml_tensor * v_cur, // [n_embd_head_v, n_head_v, n_tokens]
-            ggml_tensor * kq_b,
-            ggml_tensor * v_mla, // [n_embd_head_v_mla, n_embd_head_v, n_head_v]
-                  float   kq_scale,
-                    int   il) const;
-
     llm_graph_input_attn_kv_unified * build_attn_inp_kv_unified() const;
 
     ggml_tensor * build_attn(
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -6203,25 +6203,25 @@ struct llm_build_modern_bert : public llm_graph_context {
             // feed-forward network
             ggml_tensor * ffn_up = build_lora_mm(model.layers[il].ffn_up, cur);
             cb(ffn_up, "ffn_up", il);
-            
+
             int64_t split_point = ffn_up->ne[0] / 2;
             ggml_tensor * output_ffn_up = ggml_cont(ctx0, ggml_view_2d(
                                             ctx0, ffn_up, split_point,
                                             ffn_up->ne[1], ffn_up->nb[1], 0
                                         ));
             ggml_tensor * output_ffn_gate = ggml_cont(ctx0, ggml_view_2d(
                                             ctx0, ffn_up, split_point,
-                                            ffn_up->ne[1], ffn_up->nb[1], 
+                                            ffn_up->ne[1], ffn_up->nb[1],
                                             split_point * ggml_element_size(ffn_up)
                                         ));
 
             // Apply activation function
             output_ffn_up = ggml_gelu(ctx0, output_ffn_up);
-            
+
             // Element-wise multiplication
             ggml_tensor * gated = ggml_mul(ctx0, output_ffn_up, output_ffn_gate);
             cb(gated, "ffn_gated", il);
-            
+
             // Final projection
             cur = build_lora_mm(model.layers[il].ffn_down, gated);