feat: implement SparseK attention core logic

Gitty Burstein · yael-works · GittyBurstein · Gitty Burstein · commit b19c244036b2 · 2025-10-30T13:35:08.000+02:00
Co-authored-by: Yael &lt;yaelshuker100@gmail.com&gt;
Co-authored-by: Gitty &lt;g0534163997@gmail.com&gt;
diff --git a/ggml/include/ggml.h b/ggml/include/ggml.h
@@ -2234,9 +2234,9 @@ extern "C" {
 
     GGML_API struct ggml_tensor * ggml_sparsek_attn(
               struct ggml_context * ctx,
-              struct ggml_tensor  * Q,   
-              struct ggml_tensor  * K,  
-              struct ggml_tensor  * V,   
+              struct ggml_tensor  * Q,
+              struct ggml_tensor  * K,
+              struct ggml_tensor  * V,
               int32_t               k_top,
               int32_t               win_local,
               int32_t               stride_global);
diff --git a/ggml/src/ggml-cpu/ggml-cpu.c b/ggml/src/ggml-cpu/ggml-cpu.c
@@ -1955,7 +1955,7 @@ static void ggml_compute_forward(struct ggml_compute_params * params, struct ggm
         case GGML_OP_SPARSEK_ATTN:
             {
                 ggml_compute_forward_sparsek_attn(params, tensor);
-            } break;          
+            } break;
         case GGML_OP_FLASH_ATTN_BACK:
             {
                 int32_t t = ggml_get_op_params_i32(tensor, 0);
diff --git a/tests/test-backend-ops.cpp b/tests/test-backend-ops.cpp
@@ -7251,7 +7251,6 @@ static std::vector<std::unique_ptr<test_case>> make_test_cases_eval() {
 // Test cases for performance evaluation: should be representative of real-world use cases
 static std::vector<std::unique_ptr<test_case>> make_test_cases_perf() {
     std::vector<std::unique_ptr<test_case>> test_cases;
-
     // Conv2d: K=CRS=NPQ=4096 matmul performance
     uint32_t                        iwh_idx  = 0;
     uint32_t                        kwh_idx  = 1;

Original file line number	Diff line number	Diff line change
`@@ -1955,7 +1955,7 @@ static void ggml_compute_forward(struct ggml_compute_params * params, struct ggm`
`1955`	`1955`	`case GGML_OP_SPARSEK_ATTN:`
`1956`	`1956`	`{`
`1957`	`1957`	`ggml_compute_forward_sparsek_attn(params, tensor);`
`1958`		`- } break;`
	`1958`	`+ } break;`
`1959`	`1959`	`case GGML_OP_FLASH_ATTN_BACK:`
`1960`	`1960`	`{`
`1961`	`1961`	`int32_t t = ggml_get_op_params_i32(tensor, 0);`