feat(ggml-cpu): Add dim arg to ggml_cumsum

gabe-l-hart · gabe-l-hart · commit d1e15c024a98 · 2025-10-24T14:24:24.000-06:00
With tests

Branch: Mamba2SSD

Signed-off-by: Gabe Goodhart &lt;ghart@us.ibm.com&gt;
diff --git a/ggml/include/ggml.h b/ggml/include/ggml.h
@@ -988,7 +988,14 @@ extern "C" {
             struct ggml_context * ctx,
             struct ggml_tensor  * a);
 
+    // Cumulative sum along the specified dimension
     GGML_API struct ggml_tensor * ggml_cumsum(
+        struct ggml_context * ctx,
+        struct ggml_tensor  * a,
+        int                   dim);
+
+    // Convenience function: cumulative sum along dimension 0
+    GGML_API struct ggml_tensor * ggml_cumsum_0(
         struct ggml_context * ctx,
         struct ggml_tensor  * a);
 
diff --git a/ggml/src/ggml-cpu/ops.cpp b/ggml/src/ggml-cpu/ops.cpp
@@ -1397,6 +1397,50 @@ void ggml_compute_forward_sum(
 
 // ggml_compute_forward_cumsum
 
+// General implementation for arbitrary dimensions
+template<typename T>
+static void ggml_compute_forward_cumsum_general(
+    const ggml_compute_params * params,
+    ggml_tensor * dst,
+    int dim) {
+
+    const ggml_tensor * src0 = dst->src[0];
+
+    if (params->ith != 0) {
+        return;
+    }
+
+    GGML_ASSERT(dim >= 0 && dim < GGML_MAX_DIMS);
+
+    GGML_TENSOR_UNARY_OP_LOCALS
+
+    for (int64_t i3 = 0; i3 < ne03; i3++) {
+        for (int64_t i2 = 0; i2 < ne02; i2++) {
+            for (int64_t i1 = 0; i1 < ne01; i1++) {
+                for (int64_t i0 = 0; i0 < ne00; i0++) {
+                    const T * src_ptr = (const T *)((const char *) src0->data + i3*nb03 + i2*nb02 + i1*nb01 + i0*nb00);
+                    T * dst_ptr = (T *)((char *) dst->data + i3*nb3 + i2*nb2 + i1*nb1 + i0*nb0);
+
+                    // Determine position in the cumsum dimension
+                    int64_t i_vals[4] = {i0, i1, i2, i3};
+                    int64_t i_dim = i_vals[dim];
+
+                    if (i_dim == 0) {
+                        // First element: just copy
+                        dst_ptr[0] = src_ptr[0];
+                    } else {
+                        // Accumulate: add current value to previous cumsum value
+                        const T * prev_dst_ptr = (const T *)((const char *) dst_ptr - dst->nb[dim]);
+                        dst_ptr[0] = type_conversion_table<T>::from_f32(
+                            type_conversion_table<T>::to_f32(prev_dst_ptr[0]) +
+                            type_conversion_table<T>::to_f32(src_ptr[0]));
+                    }
+                }
+            }
+        }
+    }
+}
+
 static void ggml_compute_forward_cumsum_f32(
         const ggml_compute_params * params,
         ggml_tensor * dst) {
@@ -1420,7 +1464,7 @@ static void ggml_compute_forward_cumsum_f32(
     for (int64_t i3 = 0; i3 < ne03; i3++) {
         for (int64_t i2 = 0; i2 < ne02; i2++) {
             for (int64_t i1 = 0; i1 < ne01; i1++) {
-                float * src_row = (float *) ((char *) src0->data + i1*nb01 + i2*nb02 + i3*nb03);
+                const float * src_row = (const float *) ((const char *) src0->data + i1*nb01 + i2*nb02 + i3*nb03);
                 float * dst_row = (float *) ((char *) dst->data  + i1*nb1  + i2*nb2  + i3*nb3);
                 ggml_vec_cumsum_f32(ne00, dst_row, src_row);
             }
@@ -1451,7 +1495,7 @@ static void ggml_compute_forward_cumsum_f16(
     for (int64_t i3 = 0; i3 < ne03; i3++) {
         for (int64_t i2 = 0; i2 < ne02; i2++) {
             for (int64_t i1 = 0; i1 < ne01; i1++) {
-                ggml_fp16_t * src_row = (ggml_fp16_t *) ((char *) src0->data + i1*nb01 + i2*nb02 + i3*nb03);
+                const ggml_fp16_t * src_row = (const ggml_fp16_t *) ((const char *) src0->data + i1*nb01 + i2*nb02 + i3*nb03);
                 ggml_fp16_t * dst_row = (ggml_fp16_t *) ((char *) dst->data  + i1*nb1  + i2*nb2  + i3*nb3);
                 ggml_vec_cumsum_f16(ne00, dst_row, src_row);
             }
@@ -1482,7 +1526,7 @@ static void ggml_compute_forward_cumsum_bf16(
     for (int64_t i3 = 0; i3 < ne03; i3++) {
         for (int64_t i2 = 0; i2 < ne02; i2++) {
             for (int64_t i1 = 0; i1 < ne01; i1++) {
-                ggml_bf16_t * src_row = (ggml_bf16_t *) ((char *) src0->data + i1*nb01 + i2*nb02 + i3*nb03);
+                const ggml_bf16_t * src_row = (const ggml_bf16_t *) ((const char *) src0->data + i1*nb01 + i2*nb02 + i3*nb03);
                 ggml_bf16_t * dst_row = (ggml_bf16_t *) ((char *) dst->data  + i1*nb1  + i2*nb2  + i3*nb3);
                 ggml_vec_cumsum_bf16(ne00, dst_row, src_row);
             }
@@ -1496,18 +1540,33 @@ void ggml_compute_forward_cumsum(
 
     const ggml_tensor * src0 = dst->src[0];
 
+    const int dim = ggml_get_op_params_i32(dst, 0);
+    const bool use_general = dim != 0 || !ggml_is_contiguous_rows(src0);
+
     switch (src0->type) {
         case GGML_TYPE_F32:
             {
-                ggml_compute_forward_cumsum_f32(params, dst);
+                if (use_general) {
+                    ggml_compute_forward_cumsum_general<float>(params, dst, dim);
+                } else {
+                    ggml_compute_forward_cumsum_f32(params, dst);
+                }
             } break;
         case GGML_TYPE_F16:
             {
-                ggml_compute_forward_cumsum_f16(params, dst);
+                if (use_general) {
+                    ggml_compute_forward_cumsum_general<ggml_fp16_t>(params, dst, dim);
+                } else {
+                    ggml_compute_forward_cumsum_f16(params, dst);
+                }
             } break;
         case GGML_TYPE_BF16:
             {
-                ggml_compute_forward_cumsum_bf16(params, dst);
+                if (use_general) {
+                    ggml_compute_forward_cumsum_general<ggml_bf16_t>(params, dst, dim);
+                } else {
+                    ggml_compute_forward_cumsum_bf16(params, dst);
+                }
             } break;
         default:
             {
diff --git a/ggml/src/ggml.c b/ggml/src/ggml.c
@@ -2346,16 +2346,27 @@ struct ggml_tensor * ggml_sum_rows(
 
 struct ggml_tensor * ggml_cumsum(
         struct ggml_context * ctx,
-        struct ggml_tensor  * a) {
+        struct ggml_tensor  * a,
+        int                   dim) {
+
+    GGML_ASSERT(dim >= 0 && dim < GGML_MAX_DIMS);
 
     struct ggml_tensor * result = ggml_new_tensor(ctx, a->type, GGML_MAX_DIMS, a->ne);
 
+    ggml_set_op_params_i32(result, 0, dim);
+
     result->op     = GGML_OP_CUMSUM;
     result->src[0] = a;
 
     return result;
 }
 
+struct ggml_tensor * ggml_cumsum_0(
+        struct ggml_context * ctx,
+        struct ggml_tensor  * a) {
+    return ggml_cumsum(ctx, a, 0);
+}
+
 // ggml_mean
 
 struct ggml_tensor * ggml_mean(
diff --git a/tests/test-backend-ops.cpp b/tests/test-backend-ops.cpp
@@ -4861,14 +4861,18 @@ struct test_sum_rows : public test_case {
 struct test_cumsum : public test_case {
     const ggml_type type;
     const std::array<int64_t, 4> ne;
+    const int64_t dim;
+    const std::array<int64_t, 4> permute;
 
     std::string vars() override {
         return VARS_TO_STR2(type, ne);
     }
 
     test_cumsum(ggml_type type = GGML_TYPE_F32,
-            std::array<int64_t, 4> ne = {10, 5, 4, 3})
-        : type(type), ne(ne) {}
+            std::array<int64_t, 4> ne = {10, 5, 4, 3},
+            int64_t dim = 0,
+            std::array<int64_t, 4> permute = {-1, -1, -1, -1})
+        : type(type), ne(ne), dim(dim), permute(permute) {}
 
 
     double max_nmse_err() override {
@@ -4884,7 +4888,11 @@ struct test_cumsum : public test_case {
         ggml_set_param(a);
         ggml_set_name(a, "a");
 
-        ggml_tensor * out = ggml_cumsum(ctx, a);
+        if (permute[0] != -1) {
+            a = ggml_permute(ctx, a, permute[0], permute[1], permute[2], permute[3]);
+        }
+
+        ggml_tensor * out = ggml_cumsum(ctx, a, dim);
         ggml_set_name(out, "out");
 
         return out;
@@ -7056,6 +7064,10 @@ static std::vector<std::unique_ptr<test_case>> make_test_cases_eval(int verbose
     test_cases.emplace_back(new test_cumsum(GGML_TYPE_F16,  { 4, 2, 2, 1 }));
     test_cases.emplace_back(new test_cumsum(GGML_TYPE_BF16, { 4, 2, 2, 1 }));
     test_cases.emplace_back(new test_cumsum(GGML_TYPE_F32,  { 2025, 5, 6, 3 }));
+    // non-contiguous
+    test_cases.emplace_back(new test_cumsum(GGML_TYPE_F32,  { 2, 4, 2, 1 }, 0, {1, 0, 2, 3}));
+    // alternate dim
+    test_cases.emplace_back(new test_cumsum(GGML_TYPE_F32,  { 2, 4, 2, 1 }, 1));
 
     test_cases.emplace_back(new test_tri(GGML_TRI_TYPE_LOWER));
     test_cases.emplace_back(new test_tri(GGML_TRI_TYPE_LOWER_DIAG));
@@ -7233,6 +7245,10 @@ static std::vector<std::unique_ptr<test_case>> make_test_cases_perf() {
     test_cases.emplace_back(new test_cumsum(GGML_TYPE_F16,  { 4, 2, 2, 1 }));
     test_cases.emplace_back(new test_cumsum(GGML_TYPE_BF16, { 4, 2, 2, 1 }));
     test_cases.emplace_back(new test_cumsum(GGML_TYPE_F32,  { 2025, 5, 6, 3 }));
+    // non-contiguous
+    test_cases.emplace_back(new test_cumsum(GGML_TYPE_F32,  { 2, 4, 2, 1 }, 0, {1, 0, 2, 3}));
+    // alternate dim
+    test_cases.emplace_back(new test_cumsum(GGML_TYPE_F32,  { 2, 4, 2, 1 }, 1));
 
     test_cases.emplace_back(new test_tri(GGML_TRI_TYPE_LOWER));
     test_cases.emplace_back(new test_tri(GGML_TRI_TYPE_LOWER_DIAG));