bluebread
diff --git a/‎ggml/include/ggml.h‎
Lines changed: 20 additions & 0 deletions b/‎ggml/include/ggml.h‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎ggml/src/ggml-cpu/ops.cpp‎
Lines changed: 16 additions & 16 deletions b/‎ggml/src/ggml-cpu/ops.cpp‎
Lines changed: 16 additions & 16 deletions
diff --git a/‎ggml/src/ggml-cuda/ggml-cuda.cu‎
Lines changed: 22 additions & 0 deletions b/‎ggml/src/ggml-cuda/ggml-cuda.cu‎
Lines changed: 22 additions & 0 deletions
diff --git a/‎ggml/src/ggml-cuda/rel-pos.cu‎
Lines changed: 135 additions & 0 deletions b/‎ggml/src/ggml-cuda/rel-pos.cu‎
Lines changed: 135 additions & 0 deletions
diff --git a/‎ggml/src/ggml-cuda/rel-pos.cuh‎
Lines changed: 6 additions & 0 deletions b/‎ggml/src/ggml-cuda/rel-pos.cuh‎
Lines changed: 6 additions & 0 deletions
@@ -2346,6 +2346,20 @@ extern "C" {
             int                   h0,
             int                   w);
 
+    // reverse of ggml_win_part with explicit output dimensions
+    // a:      [C, w, w, B*NPY*NPX]
+    // result: [C, w0, h0, b0]
+    // w0, h0: output width and height (may differ from input due to padding removal)
+    // b0: output batch size
+    // w: window size (must match the one used in ggml_win_part)
+    GGML_API struct ggml_tensor * ggml_win_unpart_ext(
+            struct ggml_context * ctx,
+            struct ggml_tensor  * a,
+            int                   w0,
+            int                   h0,
+            int                   b0,
+            int                   w);
+
     GGML_API struct ggml_tensor * ggml_unary(
             struct ggml_context * ctx,
              struct ggml_tensor * a,
@@ -2356,6 +2370,12 @@ extern "C" {
         struct ggml_tensor  * a,
         enum ggml_unary_op op);
 
+    // relative position encoding
+    // a:   [C, rel_pos_size]
+    // res: [C, kh, qh]
+    // where rel_pos_size >= qh + kh - 1
+    // extracts relative position embeddings for attention
+    // ref: https://github.com/facebookresearch/segment-anything/blob/main/segment_anything/modeling/image_encoder.py#L292-L322
     GGML_API struct ggml_tensor * ggml_get_rel_pos(
             struct ggml_context * ctx,
             struct ggml_tensor  * a,
 
@@ -8863,13 +8863,13 @@ static void ggml_compute_forward_win_part_f32(
                     const int64_t i01 = px*w + i1;
                     const int64_t i00 = i0;
 
-                    void * sp = ((void *) src0->data) + i03*nb03 + i02*nb02  + i01*nb01 + i00*nb00;
-                    void * dp = ((void *) dst->data)  + i3*nb3   + i2*nb2    + i1*nb1   + i0*nb0; 
+                    const char * sp = ((const char *) src0->data) + i03*nb03 + i02*nb02  + i01*nb01 + i00*nb00;
+                    char * dp = ((char *) dst->data)  + i3*nb3   + i2*nb2    + i1*nb1   + i0*nb0; 
 
                     if (py*w + i2 >= ne02 || px*w + i1 >= ne01) {
                         *((float *) dp) = 0;
                     } else {
-                        *((float *) dp) = *((float *) sp);
+                        *((float *) dp) = *((const float *) sp);
                     }
                 }
             }
@@ -8907,13 +8907,13 @@ static void ggml_compute_forward_win_part_f16(
                     const int64_t i01 = px*w + i1;
                     const int64_t i00 = i0;
 
-                    void * sp = ((void *) src0->data) + i03*nb03 + i02*nb02  + i01*nb01 + i00*nb00;
-                    void * dp = ((void *) dst->data)  + i3*nb3   + i2*nb2    + i1*nb1   + i0*nb0; 
+                    const char * sp = ((const char *) src0->data) + i03*nb03 + i02*nb02  + i01*nb01 + i00*nb00;
+                    char * dp = ((char *) dst->data)  + i3*nb3   + i2*nb2    + i1*nb1   + i0*nb0; 
 
                     if (py*w + i2 >= ne02 || px*w + i1 >= ne01) {
                         *((ggml_fp16_t *) dp) = 0;
                     } else {
-                        *((ggml_fp16_t *) dp) = *((ggml_fp16_t *) sp);
+                        *((ggml_fp16_t *) dp) = *((const ggml_fp16_t *) sp);
                     }
                 }
             }
@@ -8981,10 +8981,10 @@ static void ggml_compute_forward_win_unpart_f32(
                     const int64_t i01 = i1%w;
                     const int64_t i00 = i0;
 
-                    void * sp = ((void *) src0->data) + i03*nb03 + i02*nb02 + i01*nb01 + i00*nb00;
-                    void * dp = ((void *) dst->data)  + i3*nb3   + i2*nb2   + i1*nb1   + i0*nb0;
+                    const char * sp = ((const char *) src0->data) + i03*nb03 + i02*nb02 + i01*nb01 + i00*nb00;
+                    char * dp = ((char *) dst->data)  + i3*nb3   + i2*nb2   + i1*nb1   + i0*nb0;
 
-                    *((float *) dp) = *((float *) sp);
+                    *((float *) dp) = *((const float *) sp);
                 }
             }
         }
@@ -9025,10 +9025,10 @@ static void ggml_compute_forward_win_unpart_f16(
                     const int64_t i01 = i1%w;
                     const int64_t i00 = i0;
 
-                    void * sp = ((void *) src0->data) + i03*nb03 + i02*nb02 + i01*nb01 + i00*nb00;
-                    void * dp = ((void *) dst->data)  + i3*nb3   + i2*nb2   + i1*nb1   + i0*nb0;
+                    const char * sp = ((const char *) src0->data) + i03*nb03 + i02*nb02 + i01*nb01 + i00*nb00;
+                    char * dp = ((char *) dst->data)  + i3*nb3   + i2*nb2   + i1*nb1   + i0*nb0;
 
-                    *((ggml_fp16_t *) dp) = *((ggml_fp16_t *) sp);
+                    *((ggml_fp16_t *) dp) = *((const ggml_fp16_t *) sp);
                 }
             }
         }
@@ -9216,14 +9216,14 @@ static void ggml_compute_forward_get_rel_pos_f32(
 
     GGML_TENSOR_UNARY_OP_LOCALS
 
-    const int64_t w = ne1;
+    const int64_t kh = ne1;
 
     float * src0_data = (float *) src0->data;
     float * dst_data  = (float *) dst->data;
 
     for (int64_t i2 = 0; i2 < ne2; ++i2) {
         for (int64_t i1 = 0; i1 < ne1; ++i1) {
-            const int64_t pos = (w - i1 - 1) + i2;
+            const int64_t pos = (kh - i1 - 1) + i2;
             for (int64_t i0 = 0; i0 < ne0; ++i0) {
                 dst_data[i2*ne1*ne0 + i1*ne0 + i0] = src0_data[pos*ne00 + i0];
             }
@@ -9242,14 +9242,14 @@ static void ggml_compute_forward_get_rel_pos_f16(
 
     GGML_TENSOR_UNARY_OP_LOCALS
 
-    const int64_t w = ne1;
+    const int64_t kh = ne1;
 
     ggml_fp16_t * src0_data = (ggml_fp16_t *) src0->data;
     ggml_fp16_t * dst_data  = (ggml_fp16_t *) dst->data;
 
     for (int64_t i2 = 0; i2 < ne2; ++i2) {
         for (int64_t i1 = 0; i1 < ne1; ++i1) {
-            const int64_t pos = (w - i1 - 1) + i2;
+            const int64_t pos = (kh - i1 - 1) + i2;
             for (int64_t i0 = 0; i0 < ne0; ++i0) {
                 dst_data[i2*ne1*ne0 + i1*ne0 + i0] = src0_data[pos*ne00 + i0];
             }
 
@@ -34,6 +34,7 @@
 #include "ggml-cuda/pad.cuh"
 #include "ggml-cuda/pool2d.cuh"
 #include "ggml-cuda/quantize.cuh"
+#include "ggml-cuda/rel-pos.cuh"
 #include "ggml-cuda/rope.cuh"
 #include "ggml-cuda/roll.cuh"
 #include "ggml-cuda/scale.cuh"
@@ -48,6 +49,7 @@
 #include "ggml-cuda/topk-moe.cuh"
 #include "ggml-cuda/unary.cuh"
 #include "ggml-cuda/upscale.cuh"
+#include "ggml-cuda/win.cuh"
 #include "ggml-cuda/wkv.cuh"
 #include "ggml-cuda/gla.cuh"
 #include "ggml-cuda/set.cuh"
@@ -2717,6 +2719,15 @@ static bool ggml_cuda_compute_forward(ggml_backend_cuda_context & ctx, struct gg
         case GGML_OP_OPT_STEP_SGD:
             ggml_cuda_opt_step_sgd(ctx, dst);
             break;
+        case GGML_OP_WIN_PART:
+            ggml_cuda_op_win_part(ctx, dst);
+            break;
+        case GGML_OP_WIN_UNPART:
+            ggml_cuda_op_win_unpart(ctx, dst);
+            break;
+        case GGML_OP_GET_REL_POS:
+            ggml_cuda_op_get_rel_pos(ctx, dst);
+            break;
         default:
             return false;
     }
@@ -4152,6 +4163,17 @@ static bool ggml_backend_cuda_device_supports_op(ggml_backend_dev_t dev, const g
         case GGML_OP_OPT_STEP_ADAMW:
         case GGML_OP_OPT_STEP_SGD:
             return true;
+        case GGML_OP_WIN_PART:
+        case GGML_OP_WIN_UNPART:
+        case GGML_OP_GET_REL_POS:
+            switch (op->src[0]->type) {
+                case GGML_TYPE_F16:
+                case GGML_TYPE_F32:
+                case GGML_TYPE_BF16:
+                    return true;
+                default:
+                    return false;
+            }
         default:
             return false;
     }
 
@@ -0,0 +1,135 @@
+#include "common.cuh"
+#include "ggml.h"
+#include "ggml-cuda/rel-pos.cuh"
+
+/*
+
+static void ggml_compute_forward_get_rel_pos_f16(
+        const ggml_compute_params * params,
+        ggml_tensor * dst) {
+    GGML_UNUSED(params);
+
+    const ggml_tensor * src0 = dst->src[0];
+
+    // ref: https://github.com/facebookresearch/segment-anything/blob/main/segment_anything/modeling/image_encoder.py#L292-L322
+
+    GGML_TENSOR_UNARY_OP_LOCALS
+
+    const int64_t kh = ne1;
+
+    ggml_fp16_t * src0_data = (ggml_fp16_t *) src0->data;
+    ggml_fp16_t * dst_data  = (ggml_fp16_t *) dst->data;
+
+    for (int64_t i2 = 0; i2 < ne2; ++i2) {
+        for (int64_t i1 = 0; i1 < ne1; ++i1) {
+            const int64_t pos = (kh - i1 - 1) + i2;
+            for (int64_t i0 = 0; i0 < ne0; ++i0) {
+                dst_data[i2*ne1*ne0 + i1*ne0 + i0] = src0_data[pos*ne00 + i0];
+            }
+        }
+    }
+}
+
+
+void ggml_compute_forward_get_rel_pos(
+        const ggml_compute_params * params,
+        ggml_tensor * dst) {
+
+    const ggml_tensor * src0 = dst->src[0];
+
+    switch (src0->type) {
+        case GGML_TYPE_F32:
+            {
+                ggml_compute_forward_get_rel_pos_f32(params, dst);
+            } break;
+        case GGML_TYPE_F16:
+        case GGML_TYPE_BF16:
+            {
+                ggml_compute_forward_get_rel_pos_f16(params, dst);
+            } break;
+        default:
+            {
+                GGML_ABORT("fatal error");
+            }
+    }
+}
+
+struct ggml_tensor * ggml_get_rel_pos(
+        struct ggml_context * ctx,
+        struct ggml_tensor  * a,
+        int                   qh,
+        int                   kh) {
+    GGML_ASSERT(qh + kh - 1 <= a->ne[1]);
+
+    const int64_t ne[4] = { a->ne[0], kh, qh, 1, };
+    struct ggml_tensor * result = ggml_new_tensor(ctx, a->type, 3, ne);
+
+    result->op     = GGML_OP_GET_REL_POS;
+    result->src[0] = a;
+
+    return result;
+}
+
+*/
+
+template <typename T>
+__global__ static void get_rel_pos_kernel(const void * src, void * dst, int C) {
+    int kh = gridDim.x;
+    int ki = blockIdx.x;
+    int qi = blockIdx.y;
+    int pos = (kh - 1) + qi - ki;
+
+    int s0 = C;
+    int s1 = C * kh;
+
+    for (int ci = threadIdx.x; ci < C; ci += blockDim.x) {
+        ((T *) dst)[qi*s1 + ki*s0 + ci] = ((const T *) src)[pos*C + ci];
+    }
+}
+
+static unsigned int round_to_pow2(unsigned int v) {
+    v--;
+    v |= v >> 1;
+    v |= v >> 2;
+    v |= v >> 4;
+    v |= v >> 8;
+    v |= v >> 16;
+    v++;
+
+    return v;
+} 
+
+void ggml_cuda_op_get_rel_pos(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
+    const ggml_tensor * src0 = dst->src[0];
+
+    GGML_TENSOR_UNARY_OP_LOCALS
+
+    GGML_ASSERT(src0->type == dst->type);
+
+    int C  = ne0;
+    int kh = ne1;
+    int qh = ne2;
+
+    int num_threads = MIN(CUDA_GET_REL_POS_BLOCK_SIZE, MAX(32, round_to_pow2(C)));
+    dim3 grid { (unsigned int)kh, (unsigned int)qh, 1 };
+
+    const void * src0_d = (const void *)src0->data;
+    void * dst_d = (void *)dst->data;
+    cudaStream_t stream = ctx.stream();
+
+    switch (src0->type)
+    {
+    case GGML_TYPE_F32:
+        get_rel_pos_kernel<float><<<grid, num_threads, 0, stream>>>(src0_d, dst_d, C);
+        break;
+    case GGML_TYPE_F16:
+        get_rel_pos_kernel<half><<<grid, num_threads, 0, stream>>>(src0_d, dst_d, C);
+        break;
+    case GGML_TYPE_BF16:
+        get_rel_pos_kernel<nv_bfloat16><<<grid, num_threads, 0, stream>>>(src0_d, dst_d, C);
+        break;
+    default:
+        GGML_ABORT("%s: unsupported type (%s)\n", __func__, ggml_type_name(src0->type));
+        break;
+    }
+}
@@ -0,0 +1,6 @@
+#pragma once
+#include "common.cuh"
+
+#define CUDA_GET_REL_POS_BLOCK_SIZE   256
+
+void ggml_cuda_op_get_rel_pos(ggml_backend_cuda_context & ctx, ggml_tensor * dst);