test quantized path

CISC · web-flow · commit 7657ec3d8f16 · 2025-09-22T08:31:58.000+02:00
warnings--
diff --git a/ggml/src/ggml-cuda/set-rows.cu b/ggml/src/ggml-cuda/set-rows.cu
@@ -181,7 +181,7 @@ void ggml_cuda_op_set_rows(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
                 nb1, nb2, nb3,
                 stream
             );
-        } else if (src1->type == GGML_TYPE_I32) {
+        } else {
             set_rows_cuda(
                 src0_d, (const int32_t *)src1->data, (float*)dst->data,
                 ne00, ne01, ne02, ne03,
@@ -203,7 +203,7 @@ void ggml_cuda_op_set_rows(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
                 nb1, nb2, nb3,
                 stream
             );
-        } else if (src1->type == GGML_TYPE_I32) {
+        } else {
             set_rows_cuda(
                 src0_d, (const int32_t *)src1->data, (half*)dst->data,
                 ne00, ne01, ne02, ne03,
@@ -225,7 +225,7 @@ void ggml_cuda_op_set_rows(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
                 nb1, nb2, nb3,
                 stream
             );
-        } else if (src1->type == GGML_TYPE_I32) {
+        } else {
             set_rows_cuda(
                 src0_d, (const int32_t *)src1->data, (nv_bfloat16*)dst->data,
                 ne00, ne01, ne02, ne03,
@@ -247,7 +247,7 @@ void ggml_cuda_op_set_rows(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
                 nb1, nb2, nb3,
                 stream
             );
-        } else if (src1->type == GGML_TYPE_I32) {
+        } else {
             set_rows_cuda_quant<int32_t, block_q4_0, QK4_0, quantize_f32_q4_0_block>(
                 src0_d, (const int32_t *)src1->data, (block_q4_0*)dst->data,
                 ne00, ne01, ne02, ne03,
@@ -269,7 +269,7 @@ void ggml_cuda_op_set_rows(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
                 nb1, nb2, nb3,
                 stream
             );
-        } else if (src1->type == GGML_TYPE_I32) {
+        } else {
             set_rows_cuda_quant<int32_t, block_q4_1, QK4_1, quantize_f32_q4_1_block>(
                 src0_d, (const int32_t *)src1->data, (block_q4_1*)dst->data,
                 ne00, ne01, ne02, ne03,
@@ -291,7 +291,7 @@ void ggml_cuda_op_set_rows(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
                 nb1, nb2, nb3,
                 stream
             );
-        } else if (src1->type == GGML_TYPE_I32) {
+        } else {
             set_rows_cuda_quant<int32_t, block_q5_0, QK5_0, quantize_f32_q5_0_block>(
                 src0_d, (const int32_t *)src1->data, (block_q5_0*)dst->data,
                 ne00, ne01, ne02, ne03,
@@ -313,7 +313,7 @@ void ggml_cuda_op_set_rows(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
                 nb1, nb2, nb3,
                 stream
             );
-        } else if (src1->type == GGML_TYPE_I32) {
+        } else {
             set_rows_cuda_quant<int32_t, block_q5_1, QK5_1, quantize_f32_q5_1_block>(
                 src0_d, (const int32_t *)src1->data, (block_q5_1*)dst->data,
                 ne00, ne01, ne02, ne03,
@@ -335,7 +335,7 @@ void ggml_cuda_op_set_rows(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
                 nb1, nb2, nb3,
                 stream
             );
-        } else if (src1->type == GGML_TYPE_I32) {
+        } else {
             set_rows_cuda_quant<int32_t, block_q8_0, QK8_0, quantize_f32_q8_0_block>(
                 src0_d, (const int32_t *)src1->data, (block_q8_0*)dst->data,
                 ne00, ne01, ne02, ne03,
@@ -357,7 +357,7 @@ void ggml_cuda_op_set_rows(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
                 nb1, nb2, nb3,
                 stream
             );
-        } else if (src1->type == GGML_TYPE_I32) {
+        } else {
             set_rows_cuda_quant<int32_t, block_iq4_nl, QK4_NL, quantize_f32_iq4_nl_block>(
                 src0_d, (const int32_t *)src1->data, (block_iq4_nl*)dst->data,
                 ne00, ne01, ne02, ne03,
diff --git a/ggml/src/ggml-opencl/ggml-opencl.cpp b/ggml/src/ggml-opencl/ggml-opencl.cpp
@@ -4111,14 +4111,14 @@ static void ggml_cl_set_rows(ggml_backend_t backend, const ggml_tensor * src0, c
         case GGML_TYPE_F32:
             if (src1->type == GGML_TYPE_I64) {
                 kernel = backend_ctx->kernel_set_rows_f32_i64;
-            } else if (src1->type == GGML_TYPE_I32) {
+            } else {
                 kernel = backend_ctx->kernel_set_rows_f32_i32;
             }
             break;
         case GGML_TYPE_F16:
             if (src1->type == GGML_TYPE_I64) {
                 kernel = backend_ctx->kernel_set_rows_f16_i64;
-            } else if (src1->type == GGML_TYPE_I32) {
+            } else {
                 kernel = backend_ctx->kernel_set_rows_f16_i32;
             }
             break;
diff --git a/ggml/src/ggml-sycl/set_rows.cpp b/ggml/src/ggml-sycl/set_rows.cpp
@@ -171,7 +171,7 @@ void ggml_sycl_op_set_rows(ggml_backend_sycl_context & ctx, ggml_tensor * dst) {
                     sizeof(float), sizeof(float),
                     stream
                 );
-            } else if (src1->type == GGML_TYPE_I32) {
+            } else {
                set_rows_sycl<float, int32_t, float>(
                     (const char *)src0->data, (const int32_t *)src1->data, (char *)dst->data,
                     ne00, ne01, ne02, ne03,
@@ -197,7 +197,7 @@ void ggml_sycl_op_set_rows(ggml_backend_sycl_context & ctx, ggml_tensor * dst) {
                     sizeof(float), sizeof(sycl::half),
                     stream
                 );
-            } else if (src1->type == GGML_TYPE_I32) {
+            } else {
                 set_rows_sycl<float, int32_t, sycl::half>(
                     (const char *)src0->data, (const int32_t *)src1->data, (char *)dst->data,
                     ne00, ne01, ne02, ne03,
@@ -222,7 +222,7 @@ void ggml_sycl_op_set_rows(ggml_backend_sycl_context & ctx, ggml_tensor * dst) {
                     sizeof(float), sizeof(sycl::ext::oneapi::bfloat16),
                     stream
                 );
-            } else if (src1->type == GGML_TYPE_I32) {
+            } else {
                 set_rows_sycl<float, int32_t, sycl::ext::oneapi::bfloat16>(
                     (const char *)src0->data, (const int32_t *)src1->data, (char *)dst->data,
                     ne00, ne01, ne02, ne03,
@@ -238,42 +238,42 @@ void ggml_sycl_op_set_rows(ggml_backend_sycl_context & ctx, ggml_tensor * dst) {
         case GGML_TYPE_Q8_0:
             if (src1->type == GGML_TYPE_I64) {
                 set_rows_sycl_q<int64_t, block_q8_0, QK8_0, cpy_blck_f32_q8_0>((const char *)src0->data, (const int64_t *)src1->data, (block_q8_0 *)dst->data, ne00, ne01, ne02, ne03, ne10, ne11, ne12, ne13, nb00, nb01, nb02, nb03, nb10, nb11, nb12, nb13, nb1, nb2, nb3, stream);
-            } else if (src1->type == GGML_TYPE_I32) {
+            } else {
                 set_rows_sycl_q<int32_t, block_q8_0, QK8_0, cpy_blck_f32_q8_0>((const char *)src0->data, (const int32_t *)src1->data, (block_q8_0 *)dst->data, ne00, ne01, ne02, ne03, ne10, ne11, ne12, ne13, nb00, nb01, nb02, nb03, nb10, nb11, nb12, nb13, nb1, nb2, nb3, stream);
             }
             break;
         case GGML_TYPE_Q5_1:
             if (src1->type == GGML_TYPE_I64) {
                 set_rows_sycl_q<int64_t, block_q5_1, QK5_1, cpy_blck_f32_q5_1>((const char *)src0->data, (const int64_t *)src1->data, (block_q5_1 *)dst->data, ne00, ne01, ne02, ne03, ne10, ne11, ne12, ne13, nb00, nb01, nb02, nb03, nb10, nb11, nb12, nb13, nb1, nb2, nb3, stream);
-            } else if (src1->type == GGML_TYPE_I32) {
+            } else {
                 set_rows_sycl_q<int32_t, block_q5_1, QK5_1, cpy_blck_f32_q5_1>((const char *)src0->data, (const int32_t *)src1->data, (block_q5_1 *)dst->data, ne00, ne01, ne02, ne03, ne10, ne11, ne12, ne13, nb00, nb01, nb02, nb03, nb10, nb11, nb12, nb13, nb1, nb2, nb3, stream);
             }
             break;
         case GGML_TYPE_Q5_0:
             if (src1->type == GGML_TYPE_I64) {
                 set_rows_sycl_q<int64_t, block_q5_0, QK5_0, cpy_blck_f32_q5_0>((const char *)src0->data, (const int64_t *)src1->data, (block_q5_0 *)dst->data, ne00, ne01, ne02, ne03, ne10, ne11, ne12, ne13, nb00, nb01, nb02, nb03, nb10, nb11, nb12, nb13, nb1, nb2, nb3, stream);
-            } else if (src1->type == GGML_TYPE_I32) {
+            } else {
                 set_rows_sycl_q<int32_t, block_q5_0, QK5_0, cpy_blck_f32_q5_0>((const char *)src0->data, (const int32_t *)src1->data, (block_q5_0 *)dst->data, ne00, ne01, ne02, ne03, ne10, ne11, ne12, ne13, nb00, nb01, nb02, nb03, nb10, nb11, nb12, nb13, nb1, nb2, nb3, stream);
             }
             break;
         case GGML_TYPE_Q4_1:
             if (src1->type == GGML_TYPE_I64) {
                 set_rows_sycl_q<int64_t, block_q4_1, QK4_1, cpy_blck_f32_q4_1>((const char *)src0->data, (const int64_t *)src1->data, (block_q4_1 *)dst->data, ne00, ne01, ne02, ne03, ne10, ne11, ne12, ne13, nb00, nb01, nb02, nb03, nb10, nb11, nb12, nb13, nb1, nb2, nb3, stream);
-            } else if (src1->type == GGML_TYPE_I32) {
+            } else {
                 set_rows_sycl_q<int32_t, block_q4_1, QK4_1, cpy_blck_f32_q4_1>((const char *)src0->data, (const int32_t *)src1->data, (block_q4_1 *)dst->data, ne00, ne01, ne02, ne03, ne10, ne11, ne12, ne13, nb00, nb01, nb02, nb03, nb10, nb11, nb12, nb13, nb1, nb2, nb3, stream);
             }
             break;
         case GGML_TYPE_Q4_0:
             if (src1->type == GGML_TYPE_I64) {
                 set_rows_sycl_q<int64_t, block_q4_0, QK4_0, cpy_blck_f32_q4_0>((const char *)src0->data, (const int64_t *)src1->data, (block_q4_0 *)dst->data, ne00, ne01, ne02, ne03, ne10, ne11, ne12, ne13, nb00, nb01, nb02, nb03, nb10, nb11, nb12, nb13, nb1, nb2, nb3, stream);
-            } else if (src1->type == GGML_TYPE_I32) {
+            } else {
                 set_rows_sycl_q<int32_t, block_q4_0, QK4_0, cpy_blck_f32_q4_0>((const char *)src0->data, (const int32_t *)src1->data, (block_q4_0 *)dst->data, ne00, ne01, ne02, ne03, ne10, ne11, ne12, ne13, nb00, nb01, nb02, nb03, nb10, nb11, nb12, nb13, nb1, nb2, nb3, stream);
             }
             break;
         case GGML_TYPE_IQ4_NL:
             if (src1->type == GGML_TYPE_I64) {
                 set_rows_sycl_q<int64_t, block_iq4_nl, QK4_NL, cpy_blck_f32_iq4_nl>((const char *)src0->data, (const int64_t *)src1->data, (block_iq4_nl *)dst->data, ne00, ne01, ne02, ne03, ne10, ne11, ne12, ne13, nb00, nb01, nb02, nb03, nb10, nb11, nb12, nb13, nb1, nb2, nb3, stream);
-            } else if (src1->type == GGML_TYPE_I32) {
+            } else {
                 set_rows_sycl_q<int32_t, block_iq4_nl, QK4_NL, cpy_blck_f32_iq4_nl>((const char *)src0->data, (const int32_t *)src1->data, (block_iq4_nl *)dst->data, ne00, ne01, ne02, ne03, ne10, ne11, ne12, ne13, nb00, nb01, nb02, nb03, nb10, nb11, nb12, nb13, nb1, nb2, nb3, stream);
             }
             break;
diff --git a/tests/test-backend-ops.cpp b/tests/test-backend-ops.cpp
@@ -5671,6 +5671,7 @@ static std::vector<std::unique_ptr<test_case>> make_test_cases_eval() {
 
     test_cases.emplace_back(new test_set_rows(GGML_TYPE_F32, GGML_TYPE_I64, { 1, 8, 1, 3 }, { 1, 1 }, 2, false));
     test_cases.emplace_back(new test_set_rows(GGML_TYPE_F32, GGML_TYPE_I32, { 1, 8, 1, 3 }, { 1, 1 }, 2, false));
+    test_cases.emplace_back(new test_set_rows(GGML_TYPE_Q8_0, GGML_TYPE_I32, { 256, 5, 1, 3 }, { 1, 1, }, 1, false));
     for (ggml_type type : all_types) {
         for (int b : {1, 7}) {
             for (bool v : {false, true}) {