Restore Cuda MMQ IQI1_S and Q4_1 kernels

Nexesenex · Nexesenex · commit 80fe9c329b4e · 2025-02-04T05:07:22.000+01:00
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -64,7 +64,6 @@ option(LLAMA_OPENMP                          "llama: use OpenMP"
 
 # Croco.Cpp Specifics
 option(LLAMA_CUDA_FA_ALL_QUANTS              "llama: compile 18 quants for FlashAttention"      OFF)
-option(LLAMA_CUDA_DISABLE_MMQ_IQ1_S_Q4_1     "llama: compile 18 quants for FlashAttention"      OFF)
 option(GGML_CUDA_USE_GRAPHS                  "Use Cuda Graphs to increase a bit performancess"  OFF)
 set(GGML_SCHED_MAX_COPIES   "1" CACHE STRING "llama: max input copies for pipeline parallelism")
 set(LLAMA_SCHED_MAX_COPIES  "1" CACHE STRING "llama: max input copies for pipeline parallelism")
@@ -101,6 +100,8 @@ file(GLOB GGML_SOURCES_CUDA "ggml/src/ggml-cuda/*.cu")
 list(APPEND GGML_SOURCES_CUDA "ggml/src/ggml-cuda/ggml-cuda.cu")
 file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/fattn-wmma*.cu")
 list(APPEND GGML_SOURCES_CUDA ${SRCS})
+file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq*.cu")
+list(APPEND GGML_SOURCES_CUDA ${SRCS})
 set(GGML_V3_CUDA_SOURCES otherarch/ggml_v3-cuda.cu otherarch/ggml_v3-cuda.h)
 set(GGML_V2_CUDA_SOURCES otherarch/ggml_v2-cuda.cu otherarch/ggml_v2-cuda.h)
 set(GGML_V2_LEGACY_CUDA_SOURCES otherarch/ggml_v2-cuda-legacy.cu otherarch/ggml_v2-cuda-legacy.h)
@@ -160,55 +161,10 @@ if (LLAMA_CUBLAS)
         if (GGML_CUDA_USE_GRAPHS)
             add_compile_definitions(GGML_CUDA_USE_GRAPHS)
         endif()
-		
-        if (LLAMA_CUDA_DISABLE_MMQ_IQ1_S_Q4_1)
-            # all quants necessary for Kobold CPP Frankenstein are compiled
-            # the other are ignored but not deleted from the ggml_cuda templates directory
-            # file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq1_s.cu")
-            # list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq1_m.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq2_xxs.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq2_xs.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq2_s.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq3_xxs.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq3_s.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq4_xs.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq4_nl.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q4_0.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            # file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q4_1.cu")
-            # list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q5_0.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q5_1.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q6_0.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q2_k.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q3_k.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q4_k.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q5_k.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q6_k.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q8_0.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-        else ()
-            # Build All MMQ Kernels
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq*.cu")
-            list(APPEND GGML_SOURCES_CUDA ${SRCS})
-        endif()
+
+        # Build All MMQ Kernels
+        file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq*.cu")
+        list(APPEND GGML_SOURCES_CUDA ${SRCS})
 
         if (LLAMA_CUDA_FA_ALL_QUANTS)
             # all quants necessary for Kobold CPP Frankenstein are compiled
@@ -374,54 +330,9 @@ if (LLAMA_HIPBLAS)
             target_compile_definitions(ggml-rocm PUBLIC GGML_CUDA_FORCE_DMMV)
         endif()
 		
-        if (LLAMA_CUDA_DISABLE_MMQ_IQ1_S_Q4_1)
-            # all quants necessary for Kobold CPP Frankenstein are compiled
-            # the other are ignored but not deleted from the ggml_cuda templates directory
-            # file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq1_s.cu")
-            # list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq1_m.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq2_xxs.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq2_xs.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq2_s.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq3_xxs.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq3_s.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq4_xs.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-iq4_nl.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q4_0.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            # file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q4_1.cu")
-            # list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q5_0.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q5_1.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q6_0.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q2_k.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q3_k.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q4_k.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q5_k.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q6_k.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq-instance-q8_0.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-        else ()
-            # Build All MMQ Kernels
-            file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq*.cu")
-            list(APPEND GGML_SOURCES_ROCM ${SRCS})
-        endif()
+        # Build All MMQ Kernels
+        file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/mmq*.cu")
+        list(APPEND GGML_SOURCES_ROCM ${SRCS})
 
         if (LLAMA_CUDA_FA_ALL_QUANTS)
             # all quants necessary for Kobold CPP Frankenstein are compiled
diff --git a/ggml/src/ggml-cuda/mmq.cu b/ggml/src/ggml-cuda/mmq.cu
@@ -34,7 +34,7 @@ void ggml_cuda_op_mul_mat_q(
         case GGML_TYPE_Q4_0:
             mul_mat_q_case<GGML_TYPE_Q4_0>(ctx, args, stream);
             break;
-        //case GGML_TYPE_Q4_1:
+        case GGML_TYPE_Q4_1:
             mul_mat_q_case<GGML_TYPE_Q4_1>(ctx, args, stream);
             break;
         case GGML_TYPE_Q5_0:
@@ -82,9 +82,9 @@ void ggml_cuda_op_mul_mat_q(
         case GGML_TYPE_IQ3_S:
             mul_mat_q_case<GGML_TYPE_IQ3_S>(ctx, args, stream);
             break;
-        //case GGML_TYPE_IQ1_S:
-            //mul_mat_q_case<GGML_TYPE_IQ1_S>(ctx, args, stream);
-            //break;
+        case GGML_TYPE_IQ1_S:
+            mul_mat_q_case<GGML_TYPE_IQ1_S>(ctx, args, stream);
+            break;
         case GGML_TYPE_IQ4_XS:
             mul_mat_q_case<GGML_TYPE_IQ4_XS>(ctx, args, stream);
             break;
@@ -112,7 +112,7 @@ bool ggml_cuda_should_use_mmq(enum ggml_type type, int cc, int64_t ne11) {
 
     switch (type) {
         case GGML_TYPE_Q4_0:
-        //case GGML_TYPE_Q4_1:
+        case GGML_TYPE_Q4_1:
         case GGML_TYPE_Q5_0:
         case GGML_TYPE_Q5_1:
         case GGML_TYPE_Q6_0:
@@ -128,7 +128,7 @@ bool ggml_cuda_should_use_mmq(enum ggml_type type, int cc, int64_t ne11) {
         case GGML_TYPE_IQ2_S:
         case GGML_TYPE_IQ3_XXS:
         case GGML_TYPE_IQ3_S:
-        //case GGML_TYPE_IQ1_S:
+        case GGML_TYPE_IQ1_S:
         case GGML_TYPE_IQ4_XS:
         case GGML_TYPE_IQ4_NL:
             mmq_supported = true;
diff --git a/ggml/src/ggml-cuda/mmq.cuh b/ggml/src/ggml-cuda/mmq.cuh
@@ -156,7 +156,7 @@ static constexpr __device__ int get_mmq_y_device() {
 
 static constexpr __host__ __device__ tile_x_sizes mmq_get_dp4a_tile_x_sizes(ggml_type type, int mmq_y) {
     return type == GGML_TYPE_Q4_0 ? MMQ_DP4A_TXS_Q4_0 :
-        //type == GGML_TYPE_Q4_1    ? MMQ_DP4A_TXS_Q4_1 :
+        type == GGML_TYPE_Q4_1    ? MMQ_DP4A_TXS_Q4_1 :
         type == GGML_TYPE_Q5_0    ? MMQ_DP4A_TXS_Q8_0 :
         type == GGML_TYPE_Q5_1    ? MMQ_DP4A_TXS_Q8_1 :
         type == GGML_TYPE_Q6_0    ? MMQ_DP4A_TXS_Q8_0 :
@@ -172,7 +172,7 @@ static constexpr __host__ __device__ tile_x_sizes mmq_get_dp4a_tile_x_sizes(ggml
         type == GGML_TYPE_IQ2_S   ? MMQ_DP4A_TXS_Q8_0_16 :
         type == GGML_TYPE_IQ3_XXS ? MMQ_DP4A_TXS_Q8_0 :
         type == GGML_TYPE_IQ3_S   ? MMQ_DP4A_TXS_Q8_0 :
-        //type == GGML_TYPE_IQ1_S   ? MMQ_DP4A_TXS_Q8_0 :
+        type == GGML_TYPE_IQ1_S   ? MMQ_DP4A_TXS_Q8_0 :
         type == GGML_TYPE_IQ4_XS  ? MMQ_DP4A_TXS_Q8_0 :
         type == GGML_TYPE_IQ4_NL  ? MMQ_DP4A_TXS_Q8_0 :
         tile_x_sizes{0, 0, 0};
@@ -192,7 +192,7 @@ static_assert(MMQ_MMA_TILE_X_K_Q6_K % 8 == 4, "Wrong padding.");
 
 static constexpr __host__ __device__ int mmq_get_mma_tile_x_k(ggml_type type) {
     return type == GGML_TYPE_Q4_0 ? MMQ_MMA_TILE_X_K_Q8_0 :
-        //type == GGML_TYPE_Q4_1    ? MMQ_MMA_TILE_X_K_Q8_1 :
+        type == GGML_TYPE_Q4_1    ? MMQ_MMA_TILE_X_K_Q8_1 :
         type == GGML_TYPE_Q5_0    ? MMQ_MMA_TILE_X_K_Q8_0 :
         type == GGML_TYPE_Q5_1    ? MMQ_MMA_TILE_X_K_Q8_1 :
         type == GGML_TYPE_Q6_0    ? MMQ_MMA_TILE_X_K_Q8_0 :
@@ -208,7 +208,7 @@ static constexpr __host__ __device__ int mmq_get_mma_tile_x_k(ggml_type type) {
         type == GGML_TYPE_IQ2_S   ? MMQ_MMA_TILE_X_K_Q3_K :
         type == GGML_TYPE_IQ3_XXS ? MMQ_MMA_TILE_X_K_Q8_0 :
         type == GGML_TYPE_IQ3_S   ? MMQ_MMA_TILE_X_K_Q8_0 :
-        //type == GGML_TYPE_IQ1_S   ? MMQ_MMA_TILE_X_K_Q8_0 :
+        type == GGML_TYPE_IQ1_S   ? MMQ_MMA_TILE_X_K_Q8_0 :
         type == GGML_TYPE_IQ4_XS  ? MMQ_MMA_TILE_X_K_Q8_0 :
         type == GGML_TYPE_IQ4_NL  ? MMQ_MMA_TILE_X_K_Q8_0 :
         0;
@@ -3058,7 +3058,7 @@ void mul_mat_q_case(ggml_backend_cuda_context & ctx, const mmq_args & args, cuda
     template void mul_mat_q_case<type>(ggml_backend_cuda_context & ctx, const mmq_args & args, cudaStream_t stream) \
 
 extern DECL_MMQ_CASE(GGML_TYPE_Q4_0);
-//extern DECL_MMQ_CASE(GGML_TYPE_Q4_1);
+extern DECL_MMQ_CASE(GGML_TYPE_Q4_1);
 extern DECL_MMQ_CASE(GGML_TYPE_Q5_0);
 extern DECL_MMQ_CASE(GGML_TYPE_Q5_1);
 extern DECL_MMQ_CASE(GGML_TYPE_Q6_0);
@@ -3074,7 +3074,7 @@ extern DECL_MMQ_CASE(GGML_TYPE_IQ2_XS);
 extern DECL_MMQ_CASE(GGML_TYPE_IQ2_S);
 extern DECL_MMQ_CASE(GGML_TYPE_IQ3_XXS);
 extern DECL_MMQ_CASE(GGML_TYPE_IQ3_S);
-//extern DECL_MMQ_CASE(GGML_TYPE_IQ1_S);
+extern DECL_MMQ_CASE(GGML_TYPE_IQ1_S);
 extern DECL_MMQ_CASE(GGML_TYPE_IQ4_NL);
 extern DECL_MMQ_CASE(GGML_TYPE_IQ4_XS);