CUDA/HIP: optimize mmv paths taken for HIP/CDNA

IMbackK · IMbackK · commit 6a414d9ee88d · 2025-06-23T17:15:00.000+02:00
diff --git a/ggml/src/ggml-cuda/common.cuh b/ggml/src/ggml-cuda/common.cuh
@@ -263,7 +263,11 @@ static bool fp16_mma_hardware_available(const int cc) {
 }
 
 static bool bf16_mma_hardware_available(const int cc) {
-    return GGML_CUDA_CC_IS_NVIDIA(cc) && cc >= GGML_CUDA_CC_AMPERE;
+    return GGML_CUDA_CC_IS_NVIDIA(cc) && cc >= GGML_CUDA_CC_AMPERE || GGML_CUDA_CC_IS_CDNA(cc) || cc >= GGML_CUDA_CC_RDNA3;
+}
+
+static bool fp32_mma_hardware_available(const int cc) {
+    return GGML_CUDA_CC_IS_CDNA(cc);
 }
 
 // Volta technically had FP16 tensor cores but they work very differently compared to Turing and later.
diff --git a/ggml/src/ggml-cuda/mmv.cu b/ggml/src/ggml-cuda/mmv.cu
@@ -456,6 +456,8 @@ bool ggml_cuda_should_use_mmv(enum ggml_type type, int cc, const int64_t * src0_
                     return ne11 <= 4;
                 }
                 return ne11 <= 3;
+            } else if (fp32_mma_hardware_available(cc)) {
+                return ne11 <= 3;
             }
             return ne11 <= 8;
         case GGML_TYPE_F16:
@@ -468,6 +470,8 @@ bool ggml_cuda_should_use_mmv(enum ggml_type type, int cc, const int64_t * src0_
                     return src0_small && ne11 <= 3;
                 }
                 return ne11 <= 8;
+            } else if (fp16_mma_hardware_available(cc)) {
+                return ne11 <= 2;
             }
             return ne11 <= 8;
         case GGML_TYPE_BF16:
@@ -480,6 +484,8 @@ bool ggml_cuda_should_use_mmv(enum ggml_type type, int cc, const int64_t * src0_
                     return src0_small && ne11 <= 3;
                 }
                 return ne11 <= 8;
+            } else if (bf16_mma_hardware_available(cc)) {
+                return ne11 <= 3;
             }
             return ne11 <= 8;
         default:

Original file line number	Diff line number	Diff line change
`@@ -263,7 +263,11 @@ static bool fp16_mma_hardware_available(const int cc) {`
`263`	`263`	`}`
`264`	`264`
`265`	`265`	`static bool bf16_mma_hardware_available(const int cc) {`
`266`		`- return GGML_CUDA_CC_IS_NVIDIA(cc) && cc >= GGML_CUDA_CC_AMPERE;`
	`266`	`+ return GGML_CUDA_CC_IS_NVIDIA(cc) && cc >= GGML_CUDA_CC_AMPERE \|\| GGML_CUDA_CC_IS_CDNA(cc) \|\| cc >= GGML_CUDA_CC_RDNA3;`
	`267`	`+}`
	`268`	`+`
	`269`	`+static bool fp32_mma_hardware_available(const int cc) {`
	`270`	`+ return GGML_CUDA_CC_IS_CDNA(cc);`
`267`	`271`	`}`
`268`	`272`
`269`	`273`	`// Volta technically had FP16 tensor cores but they work very differently compared to Turing and later.`
Original file line number	Diff line number	Diff line change
`@@ -456,6 +456,8 @@ bool ggml_cuda_should_use_mmv(enum ggml_type type, int cc, const int64_t * src0_`
`456`	`456`	`return ne11 <= 4;`
`457`	`457`	`}`
`458`	`458`	`return ne11 <= 3;`
	`459`	`+ } else if (fp32_mma_hardware_available(cc)) {`
	`460`	`+ return ne11 <= 3;`
`459`	`461`	`}`
`460`	`462`	`return ne11 <= 8;`
`461`	`463`	`case GGML_TYPE_F16:`
`@@ -468,6 +470,8 @@ bool ggml_cuda_should_use_mmv(enum ggml_type type, int cc, const int64_t * src0_`
`468`	`470`	`return src0_small && ne11 <= 3;`
`469`	`471`	`}`
`470`	`472`	`return ne11 <= 8;`
	`473`	`+ } else if (fp16_mma_hardware_available(cc)) {`
	`474`	`+ return ne11 <= 2;`
`471`	`475`	`}`
`472`	`476`	`return ne11 <= 8;`
`473`	`477`	`case GGML_TYPE_BF16:`
`@@ -480,6 +484,8 @@ bool ggml_cuda_should_use_mmv(enum ggml_type type, int cc, const int64_t * src0_`
`480`	`484`	`return src0_small && ne11 <= 3;`
`481`	`485`	`}`
`482`	`486`	`return ne11 <= 8;`
	`487`	`+ } else if (bf16_mma_hardware_available(cc)) {`
	`488`	`+ return ne11 <= 3;`
`483`	`489`	`}`
`484`	`490`	`return ne11 <= 8;`
`485`	`491`	`default:`