Add w8a8 kernel blocks for Qwen 2.5 7B (#9517)

kyuyeunk · web-flow · commit 199a9bd5e1fe · 2025-07-30T04:02:15.000Z
diff --git a/torch_xla/experimental/pallas_kernels/quantized_matmul_kernel.py b/torch_xla/experimental/pallas_kernels/quantized_matmul_kernel.py
@@ -328,8 +328,12 @@ def quantized_matmul_int8(
     (6, 1024, 13824, 5120, 'bfloat16', True): (1024, 768, 5120),
     (6, 1024, 1792, 5120, 'bfloat16', True): (1024, 256, 5120),
     (6, 1024, 28672, 4096, 'bfloat16', True): (1024, 2048, 4096),
+    (6, 1024, 3584, 18944, 'bfloat16', True): (1024, 3584, 512),
+    (6, 1024, 3584, 3584, 'bfloat16', True): (1024, 512, 3584),
+    (6, 1024, 37888, 3584, 'bfloat16', True): (1024, 1024, 3584),
     (6, 1024, 4096, 14336, 'bfloat16', True): (1024, 256, 14336),
     (6, 1024, 4096, 4096, 'bfloat16', True): (1024, 512, 4096),
+    (6, 1024, 4608, 3584, 'bfloat16', True): (1024, 768, 3584),
     (6, 1024, 5120, 1280, 'bfloat16', True): (1024, 1280, 1280),
     (6, 1024, 5120, 3456, 'bfloat16', True): (1024, 1024, 3456),
     (6, 1024, 5120, 640, 'bfloat16', True): (256, 5120, 640),
@@ -344,8 +348,12 @@ def quantized_matmul_int8(
     (6, 128, 13824, 5120, 'bfloat16', True): (128, 512, 5120),
     (6, 128, 1792, 5120, 'bfloat16', True): (128, 1792, 1280),
     (6, 128, 28672, 4096, 'bfloat16', True): (128, 28672, 256),
+    (6, 128, 3584, 18944, 'bfloat16', True): (128, 256, 18944),
+    (6, 128, 3584, 3584, 'bfloat16', True): (128, 3584, 896),
+    (6, 128, 37888, 3584, 'bfloat16', True): (128, 1024, 3584),
     (6, 128, 4096, 14336, 'bfloat16', True): (128, 4096, 896),
     (6, 128, 4096, 4096, 'bfloat16', True): (128, 512, 4096),
+    (6, 128, 4608, 3584, 'bfloat16', True): (128, 768, 3584),
     (6, 128, 5120, 1280, 'bfloat16', True): (128, 1280, 1280),
     (6, 128, 5120, 3456, 'bfloat16', True): (128, 640, 3456),
     (6, 128, 5120, 640, 'bfloat16', True): (128, 2560, 640),
@@ -360,8 +368,12 @@ def quantized_matmul_int8(
     (6, 16, 13824, 5120, 'bfloat16', True): (128, 512, 5120),
     (6, 16, 1792, 5120, 'bfloat16', True): (128, 896, 2560),
     (6, 16, 28672, 4096, 'bfloat16', True): (128, 28672, 256),
+    (6, 16, 3584, 18944, 'bfloat16', True): (128, 256, 18944),
+    (6, 16, 3584, 3584, 'bfloat16', True): (128, 896, 3584),
+    (6, 16, 37888, 3584, 'bfloat16', True): (128, 1024, 3584),
     (6, 16, 4096, 14336, 'bfloat16', True): (128, 4096, 896),
     (6, 16, 4096, 4096, 'bfloat16', True): (128, 512, 4096),
+    (6, 16, 4608, 3584, 'bfloat16', True): (128, 768, 3584),
     (6, 16, 5120, 1280, 'bfloat16', True): (128, 1280, 1280),
     (6, 16, 5120, 3456, 'bfloat16', True): (128, 640, 3456),
     (6, 16, 5120, 640, 'bfloat16', True): (128, 2560, 640),
@@ -374,6 +386,10 @@ def quantized_matmul_int8(
     (6, 16, 896, 5120, 'bfloat16', True): (128, 896, 2560),
     (6, 16384, 13824, 5120, 'bfloat16', True): (2048, 1536, 5120),
     (6, 16384, 1792, 5120, 'bfloat16', True): (1024, 1792, 5120),
+    (6, 16384, 3584, 18944, 'bfloat16', True): (256, 3584, 18944),
+    (6, 16384, 3584, 3584, 'bfloat16', True): (512, 3584, 3584),
+    (6, 16384, 37888, 3584, 'bfloat16', True): (4096, 512, 3584),
+    (6, 16384, 4608, 3584, 'bfloat16', True): (512, 4608, 3584),
     (6, 16384, 5120, 1280, 'bfloat16', True): (512, 5120, 1280),
     (6, 16384, 5120, 3456, 'bfloat16', True): (512, 5120, 3456),
     (6, 16384, 5120, 640, 'bfloat16', True): (512, 5120, 640),
@@ -384,8 +400,12 @@ def quantized_matmul_int8(
     (6, 2048, 13824, 5120, 'bfloat16', True): (2048, 768, 5120),
     (6, 2048, 1792, 5120, 'bfloat16', True): (2048, 256, 5120),
     (6, 2048, 28672, 4096, 'bfloat16', True): (2048, 1024, 4096),
+    (6, 2048, 3584, 18944, 'bfloat16', True): (2048, 3584, 512),
+    (6, 2048, 3584, 3584, 'bfloat16', True): (2048, 512, 3584),
+    (6, 2048, 37888, 3584, 'bfloat16', True): (2048, 1024, 3584),
     (6, 2048, 4096, 14336, 'bfloat16', True): (2048, 4096, 512),
     (6, 2048, 4096, 4096, 'bfloat16', True): (2048, 512, 4096),
+    (6, 2048, 4608, 3584, 'bfloat16', True): (2048, 512, 3584),
     (6, 2048, 5120, 1280, 'bfloat16', True): (256, 5120, 1280),
     (6, 2048, 5120, 3456, 'bfloat16', True): (2048, 512, 3456),
     (6, 2048, 5120, 640, 'bfloat16', True): (256, 5120, 640),
@@ -400,8 +420,12 @@ def quantized_matmul_int8(
     (6, 256, 13824, 5120, 'bfloat16', True): (256, 512, 5120),
     (6, 256, 1792, 5120, 'bfloat16', True): (256, 1792, 1280),
     (6, 256, 28672, 4096, 'bfloat16', True): (256, 2048, 4096),
+    (6, 256, 3584, 18944, 'bfloat16', True): (256, 256, 18944),
+    (6, 256, 3584, 3584, 'bfloat16', True): (256, 896, 3584),
+    (6, 256, 37888, 3584, 'bfloat16', True): (256, 4736, 896),
     (6, 256, 4096, 14336, 'bfloat16', True): (256, 4096, 512),
     (6, 256, 4096, 4096, 'bfloat16', True): (256, 512, 4096),
+    (6, 256, 4608, 3584, 'bfloat16', True): (256, 768, 3584),
     (6, 256, 5120, 1280, 'bfloat16', True): (256, 2560, 1280),
     (6, 256, 5120, 3456, 'bfloat16', True): (256, 1024, 3456),
     (6, 256, 5120, 640, 'bfloat16', True): (256, 2560, 640),
@@ -416,8 +440,12 @@ def quantized_matmul_int8(
     (6, 32, 13824, 5120, 'bfloat16', True): (128, 512, 5120),
     (6, 32, 1792, 5120, 'bfloat16', True): (128, 896, 2560),
     (6, 32, 28672, 4096, 'bfloat16', True): (128, 28672, 256),
+    (6, 32, 3584, 18944, 'bfloat16', True): (128, 128, 18944),
+    (6, 32, 3584, 3584, 'bfloat16', True): (128, 896, 3584),
+    (6, 32, 37888, 3584, 'bfloat16', True): (128, 1024, 3584),
     (6, 32, 4096, 14336, 'bfloat16', True): (128, 4096, 896),
     (6, 32, 4096, 4096, 'bfloat16', True): (128, 512, 4096),
+    (6, 32, 4608, 3584, 'bfloat16', True): (128, 768, 3584),
     (6, 32, 5120, 1280, 'bfloat16', True): (128, 1280, 1280),
     (6, 32, 5120, 3456, 'bfloat16', True): (128, 640, 3456),
     (6, 32, 5120, 640, 'bfloat16', True): (128, 2560, 640),
@@ -430,6 +458,10 @@ def quantized_matmul_int8(
     (6, 32, 896, 5120, 'bfloat16', True): (128, 896, 2560),
     (6, 4096, 13824, 5120, 'bfloat16', True): (2048, 1536, 5120),
     (6, 4096, 1792, 5120, 'bfloat16', True): (512, 1792, 5120),
+    (6, 4096, 3584, 18944, 'bfloat16', True): (2048, 3584, 512),
+    (6, 4096, 3584, 3584, 'bfloat16', True): (4096, 256, 3584),
+    (6, 4096, 37888, 3584, 'bfloat16', True): (4096, 512, 3584),
+    (6, 4096, 4608, 3584, 'bfloat16', True): (4096, 512, 3584),
     (6, 4096, 5120, 1280, 'bfloat16', True): (256, 5120, 1280),
     (6, 4096, 5120, 3456, 'bfloat16', True): (4096, 512, 3456),
     (6, 4096, 5120, 640, 'bfloat16', True): (256, 5120, 640),
@@ -440,8 +472,12 @@ def quantized_matmul_int8(
     (6, 512, 13824, 5120, 'bfloat16', True): (512, 13824, 512),
     (6, 512, 1792, 5120, 'bfloat16', True): (512, 1792, 1280),
     (6, 512, 28672, 4096, 'bfloat16', True): (512, 2048, 4096),
+    (6, 512, 3584, 18944, 'bfloat16', True): (512, 256, 18944),
+    (6, 512, 3584, 3584, 'bfloat16', True): (512, 1792, 3584),
+    (6, 512, 37888, 3584, 'bfloat16', True): (512, 18944, 512),
     (6, 512, 4096, 14336, 'bfloat16', True): (512, 256, 14336),
     (6, 512, 4096, 4096, 'bfloat16', True): (512, 1024, 4096),
+    (6, 512, 4608, 3584, 'bfloat16', True): (512, 768, 3584),
     (6, 512, 5120, 1280, 'bfloat16', True): (512, 2560, 1280),
     (6, 512, 5120, 3456, 'bfloat16', True): (512, 1280, 3456),
     (6, 512, 5120, 640, 'bfloat16', True): (512, 2560, 640),
@@ -456,8 +492,12 @@ def quantized_matmul_int8(
     (6, 64, 13824, 5120, 'bfloat16', True): (128, 512, 5120),
     (6, 64, 1792, 5120, 'bfloat16', True): (128, 896, 2560),
     (6, 64, 28672, 4096, 'bfloat16', True): (128, 28672, 256),
+    (6, 64, 3584, 18944, 'bfloat16', True): (128, 256, 18944),
+    (6, 64, 3584, 3584, 'bfloat16', True): (128, 896, 3584),
+    (6, 64, 37888, 3584, 'bfloat16', True): (128, 1024, 3584),
     (6, 64, 4096, 14336, 'bfloat16', True): (128, 4096, 896),
     (6, 64, 4096, 4096, 'bfloat16', True): (128, 512, 4096),
+    (6, 64, 4608, 3584, 'bfloat16', True): (128, 768, 3584),
     (6, 64, 5120, 1280, 'bfloat16', True): (128, 1280, 1280),
     (6, 64, 5120, 3456, 'bfloat16', True): (128, 1024, 3456),
     (6, 64, 5120, 640, 'bfloat16', True): (128, 2560, 640),
@@ -470,6 +510,10 @@ def quantized_matmul_int8(
     (6, 64, 896, 5120, 'bfloat16', True): (128, 896, 2560),
     (6, 8192, 13824, 5120, 'bfloat16', True): (2048, 1536, 5120),
     (6, 8192, 1792, 5120, 'bfloat16', True): (512, 1792, 5120),
+    (6, 8192, 3584, 18944, 'bfloat16', True): (2048, 3584, 512),
+    (6, 8192, 3584, 3584, 'bfloat16', True): (4096, 512, 3584),
+    (6, 8192, 37888, 3584, 'bfloat16', True): (4096, 1024, 3584),
+    (6, 8192, 4608, 3584, 'bfloat16', True): (4096, 512, 3584),
     (6, 8192, 5120, 1280, 'bfloat16', True): (256, 5120, 1280),
     (6, 8192, 5120, 3456, 'bfloat16', True): (512, 5120, 3456),
     (6, 8192, 5120, 640, 'bfloat16', True): (512, 5120, 640),