@@ -328,8 +328,12 @@ def quantized_matmul_int8(
328
328
(6 , 1024 , 13824 , 5120 , 'bfloat16' , True ): (1024 , 768 , 5120 ),
329
329
(6 , 1024 , 1792 , 5120 , 'bfloat16' , True ): (1024 , 256 , 5120 ),
330
330
(6 , 1024 , 28672 , 4096 , 'bfloat16' , True ): (1024 , 2048 , 4096 ),
331
+ (6 , 1024 , 3584 , 18944 , 'bfloat16' , True ): (1024 , 3584 , 512 ),
332
+ (6 , 1024 , 3584 , 3584 , 'bfloat16' , True ): (1024 , 512 , 3584 ),
333
+ (6 , 1024 , 37888 , 3584 , 'bfloat16' , True ): (1024 , 1024 , 3584 ),
331
334
(6 , 1024 , 4096 , 14336 , 'bfloat16' , True ): (1024 , 256 , 14336 ),
332
335
(6 , 1024 , 4096 , 4096 , 'bfloat16' , True ): (1024 , 512 , 4096 ),
336
+ (6 , 1024 , 4608 , 3584 , 'bfloat16' , True ): (1024 , 768 , 3584 ),
333
337
(6 , 1024 , 5120 , 1280 , 'bfloat16' , True ): (1024 , 1280 , 1280 ),
334
338
(6 , 1024 , 5120 , 3456 , 'bfloat16' , True ): (1024 , 1024 , 3456 ),
335
339
(6 , 1024 , 5120 , 640 , 'bfloat16' , True ): (256 , 5120 , 640 ),
@@ -344,8 +348,12 @@ def quantized_matmul_int8(
344
348
(6 , 128 , 13824 , 5120 , 'bfloat16' , True ): (128 , 512 , 5120 ),
345
349
(6 , 128 , 1792 , 5120 , 'bfloat16' , True ): (128 , 1792 , 1280 ),
346
350
(6 , 128 , 28672 , 4096 , 'bfloat16' , True ): (128 , 28672 , 256 ),
351
+ (6 , 128 , 3584 , 18944 , 'bfloat16' , True ): (128 , 256 , 18944 ),
352
+ (6 , 128 , 3584 , 3584 , 'bfloat16' , True ): (128 , 3584 , 896 ),
353
+ (6 , 128 , 37888 , 3584 , 'bfloat16' , True ): (128 , 1024 , 3584 ),
347
354
(6 , 128 , 4096 , 14336 , 'bfloat16' , True ): (128 , 4096 , 896 ),
348
355
(6 , 128 , 4096 , 4096 , 'bfloat16' , True ): (128 , 512 , 4096 ),
356
+ (6 , 128 , 4608 , 3584 , 'bfloat16' , True ): (128 , 768 , 3584 ),
349
357
(6 , 128 , 5120 , 1280 , 'bfloat16' , True ): (128 , 1280 , 1280 ),
350
358
(6 , 128 , 5120 , 3456 , 'bfloat16' , True ): (128 , 640 , 3456 ),
351
359
(6 , 128 , 5120 , 640 , 'bfloat16' , True ): (128 , 2560 , 640 ),
@@ -360,8 +368,12 @@ def quantized_matmul_int8(
360
368
(6 , 16 , 13824 , 5120 , 'bfloat16' , True ): (128 , 512 , 5120 ),
361
369
(6 , 16 , 1792 , 5120 , 'bfloat16' , True ): (128 , 896 , 2560 ),
362
370
(6 , 16 , 28672 , 4096 , 'bfloat16' , True ): (128 , 28672 , 256 ),
371
+ (6 , 16 , 3584 , 18944 , 'bfloat16' , True ): (128 , 256 , 18944 ),
372
+ (6 , 16 , 3584 , 3584 , 'bfloat16' , True ): (128 , 896 , 3584 ),
373
+ (6 , 16 , 37888 , 3584 , 'bfloat16' , True ): (128 , 1024 , 3584 ),
363
374
(6 , 16 , 4096 , 14336 , 'bfloat16' , True ): (128 , 4096 , 896 ),
364
375
(6 , 16 , 4096 , 4096 , 'bfloat16' , True ): (128 , 512 , 4096 ),
376
+ (6 , 16 , 4608 , 3584 , 'bfloat16' , True ): (128 , 768 , 3584 ),
365
377
(6 , 16 , 5120 , 1280 , 'bfloat16' , True ): (128 , 1280 , 1280 ),
366
378
(6 , 16 , 5120 , 3456 , 'bfloat16' , True ): (128 , 640 , 3456 ),
367
379
(6 , 16 , 5120 , 640 , 'bfloat16' , True ): (128 , 2560 , 640 ),
@@ -374,6 +386,10 @@ def quantized_matmul_int8(
374
386
(6 , 16 , 896 , 5120 , 'bfloat16' , True ): (128 , 896 , 2560 ),
375
387
(6 , 16384 , 13824 , 5120 , 'bfloat16' , True ): (2048 , 1536 , 5120 ),
376
388
(6 , 16384 , 1792 , 5120 , 'bfloat16' , True ): (1024 , 1792 , 5120 ),
389
+ (6 , 16384 , 3584 , 18944 , 'bfloat16' , True ): (256 , 3584 , 18944 ),
390
+ (6 , 16384 , 3584 , 3584 , 'bfloat16' , True ): (512 , 3584 , 3584 ),
391
+ (6 , 16384 , 37888 , 3584 , 'bfloat16' , True ): (4096 , 512 , 3584 ),
392
+ (6 , 16384 , 4608 , 3584 , 'bfloat16' , True ): (512 , 4608 , 3584 ),
377
393
(6 , 16384 , 5120 , 1280 , 'bfloat16' , True ): (512 , 5120 , 1280 ),
378
394
(6 , 16384 , 5120 , 3456 , 'bfloat16' , True ): (512 , 5120 , 3456 ),
379
395
(6 , 16384 , 5120 , 640 , 'bfloat16' , True ): (512 , 5120 , 640 ),
@@ -384,8 +400,12 @@ def quantized_matmul_int8(
384
400
(6 , 2048 , 13824 , 5120 , 'bfloat16' , True ): (2048 , 768 , 5120 ),
385
401
(6 , 2048 , 1792 , 5120 , 'bfloat16' , True ): (2048 , 256 , 5120 ),
386
402
(6 , 2048 , 28672 , 4096 , 'bfloat16' , True ): (2048 , 1024 , 4096 ),
403
+ (6 , 2048 , 3584 , 18944 , 'bfloat16' , True ): (2048 , 3584 , 512 ),
404
+ (6 , 2048 , 3584 , 3584 , 'bfloat16' , True ): (2048 , 512 , 3584 ),
405
+ (6 , 2048 , 37888 , 3584 , 'bfloat16' , True ): (2048 , 1024 , 3584 ),
387
406
(6 , 2048 , 4096 , 14336 , 'bfloat16' , True ): (2048 , 4096 , 512 ),
388
407
(6 , 2048 , 4096 , 4096 , 'bfloat16' , True ): (2048 , 512 , 4096 ),
408
+ (6 , 2048 , 4608 , 3584 , 'bfloat16' , True ): (2048 , 512 , 3584 ),
389
409
(6 , 2048 , 5120 , 1280 , 'bfloat16' , True ): (256 , 5120 , 1280 ),
390
410
(6 , 2048 , 5120 , 3456 , 'bfloat16' , True ): (2048 , 512 , 3456 ),
391
411
(6 , 2048 , 5120 , 640 , 'bfloat16' , True ): (256 , 5120 , 640 ),
@@ -400,8 +420,12 @@ def quantized_matmul_int8(
400
420
(6 , 256 , 13824 , 5120 , 'bfloat16' , True ): (256 , 512 , 5120 ),
401
421
(6 , 256 , 1792 , 5120 , 'bfloat16' , True ): (256 , 1792 , 1280 ),
402
422
(6 , 256 , 28672 , 4096 , 'bfloat16' , True ): (256 , 2048 , 4096 ),
423
+ (6 , 256 , 3584 , 18944 , 'bfloat16' , True ): (256 , 256 , 18944 ),
424
+ (6 , 256 , 3584 , 3584 , 'bfloat16' , True ): (256 , 896 , 3584 ),
425
+ (6 , 256 , 37888 , 3584 , 'bfloat16' , True ): (256 , 4736 , 896 ),
403
426
(6 , 256 , 4096 , 14336 , 'bfloat16' , True ): (256 , 4096 , 512 ),
404
427
(6 , 256 , 4096 , 4096 , 'bfloat16' , True ): (256 , 512 , 4096 ),
428
+ (6 , 256 , 4608 , 3584 , 'bfloat16' , True ): (256 , 768 , 3584 ),
405
429
(6 , 256 , 5120 , 1280 , 'bfloat16' , True ): (256 , 2560 , 1280 ),
406
430
(6 , 256 , 5120 , 3456 , 'bfloat16' , True ): (256 , 1024 , 3456 ),
407
431
(6 , 256 , 5120 , 640 , 'bfloat16' , True ): (256 , 2560 , 640 ),
@@ -416,8 +440,12 @@ def quantized_matmul_int8(
416
440
(6 , 32 , 13824 , 5120 , 'bfloat16' , True ): (128 , 512 , 5120 ),
417
441
(6 , 32 , 1792 , 5120 , 'bfloat16' , True ): (128 , 896 , 2560 ),
418
442
(6 , 32 , 28672 , 4096 , 'bfloat16' , True ): (128 , 28672 , 256 ),
443
+ (6 , 32 , 3584 , 18944 , 'bfloat16' , True ): (128 , 128 , 18944 ),
444
+ (6 , 32 , 3584 , 3584 , 'bfloat16' , True ): (128 , 896 , 3584 ),
445
+ (6 , 32 , 37888 , 3584 , 'bfloat16' , True ): (128 , 1024 , 3584 ),
419
446
(6 , 32 , 4096 , 14336 , 'bfloat16' , True ): (128 , 4096 , 896 ),
420
447
(6 , 32 , 4096 , 4096 , 'bfloat16' , True ): (128 , 512 , 4096 ),
448
+ (6 , 32 , 4608 , 3584 , 'bfloat16' , True ): (128 , 768 , 3584 ),
421
449
(6 , 32 , 5120 , 1280 , 'bfloat16' , True ): (128 , 1280 , 1280 ),
422
450
(6 , 32 , 5120 , 3456 , 'bfloat16' , True ): (128 , 640 , 3456 ),
423
451
(6 , 32 , 5120 , 640 , 'bfloat16' , True ): (128 , 2560 , 640 ),
@@ -430,6 +458,10 @@ def quantized_matmul_int8(
430
458
(6 , 32 , 896 , 5120 , 'bfloat16' , True ): (128 , 896 , 2560 ),
431
459
(6 , 4096 , 13824 , 5120 , 'bfloat16' , True ): (2048 , 1536 , 5120 ),
432
460
(6 , 4096 , 1792 , 5120 , 'bfloat16' , True ): (512 , 1792 , 5120 ),
461
+ (6 , 4096 , 3584 , 18944 , 'bfloat16' , True ): (2048 , 3584 , 512 ),
462
+ (6 , 4096 , 3584 , 3584 , 'bfloat16' , True ): (4096 , 256 , 3584 ),
463
+ (6 , 4096 , 37888 , 3584 , 'bfloat16' , True ): (4096 , 512 , 3584 ),
464
+ (6 , 4096 , 4608 , 3584 , 'bfloat16' , True ): (4096 , 512 , 3584 ),
433
465
(6 , 4096 , 5120 , 1280 , 'bfloat16' , True ): (256 , 5120 , 1280 ),
434
466
(6 , 4096 , 5120 , 3456 , 'bfloat16' , True ): (4096 , 512 , 3456 ),
435
467
(6 , 4096 , 5120 , 640 , 'bfloat16' , True ): (256 , 5120 , 640 ),
@@ -440,8 +472,12 @@ def quantized_matmul_int8(
440
472
(6 , 512 , 13824 , 5120 , 'bfloat16' , True ): (512 , 13824 , 512 ),
441
473
(6 , 512 , 1792 , 5120 , 'bfloat16' , True ): (512 , 1792 , 1280 ),
442
474
(6 , 512 , 28672 , 4096 , 'bfloat16' , True ): (512 , 2048 , 4096 ),
475
+ (6 , 512 , 3584 , 18944 , 'bfloat16' , True ): (512 , 256 , 18944 ),
476
+ (6 , 512 , 3584 , 3584 , 'bfloat16' , True ): (512 , 1792 , 3584 ),
477
+ (6 , 512 , 37888 , 3584 , 'bfloat16' , True ): (512 , 18944 , 512 ),
443
478
(6 , 512 , 4096 , 14336 , 'bfloat16' , True ): (512 , 256 , 14336 ),
444
479
(6 , 512 , 4096 , 4096 , 'bfloat16' , True ): (512 , 1024 , 4096 ),
480
+ (6 , 512 , 4608 , 3584 , 'bfloat16' , True ): (512 , 768 , 3584 ),
445
481
(6 , 512 , 5120 , 1280 , 'bfloat16' , True ): (512 , 2560 , 1280 ),
446
482
(6 , 512 , 5120 , 3456 , 'bfloat16' , True ): (512 , 1280 , 3456 ),
447
483
(6 , 512 , 5120 , 640 , 'bfloat16' , True ): (512 , 2560 , 640 ),
@@ -456,8 +492,12 @@ def quantized_matmul_int8(
456
492
(6 , 64 , 13824 , 5120 , 'bfloat16' , True ): (128 , 512 , 5120 ),
457
493
(6 , 64 , 1792 , 5120 , 'bfloat16' , True ): (128 , 896 , 2560 ),
458
494
(6 , 64 , 28672 , 4096 , 'bfloat16' , True ): (128 , 28672 , 256 ),
495
+ (6 , 64 , 3584 , 18944 , 'bfloat16' , True ): (128 , 256 , 18944 ),
496
+ (6 , 64 , 3584 , 3584 , 'bfloat16' , True ): (128 , 896 , 3584 ),
497
+ (6 , 64 , 37888 , 3584 , 'bfloat16' , True ): (128 , 1024 , 3584 ),
459
498
(6 , 64 , 4096 , 14336 , 'bfloat16' , True ): (128 , 4096 , 896 ),
460
499
(6 , 64 , 4096 , 4096 , 'bfloat16' , True ): (128 , 512 , 4096 ),
500
+ (6 , 64 , 4608 , 3584 , 'bfloat16' , True ): (128 , 768 , 3584 ),
461
501
(6 , 64 , 5120 , 1280 , 'bfloat16' , True ): (128 , 1280 , 1280 ),
462
502
(6 , 64 , 5120 , 3456 , 'bfloat16' , True ): (128 , 1024 , 3456 ),
463
503
(6 , 64 , 5120 , 640 , 'bfloat16' , True ): (128 , 2560 , 640 ),
@@ -470,6 +510,10 @@ def quantized_matmul_int8(
470
510
(6 , 64 , 896 , 5120 , 'bfloat16' , True ): (128 , 896 , 2560 ),
471
511
(6 , 8192 , 13824 , 5120 , 'bfloat16' , True ): (2048 , 1536 , 5120 ),
472
512
(6 , 8192 , 1792 , 5120 , 'bfloat16' , True ): (512 , 1792 , 5120 ),
513
+ (6 , 8192 , 3584 , 18944 , 'bfloat16' , True ): (2048 , 3584 , 512 ),
514
+ (6 , 8192 , 3584 , 3584 , 'bfloat16' , True ): (4096 , 512 , 3584 ),
515
+ (6 , 8192 , 37888 , 3584 , 'bfloat16' , True ): (4096 , 1024 , 3584 ),
516
+ (6 , 8192 , 4608 , 3584 , 'bfloat16' , True ): (4096 , 512 , 3584 ),
473
517
(6 , 8192 , 5120 , 1280 , 'bfloat16' , True ): (256 , 5120 , 1280 ),
474
518
(6 , 8192 , 5120 , 3456 , 'bfloat16' , True ): (512 , 5120 , 3456 ),
475
519
(6 , 8192 , 5120 , 640 , 'bfloat16' , True ): (512 , 5120 , 640 ),
0 commit comments