Skip to content

AArch64 status

[bot] vpirogov edited this page Mar 5, 2026 · 597 revisions

AArch64 Testing Status

Unit test results

c6g

✅ unit tests passed

c7g

✅ unit tests passed

c8g

✅ unit tests passed

Performance test results

c7g

problem oneDNN (v3.9) time(ms) oneDNN (967eab) time(ms) speedup (>1 is faster)
eltwise alg=exp--mode=P --max-ms-per-prb=300 --eltwise --alg=exp --alpha=0 --beta=0 384x384
0.0103 0.00708 $${\color{green}1.45\times}$$
eltwise alg=exp-dst--mode=P --max-ms-per-prb=300 --eltwise --alg=exp-dst --alpha=0 --beta=0 384x384
0.0103 0.00708 $${\color{green}1.45\times}$$
eltwise alg=exp--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=exp --alpha=0 --beta=0 384x384
0.0103 0.00708 $${\color{green}1.45\times}$$
eltwise alg=exp-dst--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=exp-dst --alpha=0 --beta=0 384x384
0.0103 0.00708 $${\color{green}1.45\times}$$
eltwise alg=elu--mode=P --max-ms-per-prb=300 --eltwise --alg=elu --alpha=-2 --beta=0 384x384
0.0107 0.0083 $${\color{green}1.29\times}$$
eltwise alg=swish--mode=P --max-ms-per-prb=300 --eltwise --alg=swish --alpha=-2 --beta=0 384x384
0.0181 0.0129 $${\color{green}1.4\times}$$
eltwise alg=elu--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=elu --alpha=-2 --beta=0 384x384
0.0107 0.0083 $${\color{green}1.29\times}$$
eltwise alg=swish--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=swish --alpha=-2 --beta=0 384x384
0.0181 0.0129 $${\color{green}1.4\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=ab --dtag=Ab8a 384x384
0.00366 0.00415 $${\color{red}0.882\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=ba --dtag=Ab4a 384x384
0.00488 0.00537 $${\color{red}0.909\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ab --dtag=BA8b4a 384x384
0.00854 0.00537 $${\color{green}1.59\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ab --dtag=BA4b4a 384x384
0.00928 0.00586 $${\color{green}1.58\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA8b4a 384x384
0.0083 0.00562 $${\color{green}1.48\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA4b4a 384x384
0.0083 0.00562 $${\color{green}1.48\times}$$
reorder sdt=bf16 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=bf16 --ddt=f32 --stag=BA8b4a --dtag=ba 384x384
0.00684 0.00342 $${\color{green}2\times}$$
reorder sdt=bf16 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=bf16 --ddt=f32 --stag=BA4b4a --dtag=ba 384x384
0.00684 0.00342 $${\color{green}2\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=abx --dtag=abx 8x256x15x15
0.0115 0.00415 $${\color{green}2.76\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=axb 8x256x15x15
0.0115 0.00415 $${\color{green}2.76\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x15x15
0.0159 0.0142 $${\color{green}1.12\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x15x15
0.0154 0.00806 $${\color{green}1.91\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.0115 0.00415 $${\color{green}2.76\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.0134 0.00464 $${\color{green}2.89\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.0129 0.00488 $${\color{green}2.65\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.0115 0.00415 $${\color{green}2.76\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=axb 8x256x15x15
0.0208 0.0146 $${\color{green}1.42\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x15x15
0.0425 0.0176 $${\color{green}2.42\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x15x15
0.0437 0.0186 $${\color{green}2.36\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.0208 0.0146 $${\color{green}1.42\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.0432 0.0149 $${\color{green}2.9\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.042 0.0149 $${\color{green}2.82\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.0208 0.0146 $${\color{green}1.42\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=abx --dtag=abx 8x256x15x15
0.0142 0.00781 $${\color{green}1.81\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=axb 8x256x15x15
0.0139 0.00781 $${\color{green}1.78\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x15x15
0.0254 0.0083 $${\color{green}3.06\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x15x15
0.0264 0.00928 $${\color{green}2.84\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.0142 0.00781 $${\color{green}1.81\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.0256 0.00781 $${\color{green}3.28\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.0251 0.00806 $${\color{green}3.12\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.0142 0.00781 $${\color{green}1.81\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=abx --dtag=abx 8x256x15x15
0.011 0.00415 $${\color{green}2.65\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=axb 8x256x15x15
0.011 0.00415 $${\color{green}2.65\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x15x15
0.0134 0.0061 $${\color{green}2.2\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x15x15
0.0142 0.00635 $${\color{green}2.23\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.011 0.00415 $${\color{green}2.65\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.0132 0.00439 $${\color{green}3\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.0129 0.00439 $${\color{green}2.94\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.011 0.00415 $${\color{green}2.65\times}$$

c8g

problem oneDNN (v3.9) time(ms) oneDNN (967eab) time(ms) speedup (>1 is faster)
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 112x2048:2048x1000-n"resnet:ip1*1"
2.03 0.549 $${\color{green}3.69\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 64x2048:2048x1000-n"resnet-sparse:ip1*1"
0.881 0.315 $${\color{green}2.8\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 12x128x64:12x64x128-n"encoder:QK-matmul:12"
0.115 0.0298 $${\color{green}3.84\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 12x128x128:12x128x64-n"encoder:WV-matmul:12"
0.09 0.03 $${\color{green}3\times}$$
matmul dt=s8:s8:f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 12x128x128:12x128x64-n"encoder:WV-matmul:12"
0.208 0.229 $${\color{red}0.908\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 1536x128x64:1536x64x128-n"encoder:QK-matmul:12"
12.5 3.77 $${\color{green}3.31\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 1536x128x128:1536x128x64-n"encoder:WV-matmul:12"
8.91 3.7 $${\color{green}2.41\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --attr-fpmath=bf16 112x2048:2048x1000-n"resnet:ip1*1"
2.03 0.55 $${\color{green}3.68\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --attr-fpmath=bf16 64x2048:2048x1000-n"resnet-sparse:ip1*1"
0.881 0.315 $${\color{green}2.8\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 12x128x64:12x64x128-n"encoder:QK-matmul:12"
0.116 0.0298 $${\color{green}3.91\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 12x128x128:12x128x64-n"encoder:WV-matmul:12"
0.0901 0.03 $${\color{green}3\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 1536x128x64:1536x64x128-n"encoder:QK-matmul:12"
12.5 3.77 $${\color{green}3.32\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 1536x128x128:1536x128x64-n"encoder:WV-matmul:12"
8.93 3.7 $${\color{green}2.41\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1"
31.5 12 $${\color{green}2.62\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1"
31.5 12.1 $${\color{green}2.61\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1"
33.2 12.1 $${\color{green}2.75\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1"
33.5 12.1 $${\color{green}2.77\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
41.1 12.1 $${\color{green}3.41\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
41.1 12.1 $${\color{green}3.41\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
41.1 12.1 $${\color{green}3.38\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
41.1 12.2 $${\color{green}3.38\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
7.92 3.06 $${\color{green}2.59\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
7.92 3.06 $${\color{green}2.59\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
7.98 3.08 $${\color{green}2.59\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
7.98 3.08 $${\color{green}2.59\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
24.6 13.3 $${\color{green}1.86\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
24.6 13.3 $${\color{green}1.86\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
24.7 13.3 $${\color{green}1.86\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
24.7 13.3 $${\color{green}1.85\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
6.78 3.3 $${\color{green}2.05\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
6.78 3.3 $${\color{green}2.05\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
6.8 3.33 $${\color{green}2.04\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
6.8 3.32 $${\color{green}2.05\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
25.4 14.8 $${\color{green}1.72\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
25.4 14.8 $${\color{green}1.72\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
25.5 14.9 $${\color{green}1.71\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
25.5 14.9 $${\color{green}1.71\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
11 3.69 $${\color{green}2.97\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
11 3.69 $${\color{green}2.97\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
11 3.72 $${\color{green}2.96\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
11 3.72 $${\color{green}2.96\times}$$
eltwise alg=tanh--mode=P --max-ms-per-prb=300 --eltwise --alg=tanh --alpha=0 --beta=0 384x384
0.0225 0.0171 $${\color{green}1.31\times}$$
eltwise alg=tanh-dst--mode=P --max-ms-per-prb=300 --eltwise --alg=tanh-dst --alpha=0 --beta=0 384x384
0.0225 0.0171 $${\color{green}1.31\times}$$
eltwise alg=tanh--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=tanh --alpha=0 --beta=0 384x384
0.0225 0.0171 $${\color{green}1.31\times}$$
eltwise alg=tanh-dst--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=tanh-dst --alpha=0 --beta=0 384x384
0.0225 0.0171 $${\color{green}1.31\times}$$
eltwise alg=swish--mode=P --max-ms-per-prb=300 --eltwise --alg=swish --alpha=-2 --beta=0 384x384
0.0266 0.0176 $${\color{green}1.51\times}$$
eltwise alg=swish--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=swish --alpha=-2 --beta=0 384x384
0.0266 0.0176 $${\color{green}1.51\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=ab --dtag=Ab4a 384x384
0.00562 0.00488 $${\color{green}1.15\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ab --dtag=BA4b4a 384x384
0.00732 0.00439 $${\color{green}1.67\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA8b4a 384x384
0.00708 0.00439 $${\color{green}1.61\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA4b4a 384x384
0.00708 0.00439 $${\color{green}1.61\times}$$
reorder sdt=bf16 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=bf16 --ddt=f32 --stag=BA8b4a --dtag=ba 384x384
0.00586 0.00293 $${\color{green}2\times}$$
reorder sdt=bf16 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=bf16 --ddt=f32 --stag=BA4b4a --dtag=ba 384x384
0.00586 0.00293 $${\color{green}2\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=abx --dtag=abx 8x256x15x15
0.00928 0.00415 $${\color{green}2.24\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=axb 8x256x15x15
0.00928 0.00415 $${\color{green}2.24\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x15x15
0.0122 0.00781 $${\color{green}1.56\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x15x15
0.0132 0.00684 $${\color{green}1.93\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.00928 0.00415 $${\color{green}2.24\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.012 0.00439 $${\color{green}2.72\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.0117 0.00464 $${\color{green}2.53\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.00928 0.00415 $${\color{green}2.24\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=axb 8x256x15x15
0.0159 0.0127 $${\color{green}1.25\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x15x15
0.0374 0.0127 $${\color{green}2.94\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x15x15
0.0381 0.0134 $${\color{green}2.84\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.0159 0.0127 $${\color{green}1.25\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.0383 0.0127 $${\color{green}3.02\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.0371 0.0127 $${\color{green}2.92\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.0159 0.0128 $${\color{green}1.24\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=abx --dtag=abx 8x256x15x15
0.00952 0.00708 $${\color{green}1.34\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=axb 8x256x15x15
0.00952 0.00708 $${\color{green}1.34\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x15x15
0.0234 0.00708 $${\color{green}3.31\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x15x15
0.0242 0.00757 $${\color{green}3.19\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.00952 0.00708 $${\color{green}1.34\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.0237 0.00732 $${\color{green}3.23\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.0234 0.00732 $${\color{green}3.2\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.00952 0.00708 $${\color{green}1.34\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=abx --dtag=abx 8x256x15x15
0.00879 0.00342 $${\color{green}2.57\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=axb 8x256x15x15
0.00879 0.00342 $${\color{green}2.57\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x15x15
0.012 0.00488 $${\color{green}2.45\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x15x15
0.0122 0.00488 $${\color{green}2.5\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.00879 0.00342 $${\color{green}2.57\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.012 0.00366 $${\color{green}3.27\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.0117 0.00366 $${\color{green}3.2\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.00879 0.00342 $${\color{green}2.57\times}$$

Clone this wiki locally