09-persistent-matmul.py bugfix (#4820)

embg · web-flow · commit fe47f98bc73a · 2024-09-27T14:26:08.000-07:00
Currently we sleep between each rep for Triton kernels, but not for the
cuBLAS kernel. This may improve cuBLAS performance on fp8 due to thermal
issues.
diff --git a/python/tutorials/09-persistent-matmul.py b/python/tutorials/09-persistent-matmul.py
@@ -554,7 +554,7 @@ def bench(K, dtype, tiles_per_update, reps=10):
     if cublas is not None:
         for _ in range(reps):
             cublas_matmul(a, b)
-        time.sleep(0.01)
+            time.sleep(0.01)
     if dtype == torch.float16:
         for _ in range(reps):
             torch_matmul(a, b)