From 9b0d47d0065854f6881d57085220df61f6565485 Mon Sep 17 00:00:00 2001
From: "Tiotto, Ettore" <ettore.tiotto@intel.com>
Date: Wed, 13 Nov 2024 15:50:46 +0000
Subject: [PATCH 01/13] Codegen for tritongpu.upcast_mxfp

Signed-off-by: Tiotto, Ettore <ettore.tiotto@intel.com>
---
 lib/Dialect/TritonGPU/IR/Ops.cpp              | 20 ++++-
 .../lib/TritonIntelGPUToLLVM/CMakeLists.txt   |  1 +
 .../PatternTritonGPUOpToLLVM.h                |  5 ++
 .../TritonIntelGPUToLLVM/PipelineManager.h    |  2 +
 .../TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp | 83 +++++++++++++++++++
 5 files changed, 109 insertions(+), 2 deletions(-)
 create mode 100644 third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp

diff --git a/lib/Dialect/TritonGPU/IR/Ops.cpp b/lib/Dialect/TritonGPU/IR/Ops.cpp
index 991fe5ba06..d8bf2455fe 100644
--- a/lib/Dialect/TritonGPU/IR/Ops.cpp
+++ b/lib/Dialect/TritonGPU/IR/Ops.cpp
@@ -107,8 +107,24 @@ LogicalResult UpcastMXFPOp::inferReturnTypes(
   auto encoding = xTy.getEncoding();
 
   if (typeEncoded == ScaleDotElemType::E2M1) {
-    RankedTensorType retTy;
-
+    auto oldEncoding = cast<DotOperandEncodingAttr>(encoding);
+    auto parentEncoding = oldEncoding.getParent();
+
+    // Note: For Intel the dot operands layout's kWidth parameter must
+    // match the parent's dpas layout opsPerChannel. Given that the kWidth
+    // parameter for the result dot layout is going to be twice the kWidth
+    // parameter of the operand, we cannot reuse the operand's parent dpas
+    // layout and we need to materialize a new dpas encoding.
+    if (auto dpasEncoding = dyn_cast<intel::DpasEncodingAttr>(parentEncoding))
+      parentEncoding = intel::DpasEncodingAttr::get(
+          ctx, dpasEncoding.getRepeatCount(), dpasEncoding.getSystolicDepth(),
+          dpasEncoding.getExecutionSize(), dpasEncoding.getOpsPerChannel() * 2,
+          dpasEncoding.getWarpsPerCTA(), dpasEncoding.getRepCluster(),
+          dpasEncoding.getSubGroupSize());
+
+    auto newVEncoding =
+        DotOperandEncodingAttr::get(ctx, oldEncoding.getOpIdx(), parentEncoding,
+                                    oldEncoding.getKWidth() * 2);
     auto newShape = SmallVector<int64_t>(xShape);
     if (!encoding) {
       newShape.back() *= 2;
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/CMakeLists.txt b/third_party/intel/lib/TritonIntelGPUToLLVM/CMakeLists.txt
index 4e86cbd2f2..211c2b185a 100644
--- a/third_party/intel/lib/TritonIntelGPUToLLVM/CMakeLists.txt
+++ b/third_party/intel/lib/TritonIntelGPUToLLVM/CMakeLists.txt
@@ -24,6 +24,7 @@ add_triton_library(TritonIntelGPUToLLVM
     TritonGPUToLLVM.cpp
     TritonOpsToLLVM.cpp
     TypeConverter.cpp
+    UpcastMXFPToLLVM.cpp
     Utility.cpp
     ViewOpToLLVM.cpp
 
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/PatternTritonGPUOpToLLVM.h b/third_party/intel/lib/TritonIntelGPUToLLVM/PatternTritonGPUOpToLLVM.h
index aca8430be1..dd361daf71 100644
--- a/third_party/intel/lib/TritonIntelGPUToLLVM/PatternTritonGPUOpToLLVM.h
+++ b/third_party/intel/lib/TritonIntelGPUToLLVM/PatternTritonGPUOpToLLVM.h
@@ -41,6 +41,11 @@ void populateElementwiseOpToLLVMPatterns(
     ModuleAxisInfoAnalysis &axisInfoAnalysis, const TargetInfoBase &targetInfo,
     PatternBenefit benefit);
 
+void populateUpcastMXFPToLLVMPatterns(LLVMTypeConverter &typeConverter,
+                                      RewritePatternSet &patterns,
+                                      const TargetInfo &targetInfo,
+                                      PatternBenefit benefit);
+
 void populateBF16CastsLLVMPatterns(LLVMTypeConverter &typeConverter,
                                    RewritePatternSet &patterns,
                                    PatternBenefit benefit);
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/PipelineManager.h b/third_party/intel/lib/TritonIntelGPUToLLVM/PipelineManager.h
index 7bc577a2b7..102b2c9169 100644
--- a/third_party/intel/lib/TritonIntelGPUToLLVM/PipelineManager.h
+++ b/third_party/intel/lib/TritonIntelGPUToLLVM/PipelineManager.h
@@ -251,6 +251,8 @@ class TritonGPUToLLVMPipelineManager {
                                                 targetInfo, benefit);
       intel::populateMakeRangeOpToLLVMPattern(typeConverter, targetInfo,
                                               patterns, benefit);
+      intel::populateUpcastMXFPToLLVMPatterns(typeConverter, patterns,
+                                              targetInfo, benefit);
     }
 
     intel::populateSPMDOpToLLVMPattern(typeConverter, patterns, targetInfo,
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp b/third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp
new file mode 100644
index 0000000000..59d90e2930
--- /dev/null
+++ b/third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp
@@ -0,0 +1,83 @@
+#include "PatternTritonGPUOpToLLVM.h"
+
+#include "mlir/Conversion/LLVMCommon/Pattern.h"
+#include "mlir/IR/BuiltinOps.h"
+#include "mlir/IR/TypeUtilities.h"
+#include "mlir/IR/ValueRange.h"
+#include "mlir/Transforms/DialectConversion.h"
+#include "triton/Conversion/TritonGPUToLLVM/Utility.h"
+#include "triton/Dialect/Triton/IR/Dialect.h"
+#include "llvm/ADT/STLExtras.h"
+#include "llvm/ADT/SmallVector.h"
+#include <array>
+
+using namespace mlir;
+using namespace mlir::triton;
+using namespace mlir::triton::gpu;
+
+namespace {
+
+class UpcastMXFPOpPattern : public ConvertOpToLLVMPattern<UpcastMXFPOp> {
+private:
+  const TargetInfoBase &targetInfo;
+
+public:
+  UpcastMXFPOpPattern(LLVMTypeConverter &typeConverter,
+                      const TargetInfoBase &targetInfo, PatternBenefit benefit)
+      : ConvertOpToLLVMPattern<UpcastMXFPOp>(typeConverter, benefit),
+        targetInfo(targetInfo) {}
+
+  LogicalResult
+  matchAndRewrite(UpcastMXFPOp op, OpAdaptor adaptor,
+                  ConversionPatternRewriter &rewriter) const override {
+    Location loc = op.getLoc();
+    auto operands = adaptor.getOperands();
+    SmallVector<Value> xVals = unpackLLElements(loc, operands[0], rewriter);
+    SmallVector<Value> scaleVals = unpackLLElements(loc, operands[1], rewriter);
+    ScaleDotElemType fpType = op.getFpType();
+
+    Value tid = tid_val();
+    auto mod = op->getParentOfType<ModuleOp>();
+    Value warpSize =
+        i32_val(triton::gpu::TritonGPUDialect::getThreadsPerWarp(mod));
+    Value warpId = udiv(tid, warpSize);
+    Value laneId = urem(tid, warpSize);
+
+    if (fpType == ScaleDotElemType::E2M1)
+      xVals = LLVM::convertMxfp4x2ToBf16x2(rewriter, loc, xVals);
+
+    // Each thread owns elements of 4 mxfp vectors so we need 4 scales
+    // Letting c = tid / 4 * 2, we need the elements from threads c, c + 1, c +
+    // 16, c + 17
+    auto c = mul(udiv(laneId, i32_val(4)), i32_val(2));
+    std::array<Value, 4> ci = {c, add(c, i32_val(1)), add(c, i32_val(16)),
+                               add(c, i32_val(17))};
+
+    for (auto [i, scaleVal] : llvm::enumerate(scaleVals)) {
+      // column major as per the DotOperandEncoding(opidx=0) layout
+      auto si = std::array<Value, 4>{
+          targetInfo.shuffleIdx(rewriter, loc, scaleVal, ci[0]),
+          targetInfo.shuffleIdx(rewriter, loc, scaleVal, ci[2]),
+          targetInfo.shuffleIdx(rewriter, loc, scaleVal, ci[1]),
+          targetInfo.shuffleIdx(rewriter, loc, scaleVal, ci[3]),
+      };
+
+      for (int j = 0; j < 32; ++j) {
+        xVals[32 * i + j] =
+            LLVM::mxfpScaleBf16(rewriter, loc, xVals[32 * i + j], si[j / 8]);
+      }
+    }
+
+    Value result =
+        packLLElements(loc, getTypeConverter(), xVals, rewriter, op.getType());
+    rewriter.replaceOp(op, result);
+    return success();
+  }
+};
+} // anonymous namespace
+
+void mlir::triton::intel::populateUpcastMXFPToLLVMPatterns(
+    LLVMTypeConverter &typeConverter, RewritePatternSet &patterns,
+    const TargetInfo &targetInfo, PatternBenefit benefit) {
+  patterns.add<UpcastMXFPOpPattern>(typeConverter, targetInfo, benefit);
+}

From c690cadf13a3d098593c32c738ea920ba94dc7ff Mon Sep 17 00:00:00 2001
From: "Ling, Liyang" <liyang.ling@intel.com>
Date: Fri, 6 Dec 2024 06:18:30 +0000
Subject: [PATCH 02/13] Add DotScaled to DPAS Analysis and fix bf16 fmul

---
 python/test/unit/language/test_core.py        |   5 +-
 third_party/intel/include/Analysis/DPAS.h     |  18 ++-
 third_party/intel/lib/Analysis/DPAS.cpp       | 145 ++++++++++++------
 .../lib/TritonIntelGPUToLLVM/Utility.cpp      |  17 ++
 .../intel/lib/TritonIntelGPUToLLVM/Utility.h  |   2 +
 5 files changed, 132 insertions(+), 55 deletions(-)

diff --git a/python/test/unit/language/test_core.py b/python/test/unit/language/test_core.py
index 5e96d2d0ab..b4d3f98b19 100644
--- a/python/test/unit/language/test_core.py
+++ b/python/test/unit/language/test_core.py
@@ -3441,7 +3441,10 @@ def test_scaled_dot(M, N, K, col_a, col_b, rhs_scale, normal_type, mxfp_type, nu
         if mma == 16 and K == 64:
             pytest.skip(f"K == {K} too small for mfma {mma} in scaled_dot")
     if is_xpu():
-        pytest.skip("scaled_dot isn't supported on XPU")
+        # if "e2m1" in (normal_type, mxfp_type):
+        #     pytest.skip("scaled_dot e2m1 isn't supported on XPU")
+        if rhs_scale:
+            pytest.skip("scaled_dot with rhs_scale isn't supported on XPU")
 
     @triton.jit
     def dot_scale_kernel(a_base, stride_a0, stride_a1, a_scale, b_base, stride_b0, stride_b1, b_scale, out,
diff --git a/third_party/intel/include/Analysis/DPAS.h b/third_party/intel/include/Analysis/DPAS.h
index 3f649625d0..76929fdf86 100644
--- a/third_party/intel/include/Analysis/DPAS.h
+++ b/third_party/intel/include/Analysis/DPAS.h
@@ -24,6 +24,14 @@ class DPASAnalysis {
     FP32_FP32_TF32_TF32,
     FP16_FP16_FP16_FP16,
     BF16_BF16_BF16_BF16,
+    // data types for dot scaled.
+    FP32_FP32_BF16_FP8,
+    FP32_FP32_BF16_FP4,
+    FP32_FP32_FP8_BF16,
+    FP32_FP32_FP8_FP8,
+    FP32_FP32_FP8_FP4,
+    FP32_FP32_FP4_BF16,
+    FP32_FP32_FP4_FP8,
     U32_U32_U8_U8,
     S32_S32_S8_S8,
     NOT_APPLICABLE
@@ -40,16 +48,16 @@ class DPASAnalysis {
   Result canUseDPAS(FunctionOpInterface funcOp) const;
 
   /// Given a DotOp operation, return its DPAS engine type.
-  static DPASEngineType getDPASType(DotOp op);
+  static DPASEngineType getDPASType(Operation *op);
 
 private:
   mlir::ModuleOp mod;
 
-  /// Tracks Dot operations and their DPAS engine type.
-  std::map<DotOp, DPASEngineType> dotToDPASEngineMap;
+  /// Tracks Dot/DotScaled operations and their DPAS engine type.
+  std::map<Operation *, DPASEngineType> dotToDPASEngineMap;
 
-  /// Tracks the Dot operations contained in a function.
-  std::map<FunctionOpInterface, SmallVector<DotOp>> funcToDotMap;
+  /// Tracks the Dot/DotScaled operations contained in a function.
+  std::map<FunctionOpInterface, SmallVector<Operation *>> funcToDotMap;
 };
 
 } // namespace mlir::triton::gpu::intel
diff --git a/third_party/intel/lib/Analysis/DPAS.cpp b/third_party/intel/lib/Analysis/DPAS.cpp
index 90faf63c24..cdd2d0e449 100644
--- a/third_party/intel/lib/Analysis/DPAS.cpp
+++ b/third_party/intel/lib/Analysis/DPAS.cpp
@@ -1,5 +1,8 @@
 #include "intel/include/Analysis/DPAS.h"
 #include "intel/include/Dialect/TritonIntelGPU/IR/Dialect.h"
+#include "mlir/IR/BuiltinTypes.h"
+#include "triton/Dialect/Triton/IR/Dialect.h"
+#include "llvm/Support/Casting.h"
 
 namespace mlir::triton::gpu::intel {
 
@@ -16,19 +19,21 @@ DPASAnalysis::DPASAnalysis(Operation *root) {
   mod.walk([&](FunctionOpInterface funcOp) {
     auto it = funcToDotMap.find(funcOp);
 
-    funcOp.walk([&](DotOp dotOp) {
+    funcOp.walk([&](Operation *op) {
+      if (!isa<DotOp, DotScaledOp>(op))
+        return;
       if (it != funcToDotMap.end())
-        it->second.push_back(dotOp);
+        it->second.push_back(op);
       else
-        funcToDotMap[funcOp] = {dotOp};
+        funcToDotMap[funcOp] = {op};
 
       DPASEngineType dpasEngineType = supportDPAS
-                                          ? DPASAnalysis::getDPASType(dotOp)
+                                          ? DPASAnalysis::getDPASType(op)
                                           : DPASEngineType::NOT_APPLICABLE;
       if (dpasEngineType == DPASEngineType::FP32_FP32_TF32_TF32 &&
-          dotOp.getInputPrecision() != InputPrecision::TF32)
+          cast<DotOp>(op).getInputPrecision() != InputPrecision::TF32)
         dpasEngineType = DPASEngineType::NOT_APPLICABLE;
-      dotToDPASEngineMap[dotOp] = dpasEngineType;
+      dotToDPASEngineMap[op] = dpasEngineType;
     });
   });
 }
@@ -44,7 +49,7 @@ DPASAnalysis::canUseDPAS(FunctionOpInterface funcOp) const {
 
   // Ensure all dot operations in the function can be lowered to DPAS
   // instructions.
-  for (const DotOp &dotOp : it->second) {
+  for (Operation *dotOp : it->second) {
     DPASEngineType dpasEngineType = dotToDPASEngineMap.at(dotOp);
     if (dpasEngineType == DPASEngineType::NOT_APPLICABLE)
       return Result::False;
@@ -65,52 +70,94 @@ DPASAnalysis::canUseDPAS(FunctionOpInterface funcOp) const {
   return (threadsPerWarp == minSGSize) ? Result::True : Result::False;
 }
 
-DPASAnalysis::DPASEngineType DPASAnalysis::getDPASType(DotOp op) {
-  // d = a * b + c
-  auto aTy = cast<RankedTensorType>(op.getA().getType());
-  auto bTy = cast<RankedTensorType>(op.getB().getType());
-  auto cTy = cast<RankedTensorType>(op.getC().getType());
-  auto dTy = cast<RankedTensorType>(op.getD().getType());
-  Type aElemTy = aTy.getElementType();
-  Type bElemTy = bTy.getElementType();
-  Type cElemTy = cTy.getElementType();
-  Type dElemTy = dTy.getElementType();
-
-  assert(cElemTy == dElemTy && "Unexpected element type mismatch");
-
-  if (aElemTy != bElemTy)
-    return DPASEngineType::NOT_APPLICABLE;
-
-  if (dElemTy.isIntOrIndex()) {
-    if (dElemTy.getIntOrFloatBitWidth() == 32 &&
-        aElemTy.getIntOrFloatBitWidth() == 8)
-      return dElemTy.isSignedInteger() ? DPASEngineType::S32_S32_S8_S8
-                                       : DPASEngineType::U32_U32_U8_U8;
-    return DPASEngineType::NOT_APPLICABLE;
-  }
+DPASAnalysis::DPASEngineType DPASAnalysis::getDPASType(Operation *op) {
+  RankedTensorType aTy, bTy, cTy, dTy;
+  Type aElemTy, bElemTy, cElemTy, dElemTy;
+
+  if (auto dotOp = dyn_cast<DotOp>(op)) {
+    // d = a * b + c
+    aTy = cast<RankedTensorType>(dotOp.getA().getType());
+    bTy = cast<RankedTensorType>(dotOp.getB().getType());
+    cTy = cast<RankedTensorType>(dotOp.getC().getType());
+    dTy = cast<RankedTensorType>(dotOp.getD().getType());
+    aElemTy = aTy.getElementType();
+    bElemTy = bTy.getElementType();
+    cElemTy = cTy.getElementType();
+    dElemTy = dTy.getElementType();
+
+    assert(cElemTy == dElemTy && "Unexpected element type mismatch");
+
+    if (aElemTy != bElemTy)
+      return DPASEngineType::NOT_APPLICABLE;
+
+    if (dElemTy.isIntOrIndex()) {
+      if (dElemTy.getIntOrFloatBitWidth() == 32 &&
+          aElemTy.getIntOrFloatBitWidth() == 8)
+        return dElemTy.isSignedInteger() ? DPASEngineType::S32_S32_S8_S8
+                                         : DPASEngineType::U32_U32_U8_U8;
+      return DPASEngineType::NOT_APPLICABLE;
+    }
 
-  if (isa<FloatType>(dElemTy)) {
-    if (dElemTy.isF32()) {
-      if (aElemTy.isF16())
-        return DPASEngineType::FP32_FP32_FP16_FP16;
-      if (aElemTy.isBF16())
-        return DPASEngineType::FP32_FP32_BF16_BF16;
-      if (aElemTy.isF32() && op.getInputPrecision() == InputPrecision::TF32)
-        return DPASEngineType::FP32_FP32_TF32_TF32;
-      // For FP8XFP8->FP32, upcast to FP16
-      if (aElemTy.isFloat8E5M2())
-        return DPASEngineType::FP32_FP32_FP16_FP16;
-      if (aElemTy.isFloat8E4M3FN())
-        return DPASEngineType::FP32_FP32_FP16_FP16;
-    } else if (dElemTy.isF16()) {
-      if (aElemTy.isF16())
-        return DPASEngineType::FP16_FP16_FP16_FP16;
-    } else if (dElemTy.isBF16()) {
-      if (aElemTy.isBF16())
-        return DPASEngineType::BF16_BF16_BF16_BF16;
+    if (isa<FloatType>(dElemTy)) {
+      if (dElemTy.isF32()) {
+        if (aElemTy.isF16())
+          return DPASEngineType::FP32_FP32_FP16_FP16;
+        if (aElemTy.isBF16())
+          return DPASEngineType::FP32_FP32_BF16_BF16;
+        if (aElemTy.isF32() &&
+            dotOp.getInputPrecision() == InputPrecision::TF32)
+          return DPASEngineType::FP32_FP32_TF32_TF32;
+        // For FP8XFP8->FP32, upcast to FP16
+        if (aElemTy.isFloat8E5M2())
+          return DPASEngineType::FP32_FP32_FP16_FP16;
+        if (aElemTy.isFloat8E4M3FN())
+          return DPASEngineType::FP32_FP32_FP16_FP16;
+      } else if (dElemTy.isF16()) {
+        if (aElemTy.isF16())
+          return DPASEngineType::FP16_FP16_FP16_FP16;
+      } else if (dElemTy.isBF16()) {
+        if (aElemTy.isBF16())
+          return DPASEngineType::BF16_BF16_BF16_BF16;
+      }
     }
   }
 
+  if (auto scaledDot = dyn_cast<DotScaledOp>(op)) {
+    aTy = cast<RankedTensorType>(scaledDot.getLhs().getType());
+    bTy = cast<RankedTensorType>(scaledDot.getRhs().getType());
+    cTy = cast<RankedTensorType>(scaledDot.getC().getType());
+    dTy = cast<RankedTensorType>(scaledDot.getD().getType());
+    aElemTy = aTy.getElementType();
+    bElemTy = bTy.getElementType();
+    cElemTy = cTy.getElementType();
+    dElemTy = dTy.getElementType();
+
+    assert(cElemTy == dElemTy && "Unexpected element type mismatch");
+
+    if (isa<FloatType>(dElemTy)) {
+      if (dElemTy.isF32()) {
+        if (aElemTy.isBF16() &&
+            (bElemTy.isFloat8E4M3FN() || bElemTy.isFloat8E5M2()))
+          return DPASEngineType::FP32_FP32_BF16_FP8;
+        if (aElemTy.isBF16() && bElemTy.isFloat4E2M1FN())
+          return DPASEngineType::FP32_FP32_BF16_FP4;
+        if ((aElemTy.isFloat8E4M3FN() || aElemTy.isFloat8E5M2()) &&
+            bElemTy.isBF16())
+          return DPASEngineType::FP32_FP32_FP8_BF16;
+        if ((aElemTy.isFloat8E4M3FN() || aElemTy.isFloat8E5M2()) &&
+            (bElemTy.isFloat8E4M3FN() || bElemTy.isFloat8E5M2()))
+          return DPASEngineType::FP32_FP32_FP8_FP8;
+        if ((aElemTy.isFloat8E4M3FN() || aElemTy.isFloat8E5M2()) &&
+            bElemTy.isFloat4E2M1FN())
+          return DPASEngineType::FP32_FP32_FP8_FP4;
+        if (aElemTy.isFloat4E2M1FN() && bElemTy.isBF16())
+          return DPASEngineType::FP32_FP32_FP4_BF16;
+        if (aElemTy.isFloat4E2M1FN() &&
+            (bElemTy.isFloat8E4M3FN() || bElemTy.isFloat8E5M2()))
+          return DPASEngineType::FP32_FP32_FP4_FP8;
+      }
+    }
+  }
   return DPASEngineType::NOT_APPLICABLE;
 }
 
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.cpp b/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.cpp
index 07ab0f24a4..fc65b4fc9f 100644
--- a/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.cpp
+++ b/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.cpp
@@ -159,4 +159,21 @@ LLVM::LLVMFuncOp getSpirvPrintfDeclaration(RewriterBase &rewriter) {
   return printFunc;
 }
 
+Value mxfpScaleBf16(ConversionPatternRewriter &rewriter, Location loc, Value v,
+                    Value scale) {
+  Value vBf16 = bitcast(v, bf16_ty);
+  Value nanBf16 = bitcast(i16_val(0x7fff), bf16_ty);
+  Value scaleIsNan = icmp_eq(scale, i8_val(0xff));
+  Value scaleBf16 = bitcast(shl(zext(i16_ty, scale), i16_val(7)), bf16_ty);
+
+  Value v0 = mlir::triton::intel::convertBf16ToFp32(loc, rewriter, vBf16);
+  Value v1 = mlir::triton::intel::convertBf16ToFp32(loc, rewriter, scaleBf16);
+  auto result = rewriter.create<LLVM::FMulOp>(loc, f32_ty, v0, v1);
+  auto undefRounding = static_cast<mlir::triton::RoundingMode>(-1);
+  Value scaledBf16 = mlir::triton::intel::convertFp32ToBf16(
+      loc, rewriter, result, undefRounding);
+  // Value scaledBf16 = fmul(vBf16, scaleBf16);
+  // Account for NaN in the scale as per the mxfp specification.
+  return select(scaleIsNan, nanBf16, scaledBf16);
+};
 } // namespace mlir::LLVM::intel
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.h b/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.h
index e8ec3eef6e..7a88e564b1 100644
--- a/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.h
+++ b/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.h
@@ -127,6 +127,8 @@ static Value getModuleWarpSize(RewriterBase &rewriter, Location loc) {
   return i32_val(triton::gpu::TritonGPUDialect::getThreadsPerWarp(mod));
 }
 
+Value mxfpScaleBf16(ConversionPatternRewriter &rewriter, Location loc, Value v,
+                    Value scale);
 } // namespace mlir::LLVM::intel
 
 // -----------------------------------------------------------------------

From cfabc03d401ce5324ae46af7fa1e2319cbc10884 Mon Sep 17 00:00:00 2001
From: "Ling, Liyang" <liyang.ling@intel.com>
Date: Fri, 6 Dec 2024 08:06:44 +0000
Subject: [PATCH 03/13] Use blocked layout to lower upcast_mxfp op

---
 include/triton/Tools/Sys/GetEnv.hpp           |   3 +-
 lib/Dialect/TritonGPU/IR/Ops.cpp              |  94 +++++++--------
 python/test/unit/language/test_core.py        |   6 +-
 .../TritonIntelGPU/accelerate-matmul-pvc.mlir |   2 +-
 .../TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp |  19 +--
 .../AccelerateMatmul.cpp                      | 109 ++++++++++++------
 .../RemoveLayoutConversions.cpp               |   4 +-
 7 files changed, 127 insertions(+), 110 deletions(-)

diff --git a/include/triton/Tools/Sys/GetEnv.hpp b/include/triton/Tools/Sys/GetEnv.hpp
index 0b5534f012..4bfeb64e25 100644
--- a/include/triton/Tools/Sys/GetEnv.hpp
+++ b/include/triton/Tools/Sys/GetEnv.hpp
@@ -38,7 +38,8 @@ inline const std::set<std::string> CACHE_INVALIDATING_ENV_VARS = {
     "TRITON_INTEL_ENABLE_FIRST_LOAD_TO_SLM",
     "TRITON_INTEL_ENABLE_INSTR_SCHED",
     "TRITON_INTEL_ENABLE_POST_PROCESS_LLIR",
-    "TRITON_INTEL_REDUCE_TRANSPOSE"
+    "TRITON_INTEL_REDUCE_TRANSPOSE",
+    "TRITON_INTEL_UPCASTMXFP_DOTOP_ENCODING"
     // clang-format on
 };
 
diff --git a/lib/Dialect/TritonGPU/IR/Ops.cpp b/lib/Dialect/TritonGPU/IR/Ops.cpp
index d8bf2455fe..b0ba8da21e 100644
--- a/lib/Dialect/TritonGPU/IR/Ops.cpp
+++ b/lib/Dialect/TritonGPU/IR/Ops.cpp
@@ -50,47 +50,51 @@ LogicalResult UpcastMXFPOp::verify() {
     return success();
   }
 
-  auto dotEncoding = dyn_cast<DotOperandEncodingAttr>(layoutX);
-  if (!dotEncoding) {
-    return emitOpError("Expected a DotOperandEncodingAttr for values");
-  }
+  /// TODO: Temporarily disabled this check to allow for the blocked encoding.
+  /// we need to re-enable this check once we have the dot op encoding
+  /// UpcastMXFPOp lowering
+  // auto dotEncoding = dyn_cast<DotOperandEncodingAttr>(layoutX);
+  // if (!dotEncoding) {
+  //   return emitOpError("Expected a DotOperandEncodingAttr for values");
+  // }
   if (!isa<BlockedEncodingAttr, LinearEncodingAttr>(layoutScale)) {
     return emitOpError(
         "Expected a BlockOperandEncoding or LinearOperandEncoding "
         "for scales");
   }
 
-  if (isa<NvidiaMmaEncodingAttr>(dotEncoding.getParent())) {
-    // Necessary to keep all of the scales of a given block of values in the
-    // same warp
-    auto threadsPerWarp =
-        cast<DistributedEncodingTrait>(layoutScale).getThreadsPerWarp();
-    if (threadsPerWarp != ArrayRef<unsigned>({16, 2})) {
-      return emitOpError("Expected threads per warp to be {16, 2}");
-    }
-  }
-
-  // Change to support fp8 types
-  const auto elemsPacked = fpType == ScaleDotElemType::E2M1 ? 2 : 1;
-  // Figure out the K dimension for the input A/B. For A/B scale, the K
-  // dimension is always the last dimension.
-  const int opIdx = dotEncoding.getOpIdx();
-  const bool hasBatch = xShape.size() == 3;
-  const int kIdx = (opIdx == 0 ? 1 : 0) + hasBatch;
-
-  if (xShape[kIdx] != (32 / elemsPacked) * scaleShape.back()) {
-    return emitOpError("K dimension of first operand must be 16 times "
-                       "larger than last/K dimension of the second operand");
-  }
-
-  // Check other dimensions match too. For input A/B, we need to figure out the
-  // index for the M/N dimension. For scale, it's always {(batch), M/N, K}.
-  const int mnIdx = (opIdx == 0 ? 0 : 1) + hasBatch;
-  if (hasBatch && xShape[0] != scaleShape[0])
-    return emitOpError("batch dimension must match between operands");
-  if (xShape[mnIdx] != scaleShape[hasBatch]) {
-    return emitOpError("M/N dimension must match between operands");
-  }
+  // if (isa<NvidiaMmaEncodingAttr>(dotEncoding.getParent())) {
+  //   // Necessary to keep all of the scales of a given block of values in the
+  //   // same warp
+  //   auto threadsPerWarp =
+  //       cast<DistributedEncodingTrait>(layoutScale).getThreadsPerWarp();
+  //   if (threadsPerWarp != ArrayRef<unsigned>({16, 2})) {
+  //     return emitOpError("Expected threads per warp to be {16, 2}");
+  //   }
+  // }
+
+  // // Change to support fp8 types
+  // const auto elemsPacked = fpType == ScaleDotElemType::E2M1 ? 2 : 1;
+  // // Figure out the K dimension for the input A/B. For A/B scale, the K
+  // // dimension is always the last dimension.
+  // const int opIdx = dotEncoding.getOpIdx();
+  // const bool hasBatch = xShape.size() == 3;
+  // const int kIdx = (opIdx == 0 ? 1 : 0) + hasBatch;
+
+  // if (xShape[kIdx] != (32 / elemsPacked) * scaleShape.back()) {
+  //   return emitOpError("K dimension of first operand must be 16 times "
+  //                      "larger than last/K dimension of the second operand");
+  // }
+
+  // // Check other dimensions match too. For input A/B, we need to figure out
+  // the
+  // // index for the M/N dimension. For scale, it's always {(batch), M/N, K}.
+  // const int mnIdx = (opIdx == 0 ? 0 : 1) + hasBatch;
+  // if (hasBatch && xShape[0] != scaleShape[0])
+  //   return emitOpError("batch dimension must match between operands");
+  // if (xShape[mnIdx] != scaleShape[hasBatch]) {
+  //   return emitOpError("M/N dimension must match between operands");
+  // }
 
   return success();
 }
@@ -107,24 +111,8 @@ LogicalResult UpcastMXFPOp::inferReturnTypes(
   auto encoding = xTy.getEncoding();
 
   if (typeEncoded == ScaleDotElemType::E2M1) {
-    auto oldEncoding = cast<DotOperandEncodingAttr>(encoding);
-    auto parentEncoding = oldEncoding.getParent();
-
-    // Note: For Intel the dot operands layout's kWidth parameter must
-    // match the parent's dpas layout opsPerChannel. Given that the kWidth
-    // parameter for the result dot layout is going to be twice the kWidth
-    // parameter of the operand, we cannot reuse the operand's parent dpas
-    // layout and we need to materialize a new dpas encoding.
-    if (auto dpasEncoding = dyn_cast<intel::DpasEncodingAttr>(parentEncoding))
-      parentEncoding = intel::DpasEncodingAttr::get(
-          ctx, dpasEncoding.getRepeatCount(), dpasEncoding.getSystolicDepth(),
-          dpasEncoding.getExecutionSize(), dpasEncoding.getOpsPerChannel() * 2,
-          dpasEncoding.getWarpsPerCTA(), dpasEncoding.getRepCluster(),
-          dpasEncoding.getSubGroupSize());
-
-    auto newVEncoding =
-        DotOperandEncodingAttr::get(ctx, oldEncoding.getOpIdx(), parentEncoding,
-                                    oldEncoding.getKWidth() * 2);
+    RankedTensorType retTy;
+
     auto newShape = SmallVector<int64_t>(xShape);
     if (!encoding) {
       newShape.back() *= 2;
diff --git a/python/test/unit/language/test_core.py b/python/test/unit/language/test_core.py
index b4d3f98b19..83a3a76823 100644
--- a/python/test/unit/language/test_core.py
+++ b/python/test/unit/language/test_core.py
@@ -3441,10 +3441,8 @@ def test_scaled_dot(M, N, K, col_a, col_b, rhs_scale, normal_type, mxfp_type, nu
         if mma == 16 and K == 64:
             pytest.skip(f"K == {K} too small for mfma {mma} in scaled_dot")
     if is_xpu():
-        # if "e2m1" in (normal_type, mxfp_type):
-        #     pytest.skip("scaled_dot e2m1 isn't supported on XPU")
-        if rhs_scale:
-            pytest.skip("scaled_dot with rhs_scale isn't supported on XPU")
+        if "e2m1" in (normal_type, mxfp_type):
+            pytest.skip("scaled_dot e2m1 isn't supported on XPU")
 
     @triton.jit
     def dot_scale_kernel(a_base, stride_a0, stride_a1, a_scale, b_base, stride_b0, stride_b1, b_scale, out,
diff --git a/test/TritonIntelGPU/accelerate-matmul-pvc.mlir b/test/TritonIntelGPU/accelerate-matmul-pvc.mlir
index f75eb9947a..cd28be3fc2 100644
--- a/test/TritonIntelGPU/accelerate-matmul-pvc.mlir
+++ b/test/TritonIntelGPU/accelerate-matmul-pvc.mlir
@@ -1,4 +1,4 @@
-// RUN: triton-opt %s -split-input-file --tritonintelgpu-accelerate-matmul | FileCheck %s
+// RUN: TRITON_INTEL_UPCASTMXFP_DOTOP_ENCODING=1 triton-opt %s -split-input-file --tritonintelgpu-accelerate-matmul | FileCheck %s
 
 // CHECK: #[[$DPAS:.+]] = #triton_intel_gpu.dpas<{repeatCount = 8, systolicDepth = 8, executionSize = 16, opsPerChan = 2, threadsPerWarp = 16, warpsPerCTA = [4, 1], repCluster = [4, 1], A = [32, 16], B = [16, 16], C = [32, 16]}>
 // CHECK: #[[$DPAS_1:.+]] = #triton_intel_gpu.dpas<{repeatCount = 8, systolicDepth = 8, executionSize = 16, opsPerChan = 2, threadsPerWarp = 16, warpsPerCTA = [4, 1], repCluster = [4, 2], A = [32, 16], B = [16, 32], C = [32, 32]}>
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp b/third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp
index 59d90e2930..5702fdf094 100644
--- a/third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp
+++ b/third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp
@@ -46,25 +46,10 @@ class UpcastMXFPOpPattern : public ConvertOpToLLVMPattern<UpcastMXFPOp> {
     if (fpType == ScaleDotElemType::E2M1)
       xVals = LLVM::convertMxfp4x2ToBf16x2(rewriter, loc, xVals);
 
-    // Each thread owns elements of 4 mxfp vectors so we need 4 scales
-    // Letting c = tid / 4 * 2, we need the elements from threads c, c + 1, c +
-    // 16, c + 17
-    auto c = mul(udiv(laneId, i32_val(4)), i32_val(2));
-    std::array<Value, 4> ci = {c, add(c, i32_val(1)), add(c, i32_val(16)),
-                               add(c, i32_val(17))};
-
     for (auto [i, scaleVal] : llvm::enumerate(scaleVals)) {
-      // column major as per the DotOperandEncoding(opidx=0) layout
-      auto si = std::array<Value, 4>{
-          targetInfo.shuffleIdx(rewriter, loc, scaleVal, ci[0]),
-          targetInfo.shuffleIdx(rewriter, loc, scaleVal, ci[2]),
-          targetInfo.shuffleIdx(rewriter, loc, scaleVal, ci[1]),
-          targetInfo.shuffleIdx(rewriter, loc, scaleVal, ci[3]),
-      };
-
       for (int j = 0; j < 32; ++j) {
-        xVals[32 * i + j] =
-            LLVM::mxfpScaleBf16(rewriter, loc, xVals[32 * i + j], si[j / 8]);
+        xVals[32 * i + j] = LLVM::intel::mxfpScaleBf16(
+            rewriter, loc, xVals[32 * i + j], scaleVal);
       }
     }
 
diff --git a/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp b/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
index 94fe2aa693..e4d0951ef6 100644
--- a/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
+++ b/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
@@ -12,6 +12,7 @@
 #include "triton/Dialect/Triton/IR/Dialect.h"
 #include "triton/Dialect/Triton/IR/Utility.h"
 #include "triton/Dialect/TritonGPU/IR/Dialect.h"
+#include "triton/Tools/Sys/GetEnv.hpp"
 #include "llvm/ADT/TypeSwitch.h"
 
 #define PVC_2D_LOAD_MAXIMUM_NUMBER_OF_ROWS 32
@@ -250,6 +251,10 @@ class DecomposeScaledBlocked : public OpRewritePattern<tt::DotScaledOp> {
   }
 
 private:
+  bool upcastMXFPUseDotOpEnc =
+      mlir::triton::tools::getBoolEnv(
+          "TRITON_INTEL_UPCASTMXFP_DOTOP_ENCODING") == 1;
+
   struct OpDescriptor {
     TensorValue op;
     triton::ScaleDotElemType elemType;
@@ -269,13 +274,15 @@ class DecomposeScaledBlocked : public OpRewritePattern<tt::DotScaledOp> {
           convertUnscaledOperand<1>(bDesc, dpasEnc, newRetType, rewriter);
       return {newA, newB};
     }
-
-    assert((bDesc.scale && !aDesc.scale) && "NYI: both LHS and RHS scale");
-    TensorValue newB =
-        convertScaledOperand<1>(bDesc, dpasEnc, newRetType, mod, rewriter);
-    TensorValue newA =
-        convertUnscaledOperand<0>(aDesc, dpasEnc, newRetType, rewriter);
-    return {newA, newB};
+    if (bDesc.scale) {
+      assert(aDesc.scale == nullptr && "NYI: both LHS and RHS scale");
+      TensorValue newB =
+          convertScaledOperand<1>(bDesc, dpasEnc, newRetType, mod, rewriter);
+      TensorValue newA =
+          convertUnscaledOperand<0>(aDesc, dpasEnc, newRetType, rewriter);
+      return {newA, newB};
+    }
+    assert(false && "Both LHS and RHS unscaled");
   }
 
   template <unsigned opIdx>
@@ -291,32 +298,68 @@ class DecomposeScaledBlocked : public OpRewritePattern<tt::DotScaledOp> {
       opsPerChannel *= 2;
 
     MLIRContext *ctx = opDesc.op.getContext();
-    auto opEncoding = ttg::intel::DpasEncodingAttr::get(
-        ctx, dpasEnc.getRepeatCount(), dpasEnc.getSystolicDepth(),
-        dpasEnc.getExecutionSize(), opsPerChannel, dpasEnc.getWarpsPerCTA(),
-        dpasEnc.getRepCluster(), dpasEnc.getSubGroupSize());
-
-    auto newOpEncoding = ttg::DotOperandEncodingAttr::get(
-        ctx, opIdx, opEncoding, opEncoding.getOpsPerChannel());
-    TensorValue op =
-        createArg(opDesc.op, opDesc.elemType, newOpEncoding, rewriter);
-
-    unsigned warpSize = ttg::TritonGPUDialect::getThreadsPerWarp(mod);
-    unsigned instrShapeM = dpasEnc.getDPASInstShapeA()[1];
-    SmallVector<unsigned, 2> threadsPerWarp{instrShapeM,
-                                            warpSize / instrShapeM};
-    unsigned rank = retType.getRank();
-    int numWarps = ttg::TritonGPUDialect::getNumWarps(mod);
-    SmallVector<unsigned, 2> warpsPerCTA(rank, 1);
-    warpsPerCTA[0] = numWarps;
-    auto CTALayout = ttg::getCTALayout(retType.getEncoding());
-
-    auto newScaleEncoding =
-        ttg::BlockedEncodingAttr::get(ctx, {1, 1}, threadsPerWarp, warpsPerCTA,
-                                      newOpEncoding.getCTAOrder(), CTALayout);
-    TensorValue scale = createScale(opDesc.scale, newScaleEncoding, rewriter);
-
-    return createUpcastMxfpOp(op, scale, opDesc.elemType, rewriter);
+    if (upcastMXFPUseDotOpEnc) {
+      auto opEncoding = ttg::intel::DpasEncodingAttr::get(
+          ctx, dpasEnc.getRepeatCount(), dpasEnc.getSystolicDepth(),
+          dpasEnc.getExecutionSize(), opsPerChannel, dpasEnc.getWarpsPerCTA(),
+          dpasEnc.getRepCluster(), dpasEnc.getSubGroupSize());
+
+      auto newOpEncoding = ttg::DotOperandEncodingAttr::get(
+          ctx, opIdx, opEncoding, opEncoding.getOpsPerChannel());
+      TensorValue op =
+          createArg(opDesc.op, opDesc.elemType, newOpEncoding, rewriter);
+
+      unsigned warpSize = ttg::TritonGPUDialect::getThreadsPerWarp(mod);
+      unsigned instrShapeM = dpasEnc.getDPASInstShapeA()[1];
+      SmallVector<unsigned, 2> threadsPerWarp{instrShapeM,
+                                              warpSize / instrShapeM};
+      unsigned rank = retType.getRank();
+      int numWarps = ttg::TritonGPUDialect::getNumWarps(mod);
+      SmallVector<unsigned, 2> warpsPerCTA(rank, 1);
+      warpsPerCTA[0] = numWarps;
+      auto CTALayout = ttg::getCTALayout(retType.getEncoding());
+
+      auto newScaleEncoding = ttg::BlockedEncodingAttr::get(
+          ctx, {1, 1}, threadsPerWarp, warpsPerCTA, newOpEncoding.getCTAOrder(),
+          CTALayout);
+      TensorValue scale = createScale(opDesc.scale, newScaleEncoding, rewriter);
+
+      return createUpcastMxfpOp(op, scale, opDesc.elemType, rewriter);
+    } else {
+      auto scaleEncoding = dyn_cast<ttg::BlockedEncodingAttr>(
+          opDesc.scale.getType().getEncoding());
+      assert(scaleEncoding && "Expecting blocked encoding for scale");
+
+      // Referring to
+      // https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
+      // the scalingBlockSize should be 32 for E5M2, E4M3 and E2M1
+      unsigned scalingBlockSize = 32;
+      if (opDesc.elemType == tt::ScaleDotElemType::E2M1)
+        scalingBlockSize = 16;
+      auto newOpEncoding = ttg::BlockedEncodingAttr::get(
+          ctx, {1, scalingBlockSize}, scaleEncoding.getThreadsPerWarp(),
+          scaleEncoding.getWarpsPerCTA(), scaleEncoding.getCTAOrder(),
+          scaleEncoding.getCTALayout());
+
+      TensorValue op =
+          createArg(opDesc.op, opDesc.elemType, newOpEncoding, rewriter);
+      TensorValue scale = opDesc.scale;
+
+      auto retDpasEncoding = ttg::intel::DpasEncodingAttr::get(
+          ctx, dpasEnc.getRepeatCount(), dpasEnc.getSystolicDepth(),
+          dpasEnc.getExecutionSize(), opsPerChannel, dpasEnc.getWarpsPerCTA(),
+          dpasEnc.getRepCluster(), dpasEnc.getSubGroupSize());
+      auto retDotOpEncoding = ttg::DotOperandEncodingAttr::get(
+          ctx, opIdx, retDpasEncoding, retDpasEncoding.getOpsPerChannel());
+
+      auto upcastOp = createUpcastMxfpOp(op, scale, opDesc.elemType, rewriter);
+
+      auto retType = cast<RankedTensorType>(upcastOp.getType());
+      retType = RankedTensorType::get(
+          retType.getShape(), retType.getElementType(), retDotOpEncoding);
+      return rewriter.create<ttg::ConvertLayoutOp>(opDesc.op.getLoc(), retType,
+                                                   upcastOp);
+    }
   }
 
   template <unsigned opIdx>
diff --git a/third_party/intel/lib/TritonIntelGPUTransforms/RemoveLayoutConversions.cpp b/third_party/intel/lib/TritonIntelGPUTransforms/RemoveLayoutConversions.cpp
index e91cfa34c0..e1407f971a 100644
--- a/third_party/intel/lib/TritonIntelGPUTransforms/RemoveLayoutConversions.cpp
+++ b/third_party/intel/lib/TritonIntelGPUTransforms/RemoveLayoutConversions.cpp
@@ -307,7 +307,9 @@ bool hasConvertToMMATransisitiveUse(Operation *op, Attribute encoding) {
 bool isLayoutAnchor(Operation *op) {
   if (isa<LoadOp, StoreOp>(op))
     return ttgi::isExpensiveLoadOrStore(op);
-  if (isa<DotOp, AtomicCASOp>(op))
+  // TODO: we should estimate the cost of the not propagating layout for
+  // AtomicCAS and UpcastMXFP ops for further performance consideration.
+  if (isa<DotOp, AtomicCASOp, UpcastMXFPOp>(op))
     return true;
   if (isa<AtomicRMWOp>(op))
     if (auto tensorType =

From 0a58d8ed0bd803c9fb532d0b6d590a517e34deda Mon Sep 17 00:00:00 2001
From: "Ling, Liyang" <liyang.ling@intel.com>
Date: Fri, 6 Dec 2024 14:10:35 +0000
Subject: [PATCH 04/13] Fix e2m1

---
 lib/Dialect/TritonGPU/IR/Ops.cpp              | 66 ++++++++++++-------
 python/test/unit/language/test_core.py        |  4 +-
 third_party/intel/lib/Analysis/DPAS.cpp       |  6 +-
 .../AccelerateMatmul.cpp                      | 14 ++--
 4 files changed, 55 insertions(+), 35 deletions(-)

diff --git a/lib/Dialect/TritonGPU/IR/Ops.cpp b/lib/Dialect/TritonGPU/IR/Ops.cpp
index b0ba8da21e..1713aefbc7 100644
--- a/lib/Dialect/TritonGPU/IR/Ops.cpp
+++ b/lib/Dialect/TritonGPU/IR/Ops.cpp
@@ -4,6 +4,7 @@
 #include "triton/Dialect/Triton/IR/Utility.h"
 #include "triton/Dialect/TritonGPU/IR/Attributes.h"
 #include "triton/Dialect/TritonGPU/IR/Dialect.h"
+#include "triton/Tools/Sys/GetEnv.hpp"
 
 #define GET_OP_CLASSES
 #include "triton/Dialect/TritonGPU/IR/Ops.cpp.inc"
@@ -109,6 +110,8 @@ LogicalResult UpcastMXFPOp::inferReturnTypes(
   auto xShape = xTy.getShape();
 
   auto encoding = xTy.getEncoding();
+  bool upcastMXFPUseDotOpEnc =
+      mlir::triton::tools::getBoolEnv("TRITON_INTEL_UPCASTMXFP_DOTOP_ENCODING");
 
   if (typeEncoded == ScaleDotElemType::E2M1) {
     RankedTensorType retTy;
@@ -118,34 +121,47 @@ LogicalResult UpcastMXFPOp::inferReturnTypes(
       newShape.back() *= 2;
       retTy = RankedTensorType::get(xShape, FloatType::getBF16(ctx));
     } else {
-      auto oldEncoding = cast<DotOperandEncodingAttr>(encoding);
-
-      const int opIdx = oldEncoding.getOpIdx();
-      const bool hasBatch = xShape.size() == 3;
-      const int kIdx = (opIdx == 0 ? 1 : 0) + hasBatch;
-      newShape[kIdx] *= 2;
       Type elemType = FloatType::getBF16(ctx);
-
-      // Note: For Intel the dot operands layout's kWidth parameter must match
-      // the parent's DPAS layout opsPerChannel so we need to materialize a new
-      // DPAS layout.
       Attribute newVEncoding;
-      if (auto dpasEncoding =
-              dyn_cast<intel::DpasEncodingAttr>(oldEncoding.getParent())) {
-        auto newDpasEncoding = intel::DpasEncodingAttr::get(
-            ctx, dpasEncoding.getRepeatCount(), dpasEncoding.getSystolicDepth(),
-            dpasEncoding.getExecutionSize(),
-            intel::DpasEncodingAttr::getOpsPerChannel(elemType),
-            dpasEncoding.getWarpsPerCTA(), dpasEncoding.getRepCluster(),
-            dpasEncoding.getSubGroupSize());
-        newVEncoding = DotOperandEncodingAttr::get(
-            ctx, opIdx, newDpasEncoding, newDpasEncoding.getOpsPerChannel());
+      if (upcastMXFPUseDotOpEnc) {
+        auto oldEncoding = cast<DotOperandEncodingAttr>(encoding);
+
+        const int opIdx = oldEncoding.getOpIdx();
+        const bool hasBatch = xShape.size() == 3;
+        const int kIdx = (opIdx == 0 ? 1 : 0) + hasBatch;
+        newShape[kIdx] *= 2;
+
+        // Note: For Intel the dot operands layout's kWidth parameter must match
+        // the parent's DPAS layout opsPerChannel so we need to materialize a
+        // new DPAS layout.
+        if (auto dpasEncoding =
+                dyn_cast<intel::DpasEncodingAttr>(oldEncoding.getParent())) {
+          auto newDpasEncoding = intel::DpasEncodingAttr::get(
+              ctx, dpasEncoding.getRepeatCount(),
+              dpasEncoding.getSystolicDepth(), dpasEncoding.getExecutionSize(),
+              intel::DpasEncodingAttr::getOpsPerChannel(elemType),
+              dpasEncoding.getWarpsPerCTA(), dpasEncoding.getRepCluster(),
+              dpasEncoding.getSubGroupSize());
+          newVEncoding = DotOperandEncodingAttr::get(
+              ctx, opIdx, newDpasEncoding, newDpasEncoding.getOpsPerChannel());
+        } else {
+          // Figure out the K dimension for the input A/B, given that the return
+          // type is upcasted A/B type so we need to update the proper dim size.
+          newVEncoding = DotOperandEncodingAttr::get(
+              ctx, oldEncoding.getOpIdx(), oldEncoding.getParent(),
+              oldEncoding.getKWidth() * 2);
+        }
       } else {
-        // Figure out the K dimension for the input A/B, given that the return
-        // type is upcasted A/B type so we need to update the proper dim size.
-        newVEncoding = DotOperandEncodingAttr::get(ctx, oldEncoding.getOpIdx(),
-                                                   oldEncoding.getParent(),
-                                                   oldEncoding.getKWidth() * 2);
+        auto oldEncoding = dyn_cast<BlockedEncodingAttr>(encoding);
+        assert(oldEncoding &&
+               "Expected a blocked encoding for UpcastMXFP op result.");
+        newShape.back() *= 2;
+        SmallVector<unsigned> sizePerThread = oldEncoding.getSizePerThread();
+        sizePerThread.back() *= 2;
+        newVEncoding = BlockedEncodingAttr::get(
+            ctx, sizePerThread, oldEncoding.getThreadsPerWarp(),
+            oldEncoding.getWarpsPerCTA(), oldEncoding.getCTAOrder(),
+            oldEncoding.getCTALayout());
       }
       retTy = RankedTensorType::get(newShape, elemType, newVEncoding);
     }
diff --git a/python/test/unit/language/test_core.py b/python/test/unit/language/test_core.py
index 83a3a76823..afc1e7e0f1 100644
--- a/python/test/unit/language/test_core.py
+++ b/python/test/unit/language/test_core.py
@@ -3441,8 +3441,8 @@ def test_scaled_dot(M, N, K, col_a, col_b, rhs_scale, normal_type, mxfp_type, nu
         if mma == 16 and K == 64:
             pytest.skip(f"K == {K} too small for mfma {mma} in scaled_dot")
     if is_xpu():
-        if "e2m1" in (normal_type, mxfp_type):
-            pytest.skip("scaled_dot e2m1 isn't supported on XPU")
+        if rhs_scale:
+            pytest.skip("scaled_dot with rhs_scale not supported on XPU")
 
     @triton.jit
     def dot_scale_kernel(a_base, stride_a0, stride_a1, a_scale, b_base, stride_b0, stride_b1, b_scale, out,
diff --git a/third_party/intel/lib/Analysis/DPAS.cpp b/third_party/intel/lib/Analysis/DPAS.cpp
index cdd2d0e449..bdbd17ca39 100644
--- a/third_party/intel/lib/Analysis/DPAS.cpp
+++ b/third_party/intel/lib/Analysis/DPAS.cpp
@@ -3,6 +3,7 @@
 #include "mlir/IR/BuiltinTypes.h"
 #include "triton/Dialect/Triton/IR/Dialect.h"
 #include "llvm/Support/Casting.h"
+#include <iostream>
 
 namespace mlir::triton::gpu::intel {
 
@@ -150,9 +151,10 @@ DPASAnalysis::DPASEngineType DPASAnalysis::getDPASType(Operation *op) {
         if ((aElemTy.isFloat8E4M3FN() || aElemTy.isFloat8E5M2()) &&
             bElemTy.isFloat4E2M1FN())
           return DPASEngineType::FP32_FP32_FP8_FP4;
-        if (aElemTy.isFloat4E2M1FN() && bElemTy.isBF16())
+        // 2 E2M1 are packed into 1 int8
+        if (aElemTy.isInteger(8) && bElemTy.isBF16())
           return DPASEngineType::FP32_FP32_FP4_BF16;
-        if (aElemTy.isFloat4E2M1FN() &&
+        if (aElemTy.isInteger(8) &&
             (bElemTy.isFloat8E4M3FN() || bElemTy.isFloat8E5M2()))
           return DPASEngineType::FP32_FP32_FP4_FP8;
       }
diff --git a/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp b/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
index e4d0951ef6..a3e573f08b 100644
--- a/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
+++ b/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
@@ -252,8 +252,7 @@ class DecomposeScaledBlocked : public OpRewritePattern<tt::DotScaledOp> {
 
 private:
   bool upcastMXFPUseDotOpEnc =
-      mlir::triton::tools::getBoolEnv(
-          "TRITON_INTEL_UPCASTMXFP_DOTOP_ENCODING") == 1;
+      mlir::triton::tools::getBoolEnv("TRITON_INTEL_UPCASTMXFP_DOTOP_ENCODING");
 
   struct OpDescriptor {
     TensorValue op;
@@ -294,11 +293,12 @@ class DecomposeScaledBlocked : public OpRewritePattern<tt::DotScaledOp> {
     assert(opDesc.scale && "Expecting valid operand & scale");
 
     unsigned opsPerChannel = dpasEnc.getOpsPerChannel();
-    if (opDesc.elemType == tt::ScaleDotElemType::E2M1)
-      opsPerChannel *= 2;
 
     MLIRContext *ctx = opDesc.op.getContext();
+    unsigned rank = retType.getRank();
     if (upcastMXFPUseDotOpEnc) {
+      if (opDesc.elemType == tt::ScaleDotElemType::E2M1)
+        opsPerChannel *= 2;
       auto opEncoding = ttg::intel::DpasEncodingAttr::get(
           ctx, dpasEnc.getRepeatCount(), dpasEnc.getSystolicDepth(),
           dpasEnc.getExecutionSize(), opsPerChannel, dpasEnc.getWarpsPerCTA(),
@@ -313,7 +313,6 @@ class DecomposeScaledBlocked : public OpRewritePattern<tt::DotScaledOp> {
       unsigned instrShapeM = dpasEnc.getDPASInstShapeA()[1];
       SmallVector<unsigned, 2> threadsPerWarp{instrShapeM,
                                               warpSize / instrShapeM};
-      unsigned rank = retType.getRank();
       int numWarps = ttg::TritonGPUDialect::getNumWarps(mod);
       SmallVector<unsigned, 2> warpsPerCTA(rank, 1);
       warpsPerCTA[0] = numWarps;
@@ -334,10 +333,13 @@ class DecomposeScaledBlocked : public OpRewritePattern<tt::DotScaledOp> {
       // https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
       // the scalingBlockSize should be 32 for E5M2, E4M3 and E2M1
       unsigned scalingBlockSize = 32;
+      // 2 FP4E2M1 are packed in 1 I8
       if (opDesc.elemType == tt::ScaleDotElemType::E2M1)
         scalingBlockSize = 16;
+      SmallVector<unsigned, 2> sizePerThread(rank, 1);
+      sizePerThread[rank - 1 - opIdx] = scalingBlockSize;
       auto newOpEncoding = ttg::BlockedEncodingAttr::get(
-          ctx, {1, scalingBlockSize}, scaleEncoding.getThreadsPerWarp(),
+          ctx, sizePerThread, scaleEncoding.getThreadsPerWarp(),
           scaleEncoding.getWarpsPerCTA(), scaleEncoding.getCTAOrder(),
           scaleEncoding.getCTALayout());
 

From 698a0bd7b8c12421182767cca550f5c5ff32b767 Mon Sep 17 00:00:00 2001
From: "Tiotto, Ettore" <ettore.tiotto@intel.com>
Date: Fri, 6 Dec 2024 17:09:50 +0000
Subject: [PATCH 05/13] Fix failiing lit tests

Signed-off-by: Tiotto, Ettore <ettore.tiotto@intel.com>
---
 lib/Dialect/TritonGPU/IR/Ops.cpp              | 93 +++++++++----------
 .../AccelerateMatmul.cpp                      | 21 ++---
 2 files changed, 55 insertions(+), 59 deletions(-)

diff --git a/lib/Dialect/TritonGPU/IR/Ops.cpp b/lib/Dialect/TritonGPU/IR/Ops.cpp
index 1713aefbc7..43bc52806c 100644
--- a/lib/Dialect/TritonGPU/IR/Ops.cpp
+++ b/lib/Dialect/TritonGPU/IR/Ops.cpp
@@ -52,50 +52,52 @@ LogicalResult UpcastMXFPOp::verify() {
   }
 
   /// TODO: Temporarily disabled this check to allow for the blocked encoding.
-  /// we need to re-enable this check once we have the dot op encoding
-  /// UpcastMXFPOp lowering
-  // auto dotEncoding = dyn_cast<DotOperandEncodingAttr>(layoutX);
-  // if (!dotEncoding) {
-  //   return emitOpError("Expected a DotOperandEncodingAttr for values");
-  // }
+  /// Enable once we have the dot op encoding UpcastMXFPOp lowering.
+  auto dotEncoding = dyn_cast<DotOperandEncodingAttr>(layoutX);
+  if (mlir::triton::tools::getBoolEnv(
+          "TRITON_INTEL_UPCASTMXFP_DOTOP_ENCODING") &&
+      !dotEncoding) {
+    return emitOpError("Expected a DotOperandEncodingAttr for values");
+  }
   if (!isa<BlockedEncodingAttr, LinearEncodingAttr>(layoutScale)) {
     return emitOpError(
         "Expected a BlockOperandEncoding or LinearOperandEncoding "
         "for scales");
   }
+  if (!dotEncoding)
+    return success();
 
-  // if (isa<NvidiaMmaEncodingAttr>(dotEncoding.getParent())) {
-  //   // Necessary to keep all of the scales of a given block of values in the
-  //   // same warp
-  //   auto threadsPerWarp =
-  //       cast<DistributedEncodingTrait>(layoutScale).getThreadsPerWarp();
-  //   if (threadsPerWarp != ArrayRef<unsigned>({16, 2})) {
-  //     return emitOpError("Expected threads per warp to be {16, 2}");
-  //   }
-  // }
-
-  // // Change to support fp8 types
-  // const auto elemsPacked = fpType == ScaleDotElemType::E2M1 ? 2 : 1;
-  // // Figure out the K dimension for the input A/B. For A/B scale, the K
-  // // dimension is always the last dimension.
-  // const int opIdx = dotEncoding.getOpIdx();
-  // const bool hasBatch = xShape.size() == 3;
-  // const int kIdx = (opIdx == 0 ? 1 : 0) + hasBatch;
-
-  // if (xShape[kIdx] != (32 / elemsPacked) * scaleShape.back()) {
-  //   return emitOpError("K dimension of first operand must be 16 times "
-  //                      "larger than last/K dimension of the second operand");
-  // }
-
-  // // Check other dimensions match too. For input A/B, we need to figure out
-  // the
-  // // index for the M/N dimension. For scale, it's always {(batch), M/N, K}.
-  // const int mnIdx = (opIdx == 0 ? 0 : 1) + hasBatch;
-  // if (hasBatch && xShape[0] != scaleShape[0])
-  //   return emitOpError("batch dimension must match between operands");
-  // if (xShape[mnIdx] != scaleShape[hasBatch]) {
-  //   return emitOpError("M/N dimension must match between operands");
-  // }
+  if (isa<NvidiaMmaEncodingAttr>(dotEncoding.getParent())) {
+    // Necessary to keep all of the scales of a given block of values in the
+    // same warp
+    auto threadsPerWarp =
+        cast<DistributedEncodingTrait>(layoutScale).getThreadsPerWarp();
+    if (threadsPerWarp != ArrayRef<unsigned>({16, 2})) {
+      return emitOpError("Expected threads per warp to be {16, 2}");
+    }
+  }
+
+  // Change to support fp8 types
+  const auto elemsPacked = fpType == ScaleDotElemType::E2M1 ? 2 : 1;
+  // Figure out the K dimension for the input A/B. For A/B scale, the K
+  // dimension is always the last dimension.
+  const int opIdx = dotEncoding.getOpIdx();
+  const bool hasBatch = xShape.size() == 3;
+  const int kIdx = (opIdx == 0 ? 1 : 0) + hasBatch;
+
+  if (xShape[kIdx] != (32 / elemsPacked) * scaleShape.back()) {
+    return emitOpError("K dimension of first operand must be 16 times "
+                       "larger than last/K dimension of the second operand");
+  }
+
+  // Check other dimensions match too. For input A/B, we need to figure out the
+  // index for the M/N dimension. For scale, it's always {(batch), M/N, K}.
+  const int mnIdx = (opIdx == 0 ? 0 : 1) + hasBatch;
+  if (hasBatch && xShape[0] != scaleShape[0])
+    return emitOpError("batch dimension must match between operands");
+  if (xShape[mnIdx] != scaleShape[hasBatch]) {
+    return emitOpError("M/N dimension must match between operands");
+  }
 
   return success();
 }
@@ -110,8 +112,6 @@ LogicalResult UpcastMXFPOp::inferReturnTypes(
   auto xShape = xTy.getShape();
 
   auto encoding = xTy.getEncoding();
-  bool upcastMXFPUseDotOpEnc =
-      mlir::triton::tools::getBoolEnv("TRITON_INTEL_UPCASTMXFP_DOTOP_ENCODING");
 
   if (typeEncoded == ScaleDotElemType::E2M1) {
     RankedTensorType retTy;
@@ -122,10 +122,8 @@ LogicalResult UpcastMXFPOp::inferReturnTypes(
       retTy = RankedTensorType::get(xShape, FloatType::getBF16(ctx));
     } else {
       Type elemType = FloatType::getBF16(ctx);
-      Attribute newVEncoding;
-      if (upcastMXFPUseDotOpEnc) {
-        auto oldEncoding = cast<DotOperandEncodingAttr>(encoding);
-
+      Attribute newVEncoding = nullptr;
+      if (auto oldEncoding = dyn_cast<DotOperandEncodingAttr>(encoding)) {
         const int opIdx = oldEncoding.getOpIdx();
         const bool hasBatch = xShape.size() == 3;
         const int kIdx = (opIdx == 0 ? 1 : 0) + hasBatch;
@@ -151,10 +149,9 @@ LogicalResult UpcastMXFPOp::inferReturnTypes(
               ctx, oldEncoding.getOpIdx(), oldEncoding.getParent(),
               oldEncoding.getKWidth() * 2);
         }
-      } else {
-        auto oldEncoding = dyn_cast<BlockedEncodingAttr>(encoding);
-        assert(oldEncoding &&
-               "Expected a blocked encoding for UpcastMXFP op result.");
+      } else if (auto oldEncoding = dyn_cast<BlockedEncodingAttr>(encoding)) {
+        // TODO: Temporary code, remove once upcast_mxfp support dot encoding.
+        assert(!tools::getBoolEnv("TRITON_INTEL_UPCASTMXFP_DOTOP_ENCODING"));
         newShape.back() *= 2;
         SmallVector<unsigned> sizePerThread = oldEncoding.getSizePerThread();
         sizePerThread.back() *= 2;
diff --git a/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp b/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
index a3e573f08b..a9c7c64218 100644
--- a/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
+++ b/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
@@ -251,7 +251,7 @@ class DecomposeScaledBlocked : public OpRewritePattern<tt::DotScaledOp> {
   }
 
 private:
-  bool upcastMXFPUseDotOpEnc =
+  const bool upcastMXFPUseDotOpEnc =
       mlir::triton::tools::getBoolEnv("TRITON_INTEL_UPCASTMXFP_DOTOP_ENCODING");
 
   struct OpDescriptor {
@@ -265,23 +265,22 @@ class DecomposeScaledBlocked : public OpRewritePattern<tt::DotScaledOp> {
                   triton::gpu::intel::DpasEncodingAttr dpasEnc,
                   RankedTensorType newRetType, ModuleOp mod,
                   PatternRewriter &rewriter) const {
+    assert((aDesc.scale || bDesc.scale) && "No scale provided");
+    assert(!(aDesc.scale && bDesc.scale) && "NYI: Both LHS and RHS scale");
+
     if (aDesc.scale) {
-      assert(bDesc.scale == nullptr && "NYI: both LHS and RHS scale");
       TensorValue newA =
           convertScaledOperand<0>(aDesc, dpasEnc, newRetType, mod, rewriter);
       TensorValue newB =
           convertUnscaledOperand<1>(bDesc, dpasEnc, newRetType, rewriter);
       return {newA, newB};
     }
-    if (bDesc.scale) {
-      assert(aDesc.scale == nullptr && "NYI: both LHS and RHS scale");
-      TensorValue newB =
-          convertScaledOperand<1>(bDesc, dpasEnc, newRetType, mod, rewriter);
-      TensorValue newA =
-          convertUnscaledOperand<0>(aDesc, dpasEnc, newRetType, rewriter);
-      return {newA, newB};
-    }
-    assert(false && "Both LHS and RHS unscaled");
+
+    TensorValue newB =
+        convertScaledOperand<1>(bDesc, dpasEnc, newRetType, mod, rewriter);
+    TensorValue newA =
+        convertUnscaledOperand<0>(aDesc, dpasEnc, newRetType, rewriter);
+    return {newA, newB};
   }
 
   template <unsigned opIdx>

From 90f937a5ca442e12b2542e3bcb1055c1690323cf Mon Sep 17 00:00:00 2001
From: "Ling, Liyang" <liyang.ling@intel.com>
Date: Fri, 6 Dec 2024 18:05:36 +0000
Subject: [PATCH 06/13] Fix rhs scaling

---
 lib/Dialect/TritonGPU/IR/Ops.cpp              |  5 +-
 python/test/unit/language/test_core.py        |  3 -
 third_party/intel/include/Analysis/DPAS.h     |  4 +-
 third_party/intel/lib/Analysis/DPAS.cpp       |  6 +-
 .../AccelerateMatmul.cpp                      | 89 ++++++++++---------
 5 files changed, 57 insertions(+), 50 deletions(-)

diff --git a/lib/Dialect/TritonGPU/IR/Ops.cpp b/lib/Dialect/TritonGPU/IR/Ops.cpp
index 43bc52806c..f53d1442f6 100644
--- a/lib/Dialect/TritonGPU/IR/Ops.cpp
+++ b/lib/Dialect/TritonGPU/IR/Ops.cpp
@@ -152,9 +152,10 @@ LogicalResult UpcastMXFPOp::inferReturnTypes(
       } else if (auto oldEncoding = dyn_cast<BlockedEncodingAttr>(encoding)) {
         // TODO: Temporary code, remove once upcast_mxfp support dot encoding.
         assert(!tools::getBoolEnv("TRITON_INTEL_UPCASTMXFP_DOTOP_ENCODING"));
-        newShape.back() *= 2;
         SmallVector<unsigned> sizePerThread = oldEncoding.getSizePerThread();
-        sizePerThread.back() *= 2;
+        int opIdx = sizePerThread.back() == 1 ? 1 : 0;
+        sizePerThread[!opIdx] *= 2;
+        newShape[!opIdx] *= 2;
         newVEncoding = BlockedEncodingAttr::get(
             ctx, sizePerThread, oldEncoding.getThreadsPerWarp(),
             oldEncoding.getWarpsPerCTA(), oldEncoding.getCTAOrder(),
diff --git a/python/test/unit/language/test_core.py b/python/test/unit/language/test_core.py
index afc1e7e0f1..fb6f3ec067 100644
--- a/python/test/unit/language/test_core.py
+++ b/python/test/unit/language/test_core.py
@@ -3440,9 +3440,6 @@ def test_scaled_dot(M, N, K, col_a, col_b, rhs_scale, normal_type, mxfp_type, nu
             pytest.skip(f"scaled_dot({normal_type}, {mxfp_type}) only implemented for MI300")
         if mma == 16 and K == 64:
             pytest.skip(f"K == {K} too small for mfma {mma} in scaled_dot")
-    if is_xpu():
-        if rhs_scale:
-            pytest.skip("scaled_dot with rhs_scale not supported on XPU")
 
     @triton.jit
     def dot_scale_kernel(a_base, stride_a0, stride_a1, a_scale, b_base, stride_b0, stride_b1, b_scale, out,
diff --git a/third_party/intel/include/Analysis/DPAS.h b/third_party/intel/include/Analysis/DPAS.h
index 76929fdf86..74d6374266 100644
--- a/third_party/intel/include/Analysis/DPAS.h
+++ b/third_party/intel/include/Analysis/DPAS.h
@@ -24,6 +24,8 @@ class DPASAnalysis {
     FP32_FP32_TF32_TF32,
     FP16_FP16_FP16_FP16,
     BF16_BF16_BF16_BF16,
+    U32_U32_U8_U8,
+    S32_S32_S8_S8,
     // data types for dot scaled.
     FP32_FP32_BF16_FP8,
     FP32_FP32_BF16_FP4,
@@ -32,8 +34,6 @@ class DPASAnalysis {
     FP32_FP32_FP8_FP4,
     FP32_FP32_FP4_BF16,
     FP32_FP32_FP4_FP8,
-    U32_U32_U8_U8,
-    S32_S32_S8_S8,
     NOT_APPLICABLE
   };
 
diff --git a/third_party/intel/lib/Analysis/DPAS.cpp b/third_party/intel/lib/Analysis/DPAS.cpp
index bdbd17ca39..ac9430d55a 100644
--- a/third_party/intel/lib/Analysis/DPAS.cpp
+++ b/third_party/intel/lib/Analysis/DPAS.cpp
@@ -140,7 +140,8 @@ DPASAnalysis::DPASEngineType DPASAnalysis::getDPASType(Operation *op) {
         if (aElemTy.isBF16() &&
             (bElemTy.isFloat8E4M3FN() || bElemTy.isFloat8E5M2()))
           return DPASEngineType::FP32_FP32_BF16_FP8;
-        if (aElemTy.isBF16() && bElemTy.isFloat4E2M1FN())
+        // 2 E2M1 are packed into 1 int8
+        if (aElemTy.isBF16() && bElemTy.isInteger(8))
           return DPASEngineType::FP32_FP32_BF16_FP4;
         if ((aElemTy.isFloat8E4M3FN() || aElemTy.isFloat8E5M2()) &&
             bElemTy.isBF16())
@@ -149,9 +150,8 @@ DPASAnalysis::DPASEngineType DPASAnalysis::getDPASType(Operation *op) {
             (bElemTy.isFloat8E4M3FN() || bElemTy.isFloat8E5M2()))
           return DPASEngineType::FP32_FP32_FP8_FP8;
         if ((aElemTy.isFloat8E4M3FN() || aElemTy.isFloat8E5M2()) &&
-            bElemTy.isFloat4E2M1FN())
+            bElemTy.isInteger(8))
           return DPASEngineType::FP32_FP32_FP8_FP4;
-        // 2 E2M1 are packed into 1 int8
         if (aElemTy.isInteger(8) && bElemTy.isBF16())
           return DPASEngineType::FP32_FP32_FP4_BF16;
         if (aElemTy.isInteger(8) &&
diff --git a/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp b/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
index a9c7c64218..d8d3488fe7 100644
--- a/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
+++ b/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
@@ -291,10 +291,12 @@ class DecomposeScaledBlocked : public OpRewritePattern<tt::DotScaledOp> {
     static_assert(opIdx == 0 || opIdx == 1, "Illegal operand index");
     assert(opDesc.scale && "Expecting valid operand & scale");
 
-    unsigned opsPerChannel = dpasEnc.getOpsPerChannel();
-
     MLIRContext *ctx = opDesc.op.getContext();
+    unsigned numWarps = ttg::TritonGPUDialect::getNumWarps(mod);
+    unsigned warpSize = ttg::TritonGPUDialect::getThreadsPerWarp(mod);
+    unsigned opsPerChannel = dpasEnc.getOpsPerChannel();
     unsigned rank = retType.getRank();
+
     if (upcastMXFPUseDotOpEnc) {
       if (opDesc.elemType == tt::ScaleDotElemType::E2M1)
         opsPerChannel *= 2;
@@ -312,7 +314,6 @@ class DecomposeScaledBlocked : public OpRewritePattern<tt::DotScaledOp> {
       unsigned instrShapeM = dpasEnc.getDPASInstShapeA()[1];
       SmallVector<unsigned, 2> threadsPerWarp{instrShapeM,
                                               warpSize / instrShapeM};
-      int numWarps = ttg::TritonGPUDialect::getNumWarps(mod);
       SmallVector<unsigned, 2> warpsPerCTA(rank, 1);
       warpsPerCTA[0] = numWarps;
       auto CTALayout = ttg::getCTALayout(retType.getEncoding());
@@ -323,44 +324,52 @@ class DecomposeScaledBlocked : public OpRewritePattern<tt::DotScaledOp> {
       TensorValue scale = createScale(opDesc.scale, newScaleEncoding, rewriter);
 
       return createUpcastMxfpOp(op, scale, opDesc.elemType, rewriter);
-    } else {
-      auto scaleEncoding = dyn_cast<ttg::BlockedEncodingAttr>(
-          opDesc.scale.getType().getEncoding());
-      assert(scaleEncoding && "Expecting blocked encoding for scale");
-
-      // Referring to
-      // https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
-      // the scalingBlockSize should be 32 for E5M2, E4M3 and E2M1
-      unsigned scalingBlockSize = 32;
-      // 2 FP4E2M1 are packed in 1 I8
-      if (opDesc.elemType == tt::ScaleDotElemType::E2M1)
-        scalingBlockSize = 16;
-      SmallVector<unsigned, 2> sizePerThread(rank, 1);
-      sizePerThread[rank - 1 - opIdx] = scalingBlockSize;
-      auto newOpEncoding = ttg::BlockedEncodingAttr::get(
-          ctx, sizePerThread, scaleEncoding.getThreadsPerWarp(),
-          scaleEncoding.getWarpsPerCTA(), scaleEncoding.getCTAOrder(),
-          scaleEncoding.getCTALayout());
-
-      TensorValue op =
-          createArg(opDesc.op, opDesc.elemType, newOpEncoding, rewriter);
-      TensorValue scale = opDesc.scale;
-
-      auto retDpasEncoding = ttg::intel::DpasEncodingAttr::get(
-          ctx, dpasEnc.getRepeatCount(), dpasEnc.getSystolicDepth(),
-          dpasEnc.getExecutionSize(), opsPerChannel, dpasEnc.getWarpsPerCTA(),
-          dpasEnc.getRepCluster(), dpasEnc.getSubGroupSize());
-      auto retDotOpEncoding = ttg::DotOperandEncodingAttr::get(
-          ctx, opIdx, retDpasEncoding, retDpasEncoding.getOpsPerChannel());
-
-      auto upcastOp = createUpcastMxfpOp(op, scale, opDesc.elemType, rewriter);
-
-      auto retType = cast<RankedTensorType>(upcastOp.getType());
-      retType = RankedTensorType::get(
-          retType.getShape(), retType.getElementType(), retDotOpEncoding);
-      return rewriter.create<ttg::ConvertLayoutOp>(opDesc.op.getLoc(), retType,
-                                                   upcastOp);
     }
+
+    auto scaleEncoding = dyn_cast<ttg::BlockedEncodingAttr>(
+        opDesc.scale.getType().getEncoding());
+    assert(scaleEncoding && "Expecting blocked encoding for scale");
+
+    // Referring to
+    // https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
+    // the scalingBlockSize should be 32 for E5M2, E4M3 and E2M1
+    unsigned scalingBlockSize = 32;
+    // 2 FP4E2M1 are packed in 1 I8
+    if (opDesc.elemType == tt::ScaleDotElemType::E2M1)
+      scalingBlockSize = 16;
+    SmallVector<unsigned> sizePerThread = {1, 1};
+    SmallVector<unsigned> threadsPerWarp = {1, 1};
+    sizePerThread[!opIdx] = scalingBlockSize;
+    threadsPerWarp[opIdx] = warpSize;
+    SmallVector<unsigned> warpsPerCTA = {numWarps, 1};
+
+    auto newOpEncoding = ttg::BlockedEncodingAttr::get(
+        ctx, sizePerThread, threadsPerWarp, warpsPerCTA,
+        scaleEncoding.getCTAOrder(), scaleEncoding.getCTALayout());
+    TensorValue op =
+        createArg(opDesc.op, opDesc.elemType, newOpEncoding, rewriter);
+
+    warpsPerCTA = opIdx ? SmallVector<unsigned>{1, numWarps}
+                        : SmallVector<unsigned>{numWarps, 1};
+    auto newScaleEncoding = ttg::BlockedEncodingAttr::get(
+        ctx, {1, 1}, {warpSize, 1}, warpsPerCTA, scaleEncoding.getCTAOrder(),
+        scaleEncoding.getCTALayout());
+    TensorValue scale = createScale(opDesc.scale, newScaleEncoding, rewriter);
+
+    auto retDpasEncoding = ttg::intel::DpasEncodingAttr::get(
+        ctx, dpasEnc.getRepeatCount(), dpasEnc.getSystolicDepth(),
+        dpasEnc.getExecutionSize(), opsPerChannel, dpasEnc.getWarpsPerCTA(),
+        dpasEnc.getRepCluster(), dpasEnc.getSubGroupSize());
+    auto retDotOpEncoding = ttg::DotOperandEncodingAttr::get(
+        ctx, opIdx, retDpasEncoding, retDpasEncoding.getOpsPerChannel());
+
+    auto upcastOp = createUpcastMxfpOp(op, scale, opDesc.elemType, rewriter);
+
+    auto resultType = cast<RankedTensorType>(upcastOp.getType());
+    resultType = RankedTensorType::get(
+        resultType.getShape(), resultType.getElementType(), retDotOpEncoding);
+    return rewriter.create<ttg::ConvertLayoutOp>(opDesc.op.getLoc(), resultType,
+                                                 upcastOp);
   }
 
   template <unsigned opIdx>

From b36c35edd7dc7b0db51fdd40045f4aef033e7eee Mon Sep 17 00:00:00 2001
From: "Ling, Liyang" <liyang.ling@intel.com>
Date: Fri, 6 Dec 2024 18:29:40 +0000
Subject: [PATCH 07/13] make mxfpScaleBf16 private

---
 .../TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp | 22 +++++++++++++++++--
 .../lib/TritonIntelGPUToLLVM/Utility.cpp      | 17 --------------
 .../intel/lib/TritonIntelGPUToLLVM/Utility.h  |  2 --
 3 files changed, 20 insertions(+), 21 deletions(-)

diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp b/third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp
index 5702fdf094..0bd51eb0ab 100644
--- a/third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp
+++ b/third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp
@@ -17,6 +17,24 @@ using namespace mlir::triton::gpu;
 
 namespace {
 
+static Value mxfpScaleBf16(ConversionPatternRewriter &rewriter, Location loc,
+                           Value v, Value scale) {
+  Value vBf16 = bitcast(v, bf16_ty);
+  Value nanBf16 = bitcast(i16_val(0x7fff), bf16_ty);
+  Value scaleIsNan = icmp_eq(scale, i8_val(0xff));
+  Value scaleBf16 = bitcast(shl(zext(i16_ty, scale), i16_val(7)), bf16_ty);
+
+  Value v0 = mlir::triton::intel::convertBf16ToFp32(loc, rewriter, vBf16);
+  Value v1 = mlir::triton::intel::convertBf16ToFp32(loc, rewriter, scaleBf16);
+  auto result = rewriter.create<LLVM::FMulOp>(loc, f32_ty, v0, v1);
+  auto undefRounding = static_cast<mlir::triton::RoundingMode>(-1);
+  Value scaledBf16 = mlir::triton::intel::convertFp32ToBf16(
+      loc, rewriter, result, undefRounding);
+  // Value scaledBf16 = fmul(vBf16, scaleBf16);
+  // Account for NaN in the scale as per the mxfp specification.
+  return select(scaleIsNan, nanBf16, scaledBf16);
+};
+
 class UpcastMXFPOpPattern : public ConvertOpToLLVMPattern<UpcastMXFPOp> {
 private:
   const TargetInfoBase &targetInfo;
@@ -48,8 +66,8 @@ class UpcastMXFPOpPattern : public ConvertOpToLLVMPattern<UpcastMXFPOp> {
 
     for (auto [i, scaleVal] : llvm::enumerate(scaleVals)) {
       for (int j = 0; j < 32; ++j) {
-        xVals[32 * i + j] = LLVM::intel::mxfpScaleBf16(
-            rewriter, loc, xVals[32 * i + j], scaleVal);
+        xVals[32 * i + j] =
+            mxfpScaleBf16(rewriter, loc, xVals[32 * i + j], scaleVal);
       }
     }
 
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.cpp b/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.cpp
index fc65b4fc9f..07ab0f24a4 100644
--- a/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.cpp
+++ b/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.cpp
@@ -159,21 +159,4 @@ LLVM::LLVMFuncOp getSpirvPrintfDeclaration(RewriterBase &rewriter) {
   return printFunc;
 }
 
-Value mxfpScaleBf16(ConversionPatternRewriter &rewriter, Location loc, Value v,
-                    Value scale) {
-  Value vBf16 = bitcast(v, bf16_ty);
-  Value nanBf16 = bitcast(i16_val(0x7fff), bf16_ty);
-  Value scaleIsNan = icmp_eq(scale, i8_val(0xff));
-  Value scaleBf16 = bitcast(shl(zext(i16_ty, scale), i16_val(7)), bf16_ty);
-
-  Value v0 = mlir::triton::intel::convertBf16ToFp32(loc, rewriter, vBf16);
-  Value v1 = mlir::triton::intel::convertBf16ToFp32(loc, rewriter, scaleBf16);
-  auto result = rewriter.create<LLVM::FMulOp>(loc, f32_ty, v0, v1);
-  auto undefRounding = static_cast<mlir::triton::RoundingMode>(-1);
-  Value scaledBf16 = mlir::triton::intel::convertFp32ToBf16(
-      loc, rewriter, result, undefRounding);
-  // Value scaledBf16 = fmul(vBf16, scaleBf16);
-  // Account for NaN in the scale as per the mxfp specification.
-  return select(scaleIsNan, nanBf16, scaledBf16);
-};
 } // namespace mlir::LLVM::intel
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.h b/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.h
index 7a88e564b1..e8ec3eef6e 100644
--- a/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.h
+++ b/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.h
@@ -127,8 +127,6 @@ static Value getModuleWarpSize(RewriterBase &rewriter, Location loc) {
   return i32_val(triton::gpu::TritonGPUDialect::getThreadsPerWarp(mod));
 }
 
-Value mxfpScaleBf16(ConversionPatternRewriter &rewriter, Location loc, Value v,
-                    Value scale);
 } // namespace mlir::LLVM::intel
 
 // -----------------------------------------------------------------------

From 9ab90fa3ea1ded1447395ba13264532285c945da Mon Sep 17 00:00:00 2001
From: "Tiotto, Ettore" <ettore.tiotto@intel.com>
Date: Fri, 6 Dec 2024 18:45:20 +0000
Subject: [PATCH 08/13] Address code review comments

Signed-off-by: Tiotto, Ettore <ettore.tiotto@intel.com>
---
 .../AccelerateMatmul.cpp                      | 75 ++++++++++---------
 1 file changed, 38 insertions(+), 37 deletions(-)

diff --git a/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp b/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
index a9c7c64218..fe9b7626ba 100644
--- a/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
+++ b/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
@@ -323,44 +323,45 @@ class DecomposeScaledBlocked : public OpRewritePattern<tt::DotScaledOp> {
       TensorValue scale = createScale(opDesc.scale, newScaleEncoding, rewriter);
 
       return createUpcastMxfpOp(op, scale, opDesc.elemType, rewriter);
-    } else {
-      auto scaleEncoding = dyn_cast<ttg::BlockedEncodingAttr>(
-          opDesc.scale.getType().getEncoding());
-      assert(scaleEncoding && "Expecting blocked encoding for scale");
-
-      // Referring to
-      // https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
-      // the scalingBlockSize should be 32 for E5M2, E4M3 and E2M1
-      unsigned scalingBlockSize = 32;
-      // 2 FP4E2M1 are packed in 1 I8
-      if (opDesc.elemType == tt::ScaleDotElemType::E2M1)
-        scalingBlockSize = 16;
-      SmallVector<unsigned, 2> sizePerThread(rank, 1);
-      sizePerThread[rank - 1 - opIdx] = scalingBlockSize;
-      auto newOpEncoding = ttg::BlockedEncodingAttr::get(
-          ctx, sizePerThread, scaleEncoding.getThreadsPerWarp(),
-          scaleEncoding.getWarpsPerCTA(), scaleEncoding.getCTAOrder(),
-          scaleEncoding.getCTALayout());
-
-      TensorValue op =
-          createArg(opDesc.op, opDesc.elemType, newOpEncoding, rewriter);
-      TensorValue scale = opDesc.scale;
-
-      auto retDpasEncoding = ttg::intel::DpasEncodingAttr::get(
-          ctx, dpasEnc.getRepeatCount(), dpasEnc.getSystolicDepth(),
-          dpasEnc.getExecutionSize(), opsPerChannel, dpasEnc.getWarpsPerCTA(),
-          dpasEnc.getRepCluster(), dpasEnc.getSubGroupSize());
-      auto retDotOpEncoding = ttg::DotOperandEncodingAttr::get(
-          ctx, opIdx, retDpasEncoding, retDpasEncoding.getOpsPerChannel());
-
-      auto upcastOp = createUpcastMxfpOp(op, scale, opDesc.elemType, rewriter);
-
-      auto retType = cast<RankedTensorType>(upcastOp.getType());
-      retType = RankedTensorType::get(
-          retType.getShape(), retType.getElementType(), retDotOpEncoding);
-      return rewriter.create<ttg::ConvertLayoutOp>(opDesc.op.getLoc(), retType,
-                                                   upcastOp);
     }
+
+    // Temporary code: remove once upcast_mxfp support dot encoding.
+    auto scaleEncoding = dyn_cast<ttg::BlockedEncodingAttr>(
+        opDesc.scale.getType().getEncoding());
+    assert(scaleEncoding && "Expecting blocked encoding for scale");
+
+    // Referring to
+    // https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
+    // the scalingBlockSize should be 32 for E5M2, E4M3 and E2M1
+    unsigned scalingBlockSize = 32;
+    // 2 FP4E2M1 are packed in 1 I8
+    if (opDesc.elemType == tt::ScaleDotElemType::E2M1)
+      scalingBlockSize = 16;
+    SmallVector<unsigned, 2> sizePerThread(rank, 1);
+    sizePerThread[rank - 1 - opIdx] = scalingBlockSize;
+    auto newOpEncoding = ttg::BlockedEncodingAttr::get(
+        ctx, sizePerThread, scaleEncoding.getThreadsPerWarp(),
+        scaleEncoding.getWarpsPerCTA(), scaleEncoding.getCTAOrder(),
+        scaleEncoding.getCTALayout());
+
+    TensorValue op =
+        createArg(opDesc.op, opDesc.elemType, newOpEncoding, rewriter);
+    TensorValue scale = opDesc.scale;
+
+    auto retDpasEncoding = ttg::intel::DpasEncodingAttr::get(
+        ctx, dpasEnc.getRepeatCount(), dpasEnc.getSystolicDepth(),
+        dpasEnc.getExecutionSize(), opsPerChannel, dpasEnc.getWarpsPerCTA(),
+        dpasEnc.getRepCluster(), dpasEnc.getSubGroupSize());
+    auto retDotOpEncoding = ttg::DotOperandEncodingAttr::get(
+        ctx, opIdx, retDpasEncoding, retDpasEncoding.getOpsPerChannel());
+
+    auto upcastOp = createUpcastMxfpOp(op, scale, opDesc.elemType, rewriter);
+
+    auto upcastRetType = cast<RankedTensorType>(upcastOp.getType());
+    retType = RankedTensorType::get(retType.getShape(),
+                                    retType.getElementType(), retDotOpEncoding);
+    return rewriter.create<ttg::ConvertLayoutOp>(opDesc.op.getLoc(),
+                                                 upcastRetType, upcastOp);
   }
 
   template <unsigned opIdx>

From bc32cd2a57646706503e7b6c5692153100884c64 Mon Sep 17 00:00:00 2001
From: "Tiotto, Ettore" <ettore.tiotto@intel.com>
Date: Fri, 6 Dec 2024 18:45:40 +0000
Subject: [PATCH 09/13] Address code review comments

Signed-off-by: Tiotto, Ettore <ettore.tiotto@intel.com>
---
 third_party/intel/include/Analysis/DPAS.h |  9 +++-
 third_party/intel/lib/Analysis/DPAS.cpp   | 60 ++++++++++++++---------
 2 files changed, 46 insertions(+), 23 deletions(-)

diff --git a/third_party/intel/include/Analysis/DPAS.h b/third_party/intel/include/Analysis/DPAS.h
index 76929fdf86..06847d704b 100644
--- a/third_party/intel/include/Analysis/DPAS.h
+++ b/third_party/intel/include/Analysis/DPAS.h
@@ -47,9 +47,16 @@ class DPASAnalysis {
   ///    (aka threads per warp) size.
   Result canUseDPAS(FunctionOpInterface funcOp) const;
 
-  /// Given a DotOp operation, return its DPAS engine type.
+  /// Given a 'DotOp' or 'ScaledDot' operation, return its DPAS engine type.
   static DPASEngineType getDPASType(Operation *op);
 
+  // clang-format off
+  template <typename OpTy>
+  typename std::enable_if<llvm::is_one_of<OpTy, DotOp, DotScaledOp>::value,
+                          DPASAnalysis::DPASEngineType>::type
+  static getDPASType(OpTy);
+  // clang-format on
+
 private:
   mlir::ModuleOp mod;
 
diff --git a/third_party/intel/lib/Analysis/DPAS.cpp b/third_party/intel/lib/Analysis/DPAS.cpp
index bdbd17ca39..e322cf35cd 100644
--- a/third_party/intel/lib/Analysis/DPAS.cpp
+++ b/third_party/intel/lib/Analysis/DPAS.cpp
@@ -4,6 +4,7 @@
 #include "triton/Dialect/Triton/IR/Dialect.h"
 #include "llvm/Support/Casting.h"
 #include <iostream>
+#include <type_traits>
 
 namespace mlir::triton::gpu::intel {
 
@@ -23,6 +24,7 @@ DPASAnalysis::DPASAnalysis(Operation *root) {
     funcOp.walk([&](Operation *op) {
       if (!isa<DotOp, DotScaledOp>(op))
         return;
+
       if (it != funcToDotMap.end())
         it->second.push_back(op);
       else
@@ -72,21 +74,36 @@ DPASAnalysis::canUseDPAS(FunctionOpInterface funcOp) const {
 }
 
 DPASAnalysis::DPASEngineType DPASAnalysis::getDPASType(Operation *op) {
-  RankedTensorType aTy, bTy, cTy, dTy;
-  Type aElemTy, bElemTy, cElemTy, dElemTy;
+  if (auto dotOp = dyn_cast<DotOp>(op))
+    return DPASAnalysis::getDPASType<DotOp>(dotOp);
+  if (auto dotScaledOp = dyn_cast<DotScaledOp>(op))
+    return DPASAnalysis::getDPASType(dotScaledOp);
+  return DPASEngineType::NOT_APPLICABLE;
+}
+
+// This function determines the DPAS engine type for the given operation.
+// It checks the element types of the tensors involved in the operation
+// and returns the appropriate DPAS engine type based on the type combinations.
+template <typename OpTy>
+typename std::enable_if<llvm::is_one_of<OpTy, DotOp, DotScaledOp>::value,
+                        DPASAnalysis::DPASEngineType>::type
+DPASAnalysis::getDPASType(OpTy op) {
+  auto cTy = cast<RankedTensorType>(op.getC().getType());
+  auto dTy = cast<RankedTensorType>(op.getD().getType());
+  Type cElemTy = cTy.getElementType();
+  Type dElemTy = dTy.getElementType();
+
+  assert(cElemTy == dElemTy && "Unexpected element type mismatch");
 
-  if (auto dotOp = dyn_cast<DotOp>(op)) {
+  RankedTensorType aTy, bTy;
+  Type aElemTy, bElemTy;
+
+  if constexpr (std::is_same_v<OpTy, DotOp>) {
     // d = a * b + c
-    aTy = cast<RankedTensorType>(dotOp.getA().getType());
-    bTy = cast<RankedTensorType>(dotOp.getB().getType());
-    cTy = cast<RankedTensorType>(dotOp.getC().getType());
-    dTy = cast<RankedTensorType>(dotOp.getD().getType());
+    aTy = cast<RankedTensorType>(op.getA().getType());
+    bTy = cast<RankedTensorType>(op.getB().getType());
     aElemTy = aTy.getElementType();
     bElemTy = bTy.getElementType();
-    cElemTy = cTy.getElementType();
-    dElemTy = dTy.getElementType();
-
-    assert(cElemTy == dElemTy && "Unexpected element type mismatch");
 
     if (aElemTy != bElemTy)
       return DPASEngineType::NOT_APPLICABLE;
@@ -105,8 +122,7 @@ DPASAnalysis::DPASEngineType DPASAnalysis::getDPASType(Operation *op) {
           return DPASEngineType::FP32_FP32_FP16_FP16;
         if (aElemTy.isBF16())
           return DPASEngineType::FP32_FP32_BF16_BF16;
-        if (aElemTy.isF32() &&
-            dotOp.getInputPrecision() == InputPrecision::TF32)
+        if (aElemTy.isF32() && op.getInputPrecision() == InputPrecision::TF32)
           return DPASEngineType::FP32_FP32_TF32_TF32;
         // For FP8XFP8->FP32, upcast to FP16
         if (aElemTy.isFloat8E5M2())
@@ -123,17 +139,11 @@ DPASAnalysis::DPASEngineType DPASAnalysis::getDPASType(Operation *op) {
     }
   }
 
-  if (auto scaledDot = dyn_cast<DotScaledOp>(op)) {
-    aTy = cast<RankedTensorType>(scaledDot.getLhs().getType());
-    bTy = cast<RankedTensorType>(scaledDot.getRhs().getType());
-    cTy = cast<RankedTensorType>(scaledDot.getC().getType());
-    dTy = cast<RankedTensorType>(scaledDot.getD().getType());
+  if constexpr (std::is_same_v<OpTy, DotScaledOp>) {
+    aTy = cast<RankedTensorType>(op.getLhs().getType());
+    bTy = cast<RankedTensorType>(op.getRhs().getType());
     aElemTy = aTy.getElementType();
     bElemTy = bTy.getElementType();
-    cElemTy = cTy.getElementType();
-    dElemTy = dTy.getElementType();
-
-    assert(cElemTy == dElemTy && "Unexpected element type mismatch");
 
     if (isa<FloatType>(dElemTy)) {
       if (dElemTy.isF32()) {
@@ -163,4 +173,10 @@ DPASAnalysis::DPASEngineType DPASAnalysis::getDPASType(Operation *op) {
   return DPASEngineType::NOT_APPLICABLE;
 }
 
+// Explicit instantiations.
+template DPASAnalysis::DPASEngineType
+DPASAnalysis::getDPASType<DotOp>(DotOp op);
+template DPASAnalysis::DPASEngineType
+DPASAnalysis::getDPASType<DotScaledOp>(DotScaledOp op);
+
 } // namespace mlir::triton::gpu::intel

From cb82d191209a649304651bced5c7e02d95c3d347 Mon Sep 17 00:00:00 2001
From: "Tiotto, Ettore" <ettore.tiotto@intel.com>
Date: Fri, 6 Dec 2024 19:30:15 +0000
Subject: [PATCH 10/13] ASkip failing tt.dot_scaled test

Signed-off-by: Tiotto, Ettore <ettore.tiotto@intel.com>
---
 python/test/unit/language/test_core.py | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/python/test/unit/language/test_core.py b/python/test/unit/language/test_core.py
index fb6f3ec067..17728f8da2 100644
--- a/python/test/unit/language/test_core.py
+++ b/python/test/unit/language/test_core.py
@@ -3441,6 +3441,11 @@ def test_scaled_dot(M, N, K, col_a, col_b, rhs_scale, normal_type, mxfp_type, nu
         if mma == 16 and K == 64:
             pytest.skip(f"K == {K} too small for mfma {mma} in scaled_dot")
 
+    # FIXME
+    if is_xpu():
+        if M == 128 and N == 128 and K == 64 and col_a == False and col_b == False and rhs_scale == True and normal_type == "e4m3" and mxfp_type == "bf16":
+            pytest.skip(f"FIXME: {M}x{N}x{K} col_a={col_a} col_b={col_b} rhs_scale={rhs_scale} normal_type={normal_type} mxfp_type={mxfp_type}")
+
     @triton.jit
     def dot_scale_kernel(a_base, stride_a0, stride_a1, a_scale, b_base, stride_b0, stride_b1, b_scale, out,
                          BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_K: tl.constexpr, type_a: tl.constexpr,

From 06aa7ef75cf67db08487e59b88466aee7f98fa6c Mon Sep 17 00:00:00 2001
From: "Tiotto, Ettore" <ettore.tiotto@intel.com>
Date: Fri, 6 Dec 2024 19:56:35 +0000
Subject: [PATCH 11/13] Address code review comments

Signed-off-by: Tiotto, Ettore <ettore.tiotto@intel.com>
---
 python/test/unit/language/test_core.py                    | 8 ++++----
 .../intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp   | 1 -
 2 files changed, 4 insertions(+), 5 deletions(-)

diff --git a/python/test/unit/language/test_core.py b/python/test/unit/language/test_core.py
index 17728f8da2..6d41b6eece 100644
--- a/python/test/unit/language/test_core.py
+++ b/python/test/unit/language/test_core.py
@@ -3440,11 +3440,11 @@ def test_scaled_dot(M, N, K, col_a, col_b, rhs_scale, normal_type, mxfp_type, nu
             pytest.skip(f"scaled_dot({normal_type}, {mxfp_type}) only implemented for MI300")
         if mma == 16 and K == 64:
             pytest.skip(f"K == {K} too small for mfma {mma} in scaled_dot")
-
-    # FIXME
     if is_xpu():
-        if M == 128 and N == 128 and K == 64 and col_a == False and col_b == False and rhs_scale == True and normal_type == "e4m3" and mxfp_type == "bf16":
-            pytest.skip(f"FIXME: {M}x{N}x{K} col_a={col_a} col_b={col_b} rhs_scale={rhs_scale} normal_type={normal_type} mxfp_type={mxfp_type}")
+        if M == 128 and N == 128 and K == 64 and not col_a and not col_b and rhs_scale and normal_type == "e4m3" and mxfp_type == "bf16":
+            pytest.skip(
+                f"FIXME: {M}x{N}x{K} col_a={col_a} col_b={col_b} rhs_scale={rhs_scale} normal_type={normal_type} mxfp_type={mxfp_type}"
+            )
 
     @triton.jit
     def dot_scale_kernel(a_base, stride_a0, stride_a1, a_scale, b_base, stride_b0, stride_b1, b_scale, out,
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp b/third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp
index 0bd51eb0ab..feacf9ae1e 100644
--- a/third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp
+++ b/third_party/intel/lib/TritonIntelGPUToLLVM/UpcastMXFPToLLVM.cpp
@@ -9,7 +9,6 @@
 #include "triton/Dialect/Triton/IR/Dialect.h"
 #include "llvm/ADT/STLExtras.h"
 #include "llvm/ADT/SmallVector.h"
-#include <array>
 
 using namespace mlir;
 using namespace mlir::triton;

From e2e87cd41fbb02c1ae1279a34f6c0d5f5f999886 Mon Sep 17 00:00:00 2001
From: "Tiotto, Ettore" <ettore.tiotto@intel.com>
Date: Fri, 6 Dec 2024 23:27:37 +0000
Subject: [PATCH 12/13] Add test_scaled_dot tests to LTS skip list

Signed-off-by: Tiotto, Ettore <ettore.tiotto@intel.com>
---
 scripts/skiplist/lts/language.txt | 1296 +++++++++++++++++++++++++++++
 1 file changed, 1296 insertions(+)

diff --git a/scripts/skiplist/lts/language.txt b/scripts/skiplist/lts/language.txt
index 686b00623d..86084b9fa5 100644
--- a/scripts/skiplist/lts/language.txt
+++ b/scripts/skiplist/lts/language.txt
@@ -274,3 +274,1299 @@ test/unit/language/test_core.py::test_dot3d[8-8-64-64-64-32-32-float16-float16]
 test/unit/language/test_core.py::test_dot3d[8-8-64-64-64-32-32-float16-float32]
 test/unit/language/test_core.py::test_dot3d[8-8-64-64-64-32-32-float32-float32]
 test/unit/language/test_core.py::test_dot3d[8-8-64-64-64-32-32-int8-int8]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-128-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-64-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-32-128-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-64-64-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-64-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[32-128-128-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-64-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-32-128-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-64-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-64-128-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-64-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[64-128-128-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-64-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-32-128-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-64-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-64-128-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-64-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-True-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-True-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-False-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-False-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-False-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-True-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-False-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-False-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-False-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-False-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-False-e4m3-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-True-e4m3-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-True-e2m1-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-True-e2m1-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-True-e2m1-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-False-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-True-e4m3-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-True-e5m2-bf16-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-True-e5m2-e5m2-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-True-e5m2-e4m3-4-16-1]
+test/unit/language/test_core.py::test_scaled_dot[128-128-128-False-False-True-e4m3-bf16-4-16-1]

From c60f7636e524273e8382b7023a0c0fd490fe42f6 Mon Sep 17 00:00:00 2001
From: "Tiotto, Ettore" <ettore.tiotto@intel.com>
Date: Fri, 6 Dec 2024 23:29:14 +0000
Subject: [PATCH 13/13] Address code review comments

Signed-off-by: Tiotto, Ettore <ettore.tiotto@intel.com>
---
 third_party/intel/lib/Analysis/DPAS.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/intel/lib/Analysis/DPAS.cpp b/third_party/intel/lib/Analysis/DPAS.cpp
index 33aa33a1c5..fbf434046b 100644
--- a/third_party/intel/lib/Analysis/DPAS.cpp
+++ b/third_party/intel/lib/Analysis/DPAS.cpp
@@ -75,7 +75,7 @@ DPASAnalysis::canUseDPAS(FunctionOpInterface funcOp) const {
 
 DPASAnalysis::DPASEngineType DPASAnalysis::getDPASType(Operation *op) {
   if (auto dotOp = dyn_cast<DotOp>(op))
-    return DPASAnalysis::getDPASType<DotOp>(dotOp);
+    return DPASAnalysis::getDPASType(dotOp);
   if (auto dotScaledOp = dyn_cast<DotScaledOp>(op))
     return DPASAnalysis::getDPASType(dotScaledOp);
   return DPASEngineType::NOT_APPLICABLE;