address comments

makslevental · makslevental · commit fba2dd6d162b · 2025-01-27T13:07:34.000-05:00
diff --git a/include/triton/Conversion/MLIRTypes.h b/include/triton/Conversion/MLIRTypes.h
@@ -26,19 +26,15 @@ inline Type f32Ty(MLIRContext *ctx) { return Float32Type::get(ctx); }
 inline Type f64Ty(MLIRContext *ctx) { return Float64Type::get(ctx); }
 inline Type bf16Ty(MLIRContext *ctx) { return BFloat16Type::get(ctx); }
 
+inline bool isFloat8(Type type) {
+  return isa<Float8E4M3B11FNUZType, Float8E4M3FNType, Float8E4M3FNUZType,
+             Float8E5M2Type, Float8E5M2FNUZType>(type);
+}
+
 inline bool isFloat(Type type) {
   return type.isF32() || type.isF64() || type.isF16() || type.isF128() ||
          type.isBF16() || llvm::isa<Float8E4M3B11FNUZType>(type) ||
-         llvm::isa<Float8E4M3FNType>(type) ||
-         llvm::isa<Float8E4M3FNUZType>(type) ||
-         llvm::isa<Float8E5M2Type>(type) || llvm::isa<Float8E5M2FNUZType>(type);
-}
-
-inline bool isFloat8(Type type) {
-  return llvm::isa<Float8E4M3B11FNUZType>(type) ||
-         llvm::isa<Float8E4M3FNType>(type) ||
-         llvm::isa<Float8E4M3FNUZType>(type) ||
-         llvm::isa<Float8E5M2Type>(type) || llvm::isa<Float8E5M2FNUZType>(type);
+         isFloat8(type);
 }
 
 inline bool isInt(Type type) { return type.isIntOrFloat() && !isFloat(type); }
diff --git a/lib/Analysis/Utility.cpp b/lib/Analysis/Utility.cpp
@@ -732,15 +732,14 @@ bool supportMMA(triton::DotOp op, int version) {
       return false;
     if (!(numWarps % 4 == 0 && retShapePerCTA[rank - 2] % 64 == 0 &&
           retShapePerCTA[rank - 1] % 8 == 0 &&
-          (llvm::isa<Float8E5M2Type>(aElemTy) ||
-           llvm::isa<Float8E4M3FNType>(aElemTy) || aElemTy.isInteger(8) ||
-           aElemTy.isF16() || aElemTy.isBF16() || aElemTy.isF32()))) {
+          (llvm::isa<Float8E5M2Type, Float8E4M3FNType>(aElemTy) ||
+           aElemTy.isInteger(8) || aElemTy.isF16() || aElemTy.isBF16() ||
+           aElemTy.isF32()))) {
       return false;
     }
     // We cannot use MMA_V3 if we need to accumulate in F32 within the MMA op.
     if (op.getMaxNumImpreciseAcc() < 32 &&
-        (llvm::isa<Float8E5M2Type>(aElemTy) ||
-         llvm::isa<Float8E4M3FNType>(aElemTy)) &&
+        (llvm::isa<Float8E5M2Type, Float8E4M3FNType>(aElemTy)) &&
         cast<RankedTensorType>(op.getType()).getElementType().isF32()) {
       return false;
     }
@@ -761,10 +760,8 @@ bool supportMMA(Value value, int version) {
       cast<triton::gpu::TensorOrMemDesc>(value.getType()).getElementType();
   // FP8 is not natively supported on all mma versions but it can always be
   // promoted to fp16 therefore we can always support it.
-  bool isFP8 = llvm::isa<Float8E5M2Type>(elemTy) ||
-               llvm::isa<Float8E4M3FNType>(elemTy) ||
-               llvm::isa<Float8E5M2FNUZType>(elemTy) ||
-               llvm::isa<Float8E4M3FNUZType>(elemTy);
+  bool isFP8 = llvm::isa<Float8E5M2Type, Float8E4M3FNType, Float8E5M2FNUZType,
+                         Float8E4M3FNUZType>(elemTy);
   return isFP8 || elemTy.isF16() || elemTy.isBF16() ||
          (elemTy.isF32() && version >= 2) ||
          (elemTy.isInteger(8) && version >= 2);
diff --git a/lib/Dialect/TritonGPU/Transforms/AccelerateMatmul.cpp b/lib/Dialect/TritonGPU/Transforms/AccelerateMatmul.cpp
@@ -344,8 +344,7 @@ static void decomposeMixedModeDotOp(ModuleOp mod, int computeCapability) {
     NvidiaMmaEncodingAttr mmaLayout =
         dyn_cast<NvidiaMmaEncodingAttr>(D.getType().getEncoding());
     if (mmaLayout) {
-      bool isNativeFP8 = llvm::isa<Float8E5M2Type>(AElType) ||
-                         llvm::isa<Float8E4M3FNType>(AElType);
+      bool isNativeFP8 = llvm::isa<Float8E5M2Type, Float8E4M3FNType>(AElType);
       // promote operands for sm < 89 since fp8 mma is not natively supported
       // promote operands for sm >= 90 when mma is not v3
       if (!isNativeFP8 ||
diff --git a/lib/Dialect/TritonGPU/Transforms/Utility.cpp b/lib/Dialect/TritonGPU/Transforms/Utility.cpp
@@ -44,10 +44,9 @@ SmallVector<unsigned, 3> mmaVersionToInstrShape(int version,
     SmallVector<unsigned> validN;
 
     // MMAv3 with larger instruction shape is preferred.
-    if (llvm::isa<Float8E5M2Type>(eltType) ||
-        llvm::isa<Float8E4M3FNType>(eltType) ||
-        llvm::isa<Float8E4M3FNUZType>(eltType) || eltType.isF16() ||
-        eltType.isBF16() || eltType.isF32()) {
+    if (llvm::isa<Float8E5M2Type, Float8E4M3FNType, Float8E4M3FNUZType>(
+            eltType) ||
+        eltType.isF16() || eltType.isBF16() || eltType.isF32()) {
       validN.assign({256, 248, 240, 232, 224, 216, 208, 200, 192, 184, 176,
                      168, 160, 152, 144, 136, 128, 120, 112, 104, 96,  88,
                      80,  72,  64,  56,  48,  40,  32,  24,  16,  8});
diff --git a/lib/Dialect/TritonNvidiaGPU/IR/Ops.cpp b/lib/Dialect/TritonNvidiaGPU/IR/Ops.cpp
@@ -77,10 +77,8 @@ bool WarpGroupDotOp::needsPartialAccumulator() {
   const auto &d = getD();
   auto aTensorTy = cast<triton::gpu::TensorOrMemDesc>(a.getType());
   auto aElTy = cast<triton::gpu::TensorOrMemDesc>(a.getType()).getElementType();
-  bool isFP8 = llvm::isa<Float8E5M2Type>(aElTy) ||
-               llvm::isa<Float8E4M3FNType>(aElTy) ||
-               llvm::isa<Float8E5M2FNUZType>(aElTy) ||
-               llvm::isa<Float8E4M3FNUZType>(aElTy);
+  bool isFP8 = llvm::isa<Float8E5M2Type, Float8E4M3FNType, Float8E5M2FNUZType,
+                         Float8E4M3FNUZType>(aElTy);
   bool accFP32 =
       cast<triton::gpu::TensorOrMemDesc>(d.getType()).getElementType().isF32();
   uint32_t maxNumImpreciseAcc = getMaxNumImpreciseAcc();
diff --git a/third_party/amd/lib/TritonAMDGPUToLLVM/ElementwiseOpToLLVM.cpp b/third_party/amd/lib/TritonAMDGPUToLLVM/ElementwiseOpToLLVM.cpp
@@ -1106,19 +1106,16 @@ struct FpToFpOpConversion
       return outVals;
     }
     size_t numElements = 4;
-    if (llvm::isa<Float8E4M3FNType>(srcElementType) ||
-        llvm::isa<Float8E4M3FNType>(dstElementType) ||
-        llvm::isa<Float8E4M3FNUZType>(srcElementType) ||
-        llvm::isa<Float8E4M3FNUZType>(dstElementType) ||
-        llvm::isa<Float8E5M2FNUZType>(srcElementType) ||
-        llvm::isa<Float8E5M2FNUZType>(dstElementType)) {
+    if (llvm::isa<Float8E4M3FNType, Float8E4M3FNUZType, Float8E5M2FNUZType>(
+            srcElementType) ||
+        llvm::isa<Float8E4M3FNType, Float8E4M3FNUZType, Float8E5M2FNUZType>(
+            dstElementType)) {
       numElements = 2;
     }
     bool useFP16IntermediateSrc =
         srcElementType.isF32() &&
         !(isaFamily == AMD::ISAFamily::CDNA3 &&
-          (llvm::isa<Float8E4M3FNUZType>(dstElementType) ||
-           llvm::isa<Float8E5M2FNUZType>(dstElementType)));
+          (llvm::isa<Float8E4M3FNUZType, Float8E5M2FNUZType>(dstElementType)));
     bool isDstFP32 = dstElementType.isF32();
     Type srcType = useFP16IntermediateSrc ? f16_ty : srcElementType;
     Type dstType = isDstFP32 ? f16_ty : dstElementType;
diff --git a/third_party/amd/lib/TritonAMDGPUTransforms/AccelerateAMDMatmul.cpp b/third_party/amd/lib/TritonAMDGPUTransforms/AccelerateAMDMatmul.cpp
@@ -416,8 +416,7 @@ class BlockedToMFMA : public OpRewritePattern<tt::DotOp> {
     // store instructions, except for fp8 matmul kernels due to regression
     // TODO (lixun): investigate the regression and enable this feature again
     auto aElemTy = mfmaInstr.getElementTypeA();
-    bool isFP8 = llvm::isa<Float8E5M2FNUZType>(aElemTy) ||
-                 llvm::isa<Float8E4M3FNUZType>(aElemTy);
+    bool isFP8 = llvm::isa<Float8E5M2FNUZType, Float8E4M3FNUZType>(aElemTy);
     bool isTransposed = isChainDot(dotOp) || !isFP8;
     mfmaEnc = ttg::AMDMfmaEncodingAttr::get(
         oldRetType.getContext(),
diff --git a/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/ElementwiseOpToLLVM.cpp b/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/ElementwiseOpToLLVM.cpp
@@ -489,8 +489,7 @@ struct FpToFpOpConversion
     auto dstElementType = getElementType(op.getResult());
     auto roundingMode = op.getRounding();
 
-    if (llvm::isa<Float8E5M2Type>(dstElementType) ||
-        llvm::isa<Float8E4M3FNType>(dstElementType)) {
+    if (llvm::isa<Float8E5M2Type, Float8E4M3FNType>(dstElementType)) {
       assert(roundingMode.has_value() &&
              "Rounding mode must be specified for convertsions to fp8");
 
@@ -528,8 +527,7 @@ struct FpToFpOpConversion
     bool useFP16IntermediateSrc =
         srcElementType.isF32() &&
         (!(computeCapability >= 90 &&
-           (llvm::isa<Float8E4M3FNType>(dstElementType) ||
-            llvm::isa<Float8E5M2Type>(dstElementType))) ||
+           (llvm::isa<Float8E4M3FNType, Float8E5M2Type>(dstElementType))) ||
          roundingMode.value() == RoundingMode::RTZ);
     bool isDstFP32 = dstElementType.isF32();
     Type srcType = useFP16IntermediateSrc ? f16_ty : srcElementType;