[mlir-gen] Add mixed precision type support(1/N). (#1075)

shahidact · web-flow · commit 232e8541d1ab · 2025-07-22T21:03:19.000+05:30
Adds creation of gemm kernels with mixed types such as bf16 -&gt; fp32, f16
-&gt; f32, i8 -&gt; i32.
diff --git a/test/Integration/mlir-gen-matmul.mlir b/test/Integration/mlir-gen-matmul.mlir
@@ -2,6 +2,14 @@
 // RUN: mlir-gen --kernel=args --seed=0 --float-type=bf16 --batch=128 --layers=2304,768 --tiles=64,48,64 2>&1 | FileCheck %s --check-prefix=BF16
 // RUN: mlir-gen --kernel=args --seed=0 --float-type=f16 --batch=128 --layers=2304,768 --tiles=64,48,64 2>&1 | FileCheck %s --check-prefix=FP16
 
+// RUN: mlir-gen --kernel=args --seed=0 --float-type=mx-bf16 --batch=128 --layers=2304,768 --tiles=64,48,64 2>&1 | FileCheck %s --check-prefix=MXBF16-GENERIC
+// RUN: mlir-gen --kernel=args --seed=0 --float-type=mx-i8 --batch=128 --layers=2304,768 --tiles=64,48,64 2>&1 | FileCheck %s --check-prefix=MXI8-GENERIC
+// RUN: mlir-gen --kernel=args --seed=0 --float-type=mx-f16 --batch=128 --layers=2304,768 --tiles=64,48,64 2>&1 | FileCheck %s --check-prefix=MXF16-GENERIC
+
+// RUN: mlir-gen --kernel=args --seed=0 --float-type=mx-bf16 --batch=128 --layers=2304,768 --tiles=64,48,64 --output=contract 2>&1 | FileCheck %s --check-prefix=MXBF16-CONTRACT
+// RUN: mlir-gen --kernel=args --seed=0 --float-type=mx-i8 --batch=128 --layers=2304,768 --tiles=64,48,64 --output=contract 2>&1 | FileCheck %s --check-prefix=MXI8-CONTRACT
+// RUN: mlir-gen --kernel=args --seed=0 --float-type=mx-f16 --batch=128 --layers=2304,768 --tiles=64,48,64 --output=contract 2>&1 | FileCheck %s --check-prefix=MXF16-CONTRACT
+
 // FP32: // RUN{{.*}}tpp-run %s -n {{\d*}}
 // FP32: // RUN{{.*}}-e entry -entry-point-result=void
 // FP32: // BENCH_TOTAL_FLOPS: 452984832
@@ -40,3 +48,90 @@
 // FP16:         arith.mulf
 // FP16:         arith.addf
 // FP16-NOT: dealloc
+
+// MXBF16-GENERIC: #[[$ATTR_0:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d0, d2, d3, d5)>
+// MXBF16-GENERIC: #[[$ATTR_1:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d1, d2, d5, d4)>
+// MXBF16-GENERIC: #[[$ATTR_2:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d0, d1, d3, d4)>
+// MXBF16-GENERIC-LABEL:   func.func @entry(
+// MXBF16-GENERIC-SAME:                     %[[ARG0:.*]]: tensor<2x36x64x64xbf16>,
+// MXBF16-GENERIC-SAME:                     %[[ARG1:.*]]: tensor<16x36x64x48xbf16>,
+// MXBF16-GENERIC-SAME:                     %[[ARG2:.*]]: tensor<2x16x64x48xf32>) -> tensor<2x16x64x48xf32> {
+// MXBF16-GENERIC:           %[[VAL_0:.*]] = linalg.generic {indexing_maps = [#[[$ATTR_0]], #[[$ATTR_1]], #[[$ATTR_2]]], iterator_types = ["parallel", "parallel", "reduction", "parallel", "parallel", "reduction"]} ins(%[[ARG0]], %[[ARG1]] : tensor<2x36x64x64xbf16>, tensor<16x36x64x48xbf16>) outs(%[[ARG2]] : tensor<2x16x64x48xf32>) {
+// MXBF16-GENERIC:           ^bb0(%[[VAL_1:.*]]: bf16, %[[VAL_2:.*]]: bf16, %[[VAL_3:.*]]: f32):
+// MXBF16-GENERIC:             %[[VAL_4:.*]] = arith.extf %[[VAL_1]] : bf16 to f32
+// MXBF16-GENERIC:             %[[VAL_5:.*]] = arith.extf %[[VAL_2]] : bf16 to f32
+// MXBF16-GENERIC:             %[[VAL_6:.*]] = arith.mulf %[[VAL_4]], %[[VAL_5]] : f32
+// MXBF16-GENERIC:             %[[VAL_7:.*]] = arith.addf %[[VAL_3]], %[[VAL_6]] : f32
+// MXBF16-GENERIC:             linalg.yield %[[VAL_7]] : f32
+// MXBF16-GENERIC:           } -> tensor<2x16x64x48xf32>
+// MXBF16-GENERIC:           return %[[VAL_0]] : tensor<2x16x64x48xf32>
+// MXBF16-GENERIC:         }
+
+// MXI8-GENERIC: #[[$ATTR_0:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d0, d2, d3, d5)>
+// MXI8-GENERIC: #[[$ATTR_1:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d1, d2, d5, d4)>
+// MXI8-GENERIC: #[[$ATTR_2:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d0, d1, d3, d4)>
+// MXI8-GENERIC-LABEL:   func.func @entry(
+// MXI8-GENERIC-SAME:                     %[[ARG0:.*]]: tensor<2x36x64x64xi8>,
+// MXI8-GENERIC-SAME:                     %[[ARG1:.*]]: tensor<16x36x64x48xi8>,
+// MXI8-GENERIC-SAME:                     %[[ARG2:.*]]: tensor<2x16x64x48xi32>) -> tensor<2x16x64x48xi32> {
+// MXI8-GENERIC:           %[[VAL_0:.*]] = linalg.generic {indexing_maps = [#[[$ATTR_0]], #[[$ATTR_1]], #[[$ATTR_2]]], iterator_types = ["parallel", "parallel", "reduction", "parallel", "parallel", "reduction"]} ins(%[[ARG0]], %[[ARG1]] : tensor<2x36x64x64xi8>, tensor<16x36x64x48xi8>) outs(%[[ARG2]] : tensor<2x16x64x48xi32>) {
+// MXI8-GENERIC:           ^bb0(%[[VAL_1:.*]]: i8, %[[VAL_2:.*]]: i8, %[[VAL_3:.*]]: i32):
+// MXI8-GENERIC:             %[[VAL_4:.*]] = arith.extsi %[[VAL_1]] : i8 to i32
+// MXI8-GENERIC:             %[[VAL_5:.*]] = arith.extsi %[[VAL_2]] : i8 to i32
+// MXI8-GENERIC:             %[[VAL_6:.*]] = arith.muli %[[VAL_4]], %[[VAL_5]] : i32
+// MXI8-GENERIC:             %[[VAL_7:.*]] = arith.addi %[[VAL_3]], %[[VAL_6]] : i32
+// MXI8-GENERIC:             linalg.yield %[[VAL_7]] : i32
+// MXI8-GENERIC:           } -> tensor<2x16x64x48xi32>
+// MXI8-GENERIC:           return %[[VAL_0]] : tensor<2x16x64x48xi32>
+// MXI8-GENERIC:         }
+
+// MXBF16-CONTRACT: #[[$ATTR_0:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d0, d2, d3, d5)>
+// MXBF16-CONTRACT: #[[$ATTR_1:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d1, d2, d5, d4)>
+// MXBF16-CONTRACT: #[[$ATTR_2:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d0, d1, d3, d4)>
+// MXBF16-CONTRACT-LABEL:   func.func @entry(
+// MXBF16-CONTRACT-SAME:                     %[[ARG0:.*]]: tensor<2x36x64x64xbf16>,
+// MXBF16-CONTRACT-SAME:                     %[[ARG1:.*]]: tensor<16x36x64x48xbf16>,
+// MXBF16-CONTRACT-SAME:                     %[[ARG2:.*]]: tensor<2x16x64x48xf32>) -> tensor<2x16x64x48xf32> {
+// MXBF16-CONTRACT:           %[[VAL_0:.*]] = linalg.contract indexing_maps = [#[[$ATTR_0]], #[[$ATTR_1]], #[[$ATTR_2]]] ins(%[[ARG0]], %[[ARG1]] : tensor<2x36x64x64xbf16>, tensor<16x36x64x48xbf16>) outs(%[[ARG2]] : tensor<2x16x64x48xf32>) -> tensor<2x16x64x48xf32>
+// MXBF16-CONTRACT:           return %[[VAL_0]] : tensor<2x16x64x48xf32>
+// MXBF16-CONTRACT:         }
+
+// MXI8-CONTRACT: #[[$ATTR_0:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d0, d2, d3, d5)>
+// MXI8-CONTRACT: #[[$ATTR_1:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d1, d2, d5, d4)>
+// MXI8-CONTRACT: #[[$ATTR_2:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d0, d1, d3, d4)>
+// MXI8-CONTRACT-LABEL:   func.func @entry(
+// MXI8-CONTRACT-SAME:                     %[[ARG0:.*]]: tensor<2x36x64x64xi8>,
+// MXI8-CONTRACT-SAME:                     %[[ARG1:.*]]: tensor<16x36x64x48xi8>,
+// MXI8-CONTRACT-SAME:                     %[[ARG2:.*]]: tensor<2x16x64x48xi32>) -> tensor<2x16x64x48xi32> {
+// MXI8-CONTRACT:           %[[VAL_0:.*]] = linalg.contract indexing_maps = [#[[$ATTR_0]], #[[$ATTR_1]], #[[$ATTR_2]]] ins(%[[ARG0]], %[[ARG1]] : tensor<2x36x64x64xi8>, tensor<16x36x64x48xi8>) outs(%[[ARG2]] : tensor<2x16x64x48xi32>) -> tensor<2x16x64x48xi32>
+// MXI8-CONTRACT:           return %[[VAL_0]] : tensor<2x16x64x48xi32>
+// MXI8-CONTRACT:         }
+
+// MXF16-GENERIC: #[[$ATTR_0:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d0, d2, d3, d5)>
+// MXF16-GENERIC: #[[$ATTR_1:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d1, d2, d5, d4)>
+// MXF16-GENERIC: #[[$ATTR_2:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d0, d1, d3, d4)>
+// MXF16-GENERIC-LABEL:   func.func @entry(
+// MXF16-GENERIC-SAME:                     %[[ARG0:.*]]: tensor<2x36x64x64xf16>,
+// MXF16-GENERIC-SAME:                     %[[ARG1:.*]]: tensor<16x36x64x48xf16>,
+// MXF16-GENERIC-SAME:                     %[[ARG2:.*]]: tensor<2x16x64x48xf32>) -> tensor<2x16x64x48xf32> {
+// MXF16-GENERIC:           %[[VAL_0:.*]] = linalg.generic {indexing_maps = [#[[$ATTR_0]], #[[$ATTR_1]], #[[$ATTR_2]]], iterator_types = ["parallel", "parallel", "reduction", "parallel", "parallel", "reduction"]} ins(%[[ARG0]], %[[ARG1]] : tensor<2x36x64x64xf16>, tensor<16x36x64x48xf16>) outs(%[[ARG2]] : tensor<2x16x64x48xf32>) {
+// MXF16-GENERIC:           ^bb0(%[[VAL_1:.*]]: f16, %[[VAL_2:.*]]: f16, %[[VAL_3:.*]]: f32):
+// MXF16-GENERIC:             %[[VAL_4:.*]] = arith.extf %[[VAL_1]] : f16 to f32
+// MXF16-GENERIC:             %[[VAL_5:.*]] = arith.extf %[[VAL_2]] : f16 to f32
+// MXF16-GENERIC:             %[[VAL_6:.*]] = arith.mulf %[[VAL_4]], %[[VAL_5]] : f32
+// MXF16-GENERIC:             %[[VAL_7:.*]] = arith.addf %[[VAL_3]], %[[VAL_6]] : f32
+// MXF16-GENERIC:             linalg.yield %[[VAL_7]] : f32
+// MXF16-GENERIC:           } -> tensor<2x16x64x48xf32>
+// MXF16-GENERIC:           return %[[VAL_0]] : tensor<2x16x64x48xf32>
+// MXF16-GENERIC:         }
+
+// MXF16-CONTRACT: #[[$ATTR_0:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d0, d2, d3, d5)>
+// MXF16-CONTRACT: #[[$ATTR_1:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d1, d2, d5, d4)>
+// MXF16-CONTRACT: #[[$ATTR_2:.+]] = affine_map<(d0, d1, d2, d3, d4, d5) -> (d0, d1, d3, d4)>
+// MXF16-CONTRACT-LABEL:   func.func @entry(
+// MXF16-CONTRACT-SAME:                     %[[ARG0:.*]]: tensor<2x36x64x64xf16>,
+// MXF16-CONTRACT-SAME:                     %[[ARG1:.*]]: tensor<16x36x64x48xf16>,
+// MXF16-CONTRACT-SAME:                     %[[ARG2:.*]]: tensor<2x16x64x48xf32>) -> tensor<2x16x64x48xf32> {
+// MXF16-CONTRACT:           %[[VAL_0:.*]] = linalg.contract indexing_maps = [#[[$ATTR_0]], #[[$ATTR_1]], #[[$ATTR_2]]] ins(%[[ARG0]], %[[ARG1]] : tensor<2x36x64x64xf16>, tensor<16x36x64x48xf16>) outs(%[[ARG2]] : tensor<2x16x64x48xf32>) -> tensor<2x16x64x48xf32>
+// MXF16-CONTRACT:           return %[[VAL_0]] : tensor<2x16x64x48xf32>
+// MXF16-CONTRACT:         }
diff --git a/tools/mlir-gen/MLIRGen.cpp b/tools/mlir-gen/MLIRGen.cpp
@@ -114,16 +114,27 @@ MLIRGenerator::MLIRGenerator(StringRef outputOpKindStr, StringRef kernelStr,
          "Must have 3 tile sizes (or none)");
 
   // Pick data type
-  auto elementType = llvm::StringSwitch<std::optional<Type>>(targetType)
-                         .CaseLower("f32", builder.getF32Type())
-                         .CaseLower("f16", builder.getF16Type())
-                         .CaseLower("bf16", builder.getBF16Type())
-                         .Default(std::nullopt);
+  auto elementType =
+      llvm::StringSwitch<std::optional<SmallVector<mlir::Type>>>(targetType)
+          .CaseLower("f32", SmallVector<Type>{builder.getF32Type(),
+                                              builder.getF32Type()})
+          .CaseLower("f16", SmallVector<Type>{builder.getF16Type(),
+                                              builder.getF16Type()})
+          .CaseLower("bf16", SmallVector<Type>{builder.getBF16Type(),
+                                               builder.getBF16Type()})
+          .CaseLower("mx-bf16", SmallVector<Type>{builder.getBF16Type(),
+                                                  builder.getF32Type()})
+          .CaseLower("mx-f16", SmallVector<Type>{builder.getF16Type(),
+                                                 builder.getF32Type()})
+          .CaseLower("mx-i8", SmallVector<Type>{builder.getIntegerType(8),
+                                                builder.getI32Type()})
+          .Default(std::nullopt);
   assert(elementType && "Unsupported data type");
-  dataType = *elementType;
+  dataTypes.push_back((*elementType)[0]);
+  dataTypes.push_back((*elementType)[1]);
 
   // Disable VNNI packing if it is not a F16/BF16 data type
-   if (!dataType.isBF16() && !dataType.isF16())
+  if (!dataTypes[0].isBF16() && !dataTypes[0].isF16())
     vnniFactor = 0;
   assert(((vnniFactor >= 0) && (vnniFactor % 2 == 0)) &&
          "Invalid VNNI packing factor");
@@ -437,9 +448,45 @@ Value MLIRGenerator::lowerGenericMatmul(Value input, Value weight,
                 auto arg0 = blockArgs[0];
                 auto arg1 = blockArgs[1];
                 auto arg2 = blockArgs[2];
-                auto mul = nestedBuilder.create<arith::MulFOp>(loc, arg0, arg1);
-                auto add = nestedBuilder.create<arith::AddFOp>(loc, arg2, mul);
-                nestedBuilder.create<linalg::YieldOp>(loc, ValueRange{add});
+                // If input and output type differs, up cast input to output
+                // type using arith.extf/arith.extsi.
+                Type inputElementType =
+                    cast<ShapedType>(input.getType()).getElementType();
+                Type weightElementType =
+                    cast<ShapedType>(weight.getType()).getElementType();
+                Type outputElementType =
+                    cast<ShapedType>(output.getType()).getElementType();
+                if (inputElementType != outputElementType) {
+                  if (inputElementType.isFloat()) {
+                    arg0 = nestedBuilder.create<arith::ExtFOp>(
+                        loc, outputElementType, arg0);
+                  } else {
+                    arg0 = nestedBuilder.create<arith::ExtSIOp>(
+                        loc, outputElementType, arg0);
+                  }
+                }
+
+                if (weightElementType != outputElementType) {
+                  if (weightElementType.isFloat()) {
+                    arg1 = nestedBuilder.create<arith::ExtFOp>(
+                        loc, outputElementType, arg1);
+                  } else {
+                    arg1 = nestedBuilder.create<arith::ExtSIOp>(
+                        loc, outputElementType, arg1);
+                  }
+                }
+
+                auto *mul =
+                    outputElementType.isFloat()
+                        ? nestedBuilder.create<arith::MulFOp>(loc, arg0, arg1)
+                        : nestedBuilder.create<arith::MulIOp>(loc, arg0, arg1);
+                auto *add = outputElementType.isFloat()
+                                ? nestedBuilder.create<arith::AddFOp>(
+                                      loc, arg2, mul->getResult(0))
+                                : nestedBuilder.create<arith::AddIOp>(
+                                      loc, arg2, mul->getResult(0));
+                nestedBuilder.create<linalg::YieldOp>(
+                    loc, ValueRange{add->getResults()});
               })
           .getResult(0);
 
@@ -520,7 +567,7 @@ Value MLIRGenerator::lowerNamedRelu(Value input, Value output) {
     return input;
 
   auto outTy = cast<ShapedType>(input.getType());
-  auto zero = getConstFloat(builder, 0.0, cast<FloatType>(dataType));
+  auto zero = getConstFloat(builder, 0.0, cast<FloatType>(dataTypes[0]));
   Value emptyTensor = builder.create<tensor::EmptyOp>(loc, outTy, ValueRange{});
   auto fill =
       builder.create<linalg::FillOp>(loc, zero, emptyTensor)->getResult(0);
@@ -538,7 +585,7 @@ Value MLIRGenerator::lowerRelu(Value input, Value output) {
   if (!enableRelu)
     return input;
 
-  auto zero = getConstFloat(builder, 0.0, cast<FloatType>(dataType));
+  auto zero = getConstFloat(builder, 0.0, cast<FloatType>(dataTypes[0]));
   auto outTy = cast<ShapedType>(input.getType());
   auto map = getMap(input, MAP_PARALLEL);
   auto relu =
@@ -602,7 +649,7 @@ Value MLIRGenerator::lowerSoftmax(Value input, Value output) {
   auto redTy = getShape(dims, PACK_OUTPUT);
   Value redTensor =
       builder.create<tensor::EmptyOp>(loc, dims, outTy.getElementType());
-  auto zero = getConstFloat(builder, 0.0, cast<FloatType>(dataType));
+  auto zero = getConstFloat(builder, 0.0, cast<FloatType>(dataTypes[0]));
   auto fill = builder.create<linalg::FillOp>(loc, zero, redTensor);
   auto redux = builder.create<linalg::GenericOp>(
       loc, redTy, ValueRange{exp.getResult(0)}, ValueRange{fill.getResult(0)},
@@ -651,11 +698,13 @@ Value MLIRGenerator::lowerSoftmax(Value input, Value output) {
 TensorType MLIRGenerator::getShape(ArrayRef<int64_t> dims, PackingType type) {
   // Already packed type, just return ND tensor
   if (dims.size() > 2)
-    return RankedTensorType::get(dims, dataType);
+    return RankedTensorType::get(dims, type == PACK_OUTPUT ? dataTypes[1]
+                                                           : dataTypes[0]);
 
   // Unpacked type, just return 2D tensor
   if (!tiles.size())
-    return RankedTensorType::get(dims, dataType);
+    return RankedTensorType::get(dims, type == PACK_OUTPUT ? dataTypes[1]
+                                                           : dataTypes[0]);
 
   // Packed types block by tile size
   assert(tiles.size() == 3 && "Invalid tile size format");
@@ -671,7 +720,7 @@ TensorType MLIRGenerator::getShape(ArrayRef<int64_t> dims, PackingType type) {
     assert(x % n == 0 && "Invalid tile size for N dim");
     assert(y % c == 0 && "Invalid tile size for C dim");
     // N x C -> BN x BC x bn x bc
-    return RankedTensorType::get({x / n, y / c, n, c}, dataType);
+    return RankedTensorType::get({x / n, y / c, n, c}, dataTypes[0]);
   case PACK_WEIGHT:
     // VNNI packing can be done via tpp-opt --vnni-pack
     assert(x % k == 0 && "Invalid tile size for K dim");
@@ -680,20 +729,20 @@ TensorType MLIRGenerator::getShape(ArrayRef<int64_t> dims, PackingType type) {
     // VNNI: C x K -> BK x BC x bc/vnni x bk x vnni
     if (vnniFactor != 0)
       return RankedTensorType::get(
-          {y / k, x / c, c / vnniFactor, k, vnniFactor}, dataType);
+          {y / k, x / c, c / vnniFactor, k, vnniFactor}, dataTypes[0]);
 
     // C x K -> BK x BC x bc x bk
-    return RankedTensorType::get({y / k, x / c, c, k}, dataType);
+    return RankedTensorType::get({y / k, x / c, c, k}, dataTypes[0]);
   case PACK_OUTPUT:
     assert(x % n == 0 && "Invalid tile size for N dim");
 
     // Broadcast 1D -> 2D is Bk x bk only
     if (!y)
-      return RankedTensorType::get({x / k, k}, dataType);
+      return RankedTensorType::get({x / k, k}, dataTypes[1]);
 
     // N x K -> BN x BK x bn x bk
     assert(y % k == 0 && "Invalid tile size for K dim");
-    return RankedTensorType::get({x / n, y / k, n, k}, dataType);
+    return RankedTensorType::get({x / n, y / k, n, k}, dataTypes[1]);
   }
 
   llvm_unreachable("Unknown packing type");
@@ -838,7 +887,7 @@ int MLIRGenerator::getRand() {
 }
 
 Value MLIRGenerator::getZeroInitTensor(TensorType type) {
-  auto zero = getConstFloat(builder, 0.0, cast<FloatType>(dataType));
+  auto zero = getConstFloat(builder, 0.0, cast<FloatType>(dataTypes[0]));
   Value tensor =
       builder.create<tensor::EmptyOp>(loc, type, ValueRange{}).getResult();
   tensor = builder.create<linalg::FillOp>(loc, zero, tensor).getResult(0);
diff --git a/tools/mlir-gen/MLIRGen.h b/tools/mlir-gen/MLIRGen.h
@@ -52,7 +52,7 @@ class MLIRGenerator {
   SmallVector<int64_t> tiles;
 
   /// Data type (element type of all tensors)
-  Type dataType;
+  SmallVector<Type> dataTypes;
 
   /// Random seed
   int seed;
diff --git a/tools/mlir-gen/mlir-gen.cpp b/tools/mlir-gen/mlir-gen.cpp
@@ -68,7 +68,8 @@ llvm::cl::opt<std::string>
 // Float type
 llvm::cl::opt<std::string>
     floatType("float-type", llvm::cl::desc("Float type and its bitsize"),
-              llvm::cl::value_desc("f32|f16|bf16"), llvm::cl::init("f32"));
+              llvm::cl::value_desc("f32|f16|bf16|mx-bf16|mx-f16|mx-i8"),
+              llvm::cl::init("f32"));
 
 // Random seed
 llvm::cl::opt<int> seed("seed", llvm::cl::desc("Random seed"),