[BACKEND] Fix fp16 to fp32 conversion (#7585)

peterbell10 · web-flow · commit e6aa86c9e9e2 · 2025-07-22T12:49:00.000Z
Fixes #6698
diff --git a/test/Conversion/tritongpu_to_llvm.mlir b/test/Conversion/tritongpu_to_llvm.mlir
@@ -2583,3 +2583,16 @@ tt.func private @arith_constant_array() {
   tt.return
 }
 }
+
+// -----
+
+#blocked = #ttg.blocked<{sizePerThread = [1], threadsPerWarp = [32], warpsPerCTA = [8], order = [0]}>
+
+module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 8 : i32, ttg.target = "cuda:75", "ttg.threads-per-warp" = 32 : i32} {
+  // CHECK-LABEL: fp16_to_fp32
+  tt.func public @fp16_to_fp32(%arg0 : tensor<256xf16, #blocked>) {
+    // CHECK: llvm.fpext %{{.*}} : f16 to f32
+    %0 = tt.fp_to_fp %arg0 : tensor<256xf16, #blocked> -> tensor<256xf32, #blocked>
+    tt.return
+  }
+}
diff --git a/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/ElementwiseOpToLLVM.cpp b/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/ElementwiseOpToLLVM.cpp
@@ -489,6 +489,12 @@ struct FpToFpOpConversion
       }
     }
 
+    if (srcElementType.isF16() && dstElementType.isF32()) {
+      return llvm::to_vector(llvm::map_range(operands[0], [&](Value v) {
+        return convertFp16ToFp32(loc, rewriter, v);
+      }));
+    }
+
     if (srcElementType.isF32() && dstElementType.isF16()) {
       assert(roundingMode.has_value() &&
              "rounding mode must be specified for fp32->fp16 conversion");

Original file line number	Diff line number	Diff line change
`@@ -489,6 +489,12 @@ struct FpToFpOpConversion`
`489`	`489`	`}`
`490`	`490`	`}`
`491`	`491`
	`492`	`+ if (srcElementType.isF16() && dstElementType.isF32()) {`
	`493`	`+ return llvm::to_vector(llvm::map_range(operands[0], [&](Value v) {`
	`494`	`+ return convertFp16ToFp32(loc, rewriter, v);`
	`495`	`+ }));`
	`496`	`+ }`
	`497`	`+`
`492`	`498`	`if (srcElementType.isF32() && dstElementType.isF16()) {`
`493`	`499`	`assert(roundingMode.has_value() &&`
`494`	`500`	`"rounding mode must be specified for fp32->fp16 conversion");`