Add support for -ftarget-prec-div/sqrt options.

zahiraam · zahiraam · commit f8caf83f6748 · 2024-10-23T08:38:31.000-07:00
diff --git a/clang/include/clang/Basic/DiagnosticCommonKinds.td b/clang/include/clang/Basic/DiagnosticCommonKinds.td
@@ -379,6 +379,11 @@ def err_ppc_impossible_musttail: Error<
 def err_aix_musttail_unsupported: Error<
   "'musttail' attribute is not supported on AIX">;
 
+def warn_acuracy_conflicts_with_explicit_target_prec_option : Warning<
+  "floating point accuracy control '%0' conflicts with explicit target "
+  "precision option '%1'">,
+  InGroup<DiagGroup<"accuracy-conflicts-with-explicit-target-prec-option">>;
+
 // Source manager
 def err_cannot_open_file : Error<"cannot open file '%0': %1">, DefaultFatal;
 def err_file_modified : Error<
diff --git a/clang/include/clang/Basic/FPOptions.def b/clang/include/clang/Basic/FPOptions.def
@@ -30,4 +30,6 @@ OPTION(BFloat16ExcessPrecision, LangOptions::ExcessPrecisionKind, 2, Float16Exce
 OPTION(FPAccuracy, LangOptions::FPAccuracyKind, 3, BFloat16ExcessPrecision)
 OPTION(MathErrno, bool, 1, FPAccuracy)
 OPTION(ComplexRange, LangOptions::ComplexRangeKind, 2, MathErrno)
+OPTION(TargetPrecDiv, bool, 1, ComplexRange)
+OPTION(TargetPrecSqrt, bool, 1, TargetPrecDiv)
 #undef OPTION
diff --git a/clang/include/clang/Basic/LangOptions.def b/clang/include/clang/Basic/LangOptions.def
@@ -372,6 +372,8 @@ BENIGN_ENUM_LANGOPT(FPEvalMethod, FPEvalMethodKind, 2, FEM_UnsetOnCommandLine, "
 ENUM_LANGOPT(Float16ExcessPrecision, ExcessPrecisionKind, 2, FPP_Standard, "Intermediate truncation behavior for Float16 arithmetic")
 ENUM_LANGOPT(BFloat16ExcessPrecision, ExcessPrecisionKind, 2, FPP_Standard, "Intermediate truncation behavior for BFloat16 arithmetic")
 BENIGN_ENUM_LANGOPT(FPAccuracy, FPAccuracyKind, 3, FPA_Default, "Accuracy for floating point operations and library functions")
+LANGOPT(TargetPrecDiv, 1, 1, "Return correctly rounded results of fdiv")
+LANGOPT(TargetPrecSqrt, 1, 1, "Return correctly rounded results of sqrt")
 LANGOPT(NoBitFieldTypeAlign , 1, 0, "bit-field type alignment")
 LANGOPT(HexagonQdsp6Compat , 1, 0, "hexagon-qdsp6 backward compatibility")
 LANGOPT(ObjCAutoRefCount , 1, 0, "Objective-C automated reference counting")
diff --git a/clang/include/clang/Driver/Options.td b/clang/include/clang/Driver/Options.td
@@ -1157,6 +1157,22 @@ defm cx_fortran_rules: BoolOptionWithoutMarshalling<"f", "cx-fortran-rules",
   NegFlag<SetFalse, [], [ClangOption, CC1Option], "Range reduction is disabled "
   "for complex arithmetic operations">>;
 
+ defm target_prec_div: BoolOption<"f", "target-prec-div",
+  LangOpts<"TargetPrecDiv">, DefaultTrue,
+  PosFlag<SetTrue, [], [ClangOption, CC1Option], "fdiv operations in offload device "
+  "code are required to return correctly rounded results.">,
+  NegFlag<SetFalse, [], [ClangOption, CC1Option], "fdiv operations in offload device "
+  "code are not required to return correctly rounded results.">>,
+  Group<f_Group>;
+
+ defm target_prec_sqrt: BoolOption<"f", "target-prec-sqrt",
+ LangOpts<"TargetPrecSqrt">, DefaultTrue,
+  PosFlag<SetTrue, [], [ClangOption, CC1Option], "sqrt operations in offload device "
+  "code are required to return correctly rounded results.">,
+  NegFlag<SetFalse, [], [ClangOption, CC1Option], "sqrt operations in offload device "
+  "code are not required to return correctly rounded results.">>,
+  Group<f_Group>;
+
 // OpenCL-only Options
 def cl_opt_disable : Flag<["-"], "cl-opt-disable">, Group<opencl_Group>,
   Visibility<[ClangOption, CC1Option]>,
diff --git a/clang/lib/CodeGen/CGBuiltin.cpp b/clang/lib/CodeGen/CGBuiltin.cpp
@@ -24099,6 +24099,7 @@ llvm::CallInst *CodeGenFunction::MaybeEmitFPBuiltinofFD(
             .Case("sincos", llvm::Intrinsic::fpbuiltin_sincos)
             .Case("exp10", llvm::Intrinsic::fpbuiltin_exp10)
             .Case("rsqrt", llvm::Intrinsic::fpbuiltin_rsqrt)
+            .Case("sqrt", llvm::Intrinsic::fpbuiltin_sqrt)
             .Default(0);
   } else {
     // The function has a clang builtin. Create an attribute for it
@@ -24200,7 +24201,8 @@ llvm::CallInst *CodeGenFunction::MaybeEmitFPBuiltinofFD(
   // a TU fp-accuracy requested.
   const LangOptions &LangOpts = getLangOpts();
   if (hasFuncNameRequestedFPAccuracy(Name, LangOpts) ||
-      !LangOpts.FPAccuracyVal.empty()) {
+      !LangOpts.FPAccuracyVal.empty() || !LangOpts.TargetPrecDiv ||
+      !LangOpts.TargetPrecSqrt) {
     llvm::Function *Func =
         CGM.getIntrinsic(FPAccuracyIntrinsicID, IRArgs[0]->getType());
     return CreateBuiltinCallWithAttr(*this, Name, Func, ArrayRef(IRArgs),
diff --git a/clang/lib/CodeGen/CGCall.cpp b/clang/lib/CodeGen/CGCall.cpp
@@ -1889,15 +1889,23 @@ void CodeGenModule::getDefaultFunctionFPAccuracyAttributes(
           Int32Ty, convertFPAccuracyToAspect(FuncMapIt->second)));
     }
   }
-  if (FuncAttrs.attrs().size() == 0)
+  if (FuncAttrs.attrs().size() == 0) {
+    StringRef FPAccuracyVal;
     if (!getLangOpts().FPAccuracyVal.empty()) {
-      StringRef FPAccuracyVal = llvm::fp::getAccuracyForFPBuiltin(
+      FPAccuracyVal = llvm::fp::getAccuracyForFPBuiltin(
           ID, FuncType, convertFPAccuracy(getLangOpts().FPAccuracyVal));
       assert(!FPAccuracyVal.empty() && "A valid accuracy value is expected");
       FuncAttrs.addAttribute("fpbuiltin-max-error", FPAccuracyVal);
       MD = llvm::ConstantAsMetadata::get(llvm::ConstantInt::get(
           Int32Ty, convertFPAccuracyToAspect(getLangOpts().FPAccuracyVal)));
     }
+    if (Name == "sqrt" && !getLangOpts().TargetPrecSqrt)
+      FPAccuracyVal = "3.0";
+    if (Name == "fdiv" && !getLangOpts().TargetPrecDiv)
+      FPAccuracyVal = "2.5";
+    if (!FPAccuracyVal.empty())
+      FuncAttrs.addAttribute("fpbuiltin-max-error", FPAccuracyVal);
+  }
 }
 
 /// Add denormal-fp-math and denormal-fp-math-f32 as appropriate for the
@@ -5790,10 +5798,16 @@ RValue CodeGenFunction::EmitCall(const CGFunctionInfo &CallInfo,
   // Emit the actual call/invoke instruction.
   llvm::CallBase *CI;
   if (!InvokeDest) {
-    if (!getLangOpts().FPAccuracyFuncMap.empty() ||
-        !getLangOpts().FPAccuracyVal.empty()) {
-      const auto *FD = dyn_cast_if_present<FunctionDecl>(TargetDecl);
-      if (FD && FD->getNameInfo().getName().isIdentifier()) {
+    const auto *FD = dyn_cast_if_present<FunctionDecl>(TargetDecl);
+    if (FD && FD->getNameInfo().getName().isIdentifier()) {
+      StringRef FuncName = FD->getName();
+      const bool IsFloat32Type = FD->getReturnType()->isFloat32Type();
+      if (!getLangOpts().FPAccuracyFuncMap.empty() ||
+          !getLangOpts().FPAccuracyVal.empty() ||
+          (FuncName == "sqrt" && !getLangOpts().TargetPrecSqrt &&
+           IsFloat32Type) ||
+          (FuncName == "fdiv" && !getLangOpts().TargetPrecDiv &&
+           IsFloat32Type)) {
         CI = MaybeEmitFPBuiltinofFD(IRFuncTy, IRCallArgs, CalleePtr,
                                     FD->getName(), FD->getBuiltinID());
         if (CI)
diff --git a/clang/lib/Driver/ToolChains/Clang.cpp b/clang/lib/Driver/ToolChains/Clang.cpp
@@ -2942,6 +2942,14 @@ static void EmitComplexRangeDiag(const Driver &D, std::string str1,
   }
 }
 
+static void EmitAccuracyDiag(const Driver &D, const JobAction &JA,
+                             StringRef AccuracValStr, StringRef TargetPrecStr) {
+  if (JA.isDeviceOffloading(Action::OFK_SYCL)) {
+    D.Diag(clang::diag::warn_acuracy_conflicts_with_explicit_target_prec_option)
+        << AccuracValStr << TargetPrecStr;
+  }
+}
+
 static std::string
 RenderComplexRangeOption(LangOptions::ComplexRangeKind Range) {
   std::string ComplexRangeStr = ComplexRangeKindToStr(Range);
@@ -2950,6 +2958,14 @@ RenderComplexRangeOption(LangOptions::ComplexRangeKind Range) {
   return ComplexRangeStr;
 }
 
+static bool shouldUsePreciseDivision(const ArgList &Args) {
+  return Args.hasArg(options::OPT_ftarget_prec_div);
+}
+
+static bool shouldUsePreciseSqrt(const ArgList &Args) {
+  return Args.hasArg(options::OPT_ftarget_prec_sqrt);
+}
+
 static void RenderFloatingPointOptions(const ToolChain &TC, const Driver &D,
                                        bool OFastEnabled, const ArgList &Args,
                                        ArgStringList &CmdArgs,
@@ -2998,6 +3014,8 @@ static void RenderFloatingPointOptions(const ToolChain &TC, const Driver &D,
   LangOptions::ComplexRangeKind Range = LangOptions::ComplexRangeKind::CX_None;
   std::string ComplexRangeStr = "";
   std::string GccRangeComplexOption = "";
+  bool NoTargetPrecDiv = false;
+  bool NoTargetPrecSqrt = false;
 
   // Lambda to set fast-math options. This is also used by -ffp-model=fast
   auto applyFastMath = [&]() {
@@ -3060,6 +3078,19 @@ static void RenderFloatingPointOptions(const ToolChain &TC, const Driver &D,
     // If this isn't an FP option skip the claim below
     default: continue;
 
+    case options::OPT_ftarget_prec_div:
+    case options::OPT_ftarget_prec_sqrt:
+      break;
+    case options::OPT_fno_target_prec_sqrt:
+        if (!FPAccuracy.empty())
+        EmitAccuracyDiag(D, JA, FPAccuracy, "-fno-target-prec-sqrt");
+        NoTargetPrecSqrt = true;
+      break;
+    case options::OPT_fno_target_prec_div:
+      if (!FPAccuracy.empty())
+        EmitAccuracyDiag(D, JA, FPAccuracy, "-fno-target-prec-div");
+      NoTargetPrecDiv = true;
+      break;
     case options::OPT_fcx_limited_range:
       if (GccRangeComplexOption.empty()) {
         if (Range != LangOptions::ComplexRangeKind::CX_Basic)
@@ -3144,6 +3175,10 @@ static void RenderFloatingPointOptions(const ToolChain &TC, const Driver &D,
     case options::OPT_ffp_accuracy_EQ: {
       StringRef Val = A->getValue();
       FPAccuracy = Val;
+      if (NoTargetPrecDiv)
+        EmitAccuracyDiag(D, JA, FPAccuracy, "-fno-target-prec-div");
+      if (NoTargetPrecSqrt)
+        EmitAccuracyDiag(D, JA, FPAccuracy, "-fno-target-prec-sqrt");
       break;
     }
     case options::OPT_ffp_model_EQ: {
@@ -3176,6 +3211,12 @@ static void RenderFloatingPointOptions(const ToolChain &TC, const Driver &D,
         applyFastMath();
         // applyFastMath sets fp-contract="fast"
         LastFpContractOverrideOption = "-ffp-model=fast";
+        if (JA.isDeviceOffloading(Action::OFK_SYCL)) {
+          // when fp-model=fast is used the default precision for division and
+          // sqrt is not precise.
+          NoTargetPrecDiv = shouldUsePreciseDivision(Args);
+          NoTargetPrecSqrt = shouldUsePreciseSqrt(Args);
+        }
       } else if (Val == "precise") {
         FPModel = Val;
         FPContract = "on";
@@ -3557,6 +3598,16 @@ static void RenderFloatingPointOptions(const ToolChain &TC, const Driver &D,
     CmdArgs.push_back("-fno-cx-limited-range");
   if (Args.hasArg(options::OPT_fno_cx_fortran_rules))
     CmdArgs.push_back("-fno-cx-fortran-rules");
+  if (JA.isDeviceOffloading(Action::OFK_SYCL)) {
+    if (NoTargetPrecDiv)
+      CmdArgs.push_back("-fno-target-prec-div");
+    else
+      CmdArgs.push_back("-ftarget-prec-div");
+    if (NoTargetPrecSqrt)
+      CmdArgs.push_back("-fno-target-prec-sqrt");
+    else
+      CmdArgs.push_back("-ftarget-prec-sqrt");
+  }
 }
 
 static void RenderAnalyzerOptions(const ArgList &Args, ArgStringList &CmdArgs,
diff --git a/clang/test/CodeGenSYCL/target-prec-sycl-device.cpp b/clang/test/CodeGenSYCL/target-prec-sycl-device.cpp
@@ -0,0 +1,60 @@
+// DEFINE: %{common_opts} = -internal-isystem %S/Inputs -fsycl-is-device \
+// DEFINE: -emit-llvm -triple spir64-unknown-unknown
+
+// RUN: %clang_cc1 %{common_opts} %s -o - \
+// RUN: | FileCheck --check-prefix PREC-SQRT %s
+
+// RUN: %clang_cc1 %{common_opts} -ftarget-prec-sqrt %s -o - \
+// RUN: | FileCheck --check-prefix PREC-SQRT %s
+
+// RUN: %clang_cc1 %{common_opts} -fno-target-prec-sqrt %s -o - \
+// RUN: | FileCheck --check-prefix ROUNDED-SQRT %s
+
+// RUN: %clang_cc1 %{common_opts} -ftarget-prec-div %s -o - \
+// RUN: | FileCheck --check-prefix PREC-DIV %s
+
+// RUN: %clang_cc1 %{common_opts} -fno-target-prec-div %s -o - \
+// RUN: | FileCheck --check-prefix ROUNDED-DIV %s
+
+
+#include "sycl.hpp"
+
+extern "C" SYCL_EXTERNAL float sqrt(float);
+extern "C" SYCL_EXTERNAL float fdiv(float, float);
+
+using namespace sycl;
+
+int main() {
+  const unsigned array_size = 4;
+  range<1> numOfItems{array_size};
+  float Value1 = .5f;
+  float Value2 = .9f;
+  queue deviceQueue;
+
+  deviceQueue.submit([&](handler& cgh) {
+    cgh.parallel_for<class KernelSqrt>(numOfItems,
+    [=](id<1> wiID) {
+      // PREC-SQRT: call spir_func float @sqrt(float noundef {{.*}})
+      // ROUNDED-SQRT: call float @llvm.fpbuiltin.sqrt.f32(float {{.*}}) #[[ATTR_SQRT:[0-9]+]]
+      // ROUNDED-DIV:  call spir_func float @sqrt(float noundef {{.*}})
+      (void)sqrt(Value1);
+    });
+  });
+
+  deviceQueue.submit([&](handler& cgh) {
+    cgh.parallel_for<class KernelFdiv>(numOfItems,
+    [=](id<1> wiID) {
+      // PREC-SQRT: call spir_func float @fdiv(float noundef {{.*}}, float noundef {{.*}})
+      // ROUNDED-SQRT: call spir_func float @fdiv(float noundef {{.*}}, float noundef {{.*}})
+      // PREC-DIV: call spir_func float @fdiv(float noundef {{.*}}, float noundef {{.*}})
+      // ROUNDED-DIV: call float @llvm.fpbuiltin.fdiv.f32(float {{.*}}, float {{.*}}) #[[ATTR_DIV:[0-9]+]]
+
+      (void)fdiv(Value1, Value1);
+    });
+  });
+
+return 0;
+}
+
+// ROUNDED-SQRT: attributes #[[ATTR_SQRT]] = {{.*}}"fpbuiltin-max-error"="3.0"
+// ROUNDED-DIV: attributes #[[ATTR_DIV]] = {{.*}}"fpbuiltin-max-error"="2.5"
diff --git a/clang/test/Driver/target-prec-sycl-device.cpp b/clang/test/Driver/target-prec-sycl-device.cpp
@@ -0,0 +1,28 @@
+// RUN: %clang -c -fsycl -### %s 2>&1 | FileCheck %s
+// RUN: %clang -c -fsycl -ftarget-prec-div -### %s 2>&1 | FileCheck %s
+// RUN: %clang -c -fsycl -ftarget-prec-sqrt -### %s 2>&1 | FileCheck %s
+// RUN: %clang -c -fsycl -ftarget-prec-div -ftarget-prec-sqrt -### %s 2>&1 | FileCheck %s
+// RUN: %clang -c -fsycl -ftarget-prec-sqrt -ftarget-prec-div -### %s 2>&1 | FileCheck %s
+// RUN: %clang -c -fsycl -fno-target-prec-div -### %s 2>&1 | FileCheck --check-prefix=NO_PREC_DIV %s
+// RUN: %clang -c -fsycl -fno-target-prec-sqrt -### %s 2>&1 | FileCheck --check-prefix=NO_PREC_SQRT %s
+// RUN: %clang -c -fsycl -fno-target-prec-div -fno-target-prec-sqrt -### %s 2>&1 | FileCheck --check-prefix=NO_PREC_DIV_SQRT %s
+// RUN: %clang -c -fsycl -fno-target-prec-sqrt -fno-target-prec-div -### %s 2>&1 | FileCheck --check-prefix=NO_PREC_DIV_SQRT %s
+// RUN: %clang -c -fsycl -ffp-accuracy=high -fno-math-errno -fno-target-prec-div  -### %s 2>&1  | FileCheck %s --check-prefix=WARN-HIGH-DIV
+// RUN: %clang -c -fsycl -fno-target-prec-div -ffp-accuracy=high -fno-math-errno  -### %s 2>&1  | FileCheck %s --check-prefix=WARN-HIGH-DIV
+// RUN: %clang -c -fsycl -fno-target-prec-sqrt -ffp-accuracy=high -fno-math-errno  -### %s 2>&1  | FileCheck %s --check-prefix=WARN-HIGH-SQRT
+// RUN: %clang -c -fsycl -ffp-accuracy=high -fno-math-errno -fno-target-prec-sqrt  -### %s 2>&1  | FileCheck %s --check-prefix=WARN-HIGH-SQRT
+// RUN: %clang -c -fsycl -ffp-accuracy=low -fno-math-errno -fno-target-prec-div  -### %s 2>&1  | FileCheck %s --check-prefix=WARN-LOW-DIV
+// RUN: %clang -c -fsycl -ffp-accuracy=low -fno-math-errno -fno-target-prec-sqrt  -### %s 2>&1  | FileCheck %s --check-prefix=WARN-LOW-SQRT
+
+// CHECK: "-triple" "spir64{{.*}}" "-fsycl-is-device"{{.*}} "-ftarget-prec-div" "-ftarget-prec-sqrt"
+// CHECK-NOT: "-triple{{.*}}" "-fsycl-is-host"{{.*}} "-ftarget-prec-div" "-ftarget-prec-sqrt"
+// NO_PREC_DIV: "-triple" "spir64{{.*}}"{{.*}} "-fsycl-is-device"{{.*}} "-fno-target-prec-div" "-ftarget-prec-sqrt"
+// NO_PREC_SQRT: "-triple" "spir64{{.*}}" "-fsycl-is-device"{{.*}} "-ftarget-prec-div" "-fno-target-prec-sqrt"
+// NO_PREC_DIV_SQRT: "-triple" "spir64{{.*}}" "-fsycl-is-device"{{.*}} "-fno-target-prec-div" "-fno-target-prec-sqrt"
+
+// WARN-HIGH-DIV: floating point accuracy control 'high' conflicts with explicit target precision option '-fno-target-prec-div'
+// WARN-HIGH-SQRT: floating point accuracy control 'high' conflicts with explicit target precision option '-fno-target-prec-sqrt'
+// WARN-LOW-DIV: floating point accuracy control 'low' conflicts with explicit target precision option '-fno-target-prec-div'
+// WARN-LOW-SQRT: floating point accuracy control 'low' conflicts with explicit target precision option '-fno-target-prec-sqrt'
+
+