[intel] specialized kernels

januszjah · januszjah · commit cee69b4741fe · 2025-12-08T09:18:11.000Z
diff --git a/third_party/intel/backend/include/sycl_functions.h b/third_party/intel/backend/include/sycl_functions.h
@@ -143,6 +143,8 @@ inline std::optional<bool> isEnvValueBool(std::string str) {
   return std::nullopt;
 }
 
+static constexpr int kBlockIOPitchSpecId = 123;
+
 std::tuple<ze_module_handle_t, ze_result_t>
 create_module(ze_context_handle_t context, ze_device_handle_t device,
               uint8_t *binary_ptr, size_t binary_size, const char *build_flags,
@@ -152,12 +154,25 @@ create_module(ze_context_handle_t context, ze_device_handle_t device,
 
   const ze_module_format_t format =
       is_spv ? ZE_MODULE_FORMAT_IL_SPIRV : ZE_MODULE_FORMAT_NATIVE;
+
+  uint64_t pitchBytesMode = (useBlockIO ? 64u : 0u); // TODO remove
+
+  ze_module_constants_t specConsts{};
+  uint32_t ids[] = {kBlockIOPitchSpecId};
+  uint64_t values[] = {pitchBytesMode};
+
+  specConsts.numConstants = 1;
+  specConsts.pConstantIds = ids;
+  specConsts.pConstantValues = values;
+
   ze_module_desc_t module_description = {};
   module_description.stype = ZE_STRUCTURE_TYPE_MODULE_DESC;
   module_description.format = format;
   module_description.inputSize = static_cast<uint32_t>(binary_size);
   module_description.pInputModule = binary_ptr;
   module_description.pBuildFlags = build_flags;
+  module_description.pConstants = &specConsts;
+
   ze_module_build_log_handle_t buildlog;
   ze_module_handle_t module;
   auto error_no =
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/LoadStoreOpToLLVM.cpp b/third_party/intel/lib/TritonIntelGPUToLLVM/LoadStoreOpToLLVM.cpp
@@ -39,6 +39,8 @@ static int __builtin_ctz(unsigned x) {
 
 namespace {
 
+static constexpr int kBlockIOPitchSpecId = 123;
+
 Value maybeAnd(RewriterBase &rewriter, Location loc, Value a, Value b) {
   auto tb = TritonLLVMOpBuilder(loc, rewriter);
   if (a && b) {
@@ -338,6 +340,11 @@ struct LoadStoreConversionBase {
       triton::tools::getBoolEnv("TRITON_INTEL_PREDICATED");
 };
 
+static Value emitGenericLoad(triton::LoadOp op, Value llPtr, Value llMask,
+                             Value llOther, ConversionPatternRewriter &rewriter,
+                             const LLVMTypeConverter *typeConverter,
+                             const LoadStoreConversionBase &base);
+
 struct BlockIOConversionBase : public LoadStoreConversionBase {
   explicit BlockIOConversionBase(
       const triton::intel::TargetInfo &targetInfo,
@@ -1659,9 +1666,13 @@ struct LoadOpToBlockIOConversion
       std::swap(baseWidth, baseHeight);
     }
     // HW requires the pitch to be at least 64 bytes.
+    bool needRuntimePitchCheck = false;
+
     if (auto pitchConst = mlir::triton::intel::getFoldedConstantValue(pitch)) {
       if ((*pitchConst * elemSizeInBits / 8) < 64)
         return failure();
+    } else {
+      needRuntimePitchCheck = true;
     }
 
     baseWidth = b.trunc(i32_ty, baseWidth);
@@ -1889,10 +1900,72 @@ struct LoadOpToBlockIOConversion
     }
 
     Type llvmResultStructTy = typeConverter->convertType(op.getType());
-    Value resultStruct = packLLElements(loc, typeConverter, unpackedLoadedVals,
-                                        rewriter, llvmResultStructTy);
-    rewriter.replaceOp(op, {resultStruct});
 
+    Value blockIOResult = packLLElements(loc, typeConverter, unpackedLoadedVals,
+                                         rewriter, llvmResultStructTy);
+
+    Value finalResult;
+    if (!needRuntimePitchCheck) {
+      finalResult = blockIOResult;
+    } else {
+      MLIRContext *ctx = rewriter.getContext();
+      ModuleOp module = op->getParentOfType<ModuleOp>();
+
+      auto i32Ty = IntegerType::get(ctx, 32);
+      auto fnTy = LLVM::LLVMFunctionType::get(
+          i32Ty, ArrayRef<Type>{i32Ty, i32Ty}, /*isVarArg=*/false);
+
+      LLVM::LLVMFuncOp specFn =
+          module.lookupSymbol<LLVM::LLVMFuncOp>("__spirv_SpecConstant");
+      if (!specFn) {
+        PatternRewriter::InsertionGuard guard(rewriter);
+        rewriter.setInsertionPointToStart(module.getBody());
+
+        ImplicitLocOpBuilder ib(loc, rewriter);
+        specFn = LLVM::LLVMFuncOp::create(ib, "__spirv_SpecConstant", fnTy);
+        // default linkage is External
+      }
+
+      // Default value (in bytes) if host doesn't specialize this ID.
+      // Using 0 means "disable block-IO by default".
+      Value specIdVal = LLVM::ConstantOp::create(
+          rewriter, loc, i32Ty,
+          rewriter.getI32IntegerAttr(kBlockIOPitchSpecId));
+
+      Value defaultPitchBytes = LLVM::ConstantOp::create(
+          rewriter, loc, i32Ty, rewriter.getI32IntegerAttr(0));
+
+      // llvm.call @__spirv_SpecConstant(i32 specId, i32 default) -> i32
+      auto call = LLVM::CallOp::create(
+          rewriter, loc, TypeRange{i32Ty}, SymbolRefAttr::get(specFn),
+          ValueRange{specIdVal, defaultPitchBytes});
+
+      Value specPitchBytes = call.getResult();
+
+      // cond = (specPitchBytes >= 64)
+      Value cond = b.icmp_sge(specPitchBytes, b.i32_val(64));
+
+      // Generic fallback lowering (gather load).
+      Value genericResult = emitGenericLoad(op,
+                                            adaptor.getPtr(),   // llPtr
+                                            adaptor.getMask(),  // llMask
+                                            adaptor.getOther(), // llOther
+                                            rewriter, typeConverter, *this);
+
+      auto createBlockIOResult = [&]() -> SmallVector<Value, 1> {
+        return {blockIOResult};
+      };
+
+      Block &mergeBlock = LLVM::intel::createPredicatedBlock(
+          rewriter, loc,
+          cond,                                 // true → block-IO
+          SmallVector<Value, 1>{genericResult}, // false → generic
+          createBlockIOResult);
+
+      finalResult = mergeBlock.getArgument(0);
+    }
+
+    rewriter.replaceOp(op, finalResult);
     return success();
   }
 
@@ -2426,31 +2499,28 @@ struct LoadOpConversion : public ConvertOpToLLVMPattern<triton::LoadOp>,
       : ConvertOpToLLVMPattern<triton::LoadOp>(converter, benefit),
         LoadStoreConversionBase(targetInfo, axisAnalysisPass) {}
 
-  LogicalResult
-  matchAndRewrite(triton::LoadOp op, OpAdaptor adaptor,
-                  ConversionPatternRewriter &rewriter) const override {
+  /// Generic lowering for triton::LoadOp → LLVM struct value.
+  static Value emitGenericLoadImpl(triton::LoadOp op, Value llPtr, Value llMask,
+                                   Value llOther,
+                                   ConversionPatternRewriter &rewriter,
+                                   const LLVMTypeConverter *typeConverter,
+                                   const LoadStoreConversionBase &base) {
     Location loc = op->getLoc();
     auto b = TritonLLVMOpBuilder(loc, rewriter);
-    auto typeConverter = getTypeConverter();
     MLIRContext *ctx = rewriter.getContext();
 
     // original values
     Value ptr = op.getPtr();
     Value mask = op.getMask();
     Value other = op.getOther();
 
-    // adaptor values
-    Value llPtr = adaptor.getPtr();
-    Value llMask = adaptor.getMask();
-    Value llOther = adaptor.getOther();
-
     // Determine the vectorization size
     Type valueElemTy =
         typeConverter->convertType(getElementTypeOrSelf(op.getType()));
     unsigned numElems = getTotalElemsPerThread(op.getType());
-    unsigned vec = getVectorSize(ptr);
+    unsigned vec = base.getVectorSize(ptr);
     if (llMask)
-      vec = std::min<size_t>(vec, getMaskAlignment(mask));
+      vec = std::min<std::size_t>(vec, base.getMaskAlignment(mask));
 
     SmallVector<Value> ptrElems, maskElems, otherElems;
     bool otherIsSplatConstInt = false;
@@ -2459,9 +2529,10 @@ struct LoadOpConversion : public ConvertOpToLLVMPattern<triton::LoadOp>,
     if (isTensorPointerType(ptr.getType())) {
       // fallback to gather load.
       auto tensorType = cast<RankedTensorType>(op.getType());
-      std::tie(ptrElems, maskElems, otherElems) = convertBlockPtrToTensorOfPtr(
-          loc, llPtr, tensorType, valueElemTy, rewriter, op.getBoundaryCheck(),
-          op.getPadding());
+      std::tie(ptrElems, maskElems, otherElems) =
+          base.convertBlockPtrToTensorOfPtr(loc, llPtr, tensorType, valueElemTy,
+                                            rewriter, op.getBoundaryCheck(),
+                                            op.getPadding());
     } else {
       // Get the LLVM values for pointers
       ptrElems = unpackLLElements(loc, llPtr, rewriter);
@@ -2503,19 +2574,19 @@ struct LoadOpConversion : public ConvertOpToLLVMPattern<triton::LoadOp>,
       if (unsigned canonicalVecStart = getCanonicalIndex(vecStart, regMask);
           vecStart != canonicalVecStart) {
         // For redundant registers, refer back to the canonical load
-        for (int iVec = 0; iVec < vec; ++iVec)
+        for (int iVec = 0; iVec < static_cast<int>(vec); ++iVec)
           loadedVals.push_back(loadedVals[canonicalVecStart + iVec]);
-
         continue;
       }
 
       // TODO: optimization when ptr is GEP with constant offset
-      const size_t maxWordWidth = std::max<size_t>(32, valueElemNBits);
+      const size_t maxWordWidth = std::max<std::size_t>(32, valueElemNBits);
       const size_t totalWidth = valueElemNBits * vec;
       const size_t width = std::min(totalWidth, maxWordWidth);
-      const size_t nWords = std::max<size_t>(1, totalWidth / width);
+      const size_t nWords = std::max<std::size_t>(1, totalWidth / width);
       const size_t wordNElems = width / valueElemNBits;
       const size_t movWidth = width < 16 ? 16 : width;
+      (void)movWidth; // keep variable but silence unused warning
       assert(wordNElems * nWords * numVecs == numElems);
 
       Value pred = maskElems.size() ? maskElems[vecStart] : Value{};
@@ -2554,9 +2625,7 @@ struct LoadOpConversion : public ConvertOpToLLVMPattern<triton::LoadOp>,
                         retTy, other_, v,
                         createIndexAttrConstant(
                             rewriter, loc, typeConverter->getIndexType(), ii))
-                  :
-
-                  v;
+                  : v;
         }
       }
       assert(other_ && "Expecting a valid value");
@@ -2566,13 +2635,13 @@ struct LoadOpConversion : public ConvertOpToLLVMPattern<triton::LoadOp>,
       auto createLoadWithAttrs = [&]() {
         return SmallVector<Value>{b.load(retTy, addrElem, alignment,
                                          op.getIsVolatile(),
-                                         getNonTemporalFlag(op))};
+                                         base.getNonTemporalFlag(op))};
       };
 
       Value ret;
       if (!pred)
         ret = createLoadWithAttrs()[0];
-      else if (canUsePredicatedInstructions(op))
+      else if (base.canUsePredicatedInstructions(op))
         ret = TritonGEN::PredicatedLoadOp::create(
             rewriter, loc, retTy, addrElem, b.i64_val(alignment), pred, other_);
       else {
@@ -2604,13 +2673,29 @@ struct LoadOpConversion : public ConvertOpToLLVMPattern<triton::LoadOp>,
     } // end vec
 
     Type llvmResultStructTy = typeConverter->convertType(op.getType());
-    Value resultStruct = packLLElements(loc, typeConverter, loadedVals,
-                                        rewriter, llvmResultStructTy);
+    return packLLElements(loc, typeConverter, loadedVals, rewriter,
+                          llvmResultStructTy);
+  }
+
+  LogicalResult
+  matchAndRewrite(triton::LoadOp op, OpAdaptor adaptor,
+                  ConversionPatternRewriter &rewriter) const override {
+    Value resultStruct = emitGenericLoadImpl(
+        op, adaptor.getPtr(), adaptor.getMask(), adaptor.getOther(), rewriter,
+        getTypeConverter(), *this);
     rewriter.replaceOp(op, {resultStruct});
     return success();
   }
 };
 
+static Value emitGenericLoad(triton::LoadOp op, Value llPtr, Value llMask,
+                             Value llOther, ConversionPatternRewriter &rewriter,
+                             const LLVMTypeConverter *typeConverter,
+                             const LoadStoreConversionBase &base) {
+  return LoadOpConversion::emitGenericLoadImpl(op, llPtr, llMask, llOther,
+                                               rewriter, typeConverter, base);
+}
+
 struct StoreOpToBlockIOConversion
     : public ConvertTritonGPUOpToLLVMPattern<triton::StoreOp>,
       public BlockIOConversionBase {