intel
diff --git a/‎IGC/Compiler/CISACodeGen/CheckInstrTypes.cpp‎
Lines changed: 1 addition & 0 deletions b/‎IGC/Compiler/CISACodeGen/CheckInstrTypes.cpp‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎IGC/Compiler/CISACodeGen/EmitVISAPass.cpp‎
Lines changed: 167 additions & 8 deletions b/‎IGC/Compiler/CISACodeGen/EmitVISAPass.cpp‎
Lines changed: 167 additions & 8 deletions
diff --git a/‎IGC/Compiler/CISACodeGen/EmitVISAPass.hpp‎
Lines changed: 19 additions & 0 deletions b/‎IGC/Compiler/CISACodeGen/EmitVISAPass.hpp‎
Lines changed: 19 additions & 0 deletions
diff --git a/‎IGC/Compiler/CISACodeGen/HalfPromotion.cpp‎
Lines changed: 2 additions & 1 deletion b/‎IGC/Compiler/CISACodeGen/HalfPromotion.cpp‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎IGC/Compiler/CISACodeGen/PatternMatchPass.cpp‎
Lines changed: 2 additions & 0 deletions b/‎IGC/Compiler/CISACodeGen/PatternMatchPass.cpp‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎IGC/Compiler/CISACodeGen/PromoteInt8Type.cpp‎
Lines changed: 4 additions & 0 deletions b/‎IGC/Compiler/CISACodeGen/PromoteInt8Type.cpp‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎IGC/Compiler/CISACodeGen/WIAnalysis.cpp‎
Lines changed: 3 additions & 1 deletion b/‎IGC/Compiler/CISACodeGen/WIAnalysis.cpp‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎IGC/Compiler/CISACodeGen/helper.cpp‎
Lines changed: 1 addition & 0 deletions b/‎IGC/Compiler/CISACodeGen/helper.cpp‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎IGC/Compiler/CISACodeGen/opCode.h‎
Lines changed: 1 addition & 0 deletions b/‎IGC/Compiler/CISACodeGen/opCode.h‎
Lines changed: 1 addition & 0 deletions
@@ -343,6 +343,7 @@ void CheckInstrTypes::visitCallInst(CallInst& C)
         case GenISAIntrinsic::GenISA_WavePrefix:
         case GenISAIntrinsic::GenISA_WaveClustered:
         case GenISAIntrinsic::GenISA_WaveInterleave:
+        case GenISAIntrinsic::GenISA_WaveClusteredInterleave:
         case GenISAIntrinsic::GenISA_QuadPrefix:
         case GenISAIntrinsic::GenISA_simdShuffleDown:
         case GenISAIntrinsic::GenISA_simdShuffleXor:
 
@@ -8980,6 +8980,9 @@ void EmitPass::EmitGenIntrinsicMessage(llvm::GenIntrinsicInst* inst)
     case GenISAIntrinsic::GenISA_WaveClustered:
         emitWaveClustered(inst);
         break;
+    case GenISAIntrinsic::GenISA_WaveClusteredInterleave:
+        emitWaveClusteredInterleave(inst);
+        break;
     case GenISAIntrinsic::GenISA_dp4a_ss:
     case GenISAIntrinsic::GenISA_dp4a_uu:
     case GenISAIntrinsic::GenISA_dp4a_su:
@@ -13802,6 +13805,8 @@ void EmitPass::emitReductionClustered(const e_opcode op, const uint64_t identity
     }
 }
 
+// Emits interleave reduction, first preparing the input data. This guarantees to produce
+// correct result even if not all lanes are active.
 void EmitPass::emitReductionInterleave(const e_opcode op, const uint64_t identityValue, const VISA_Type type,
     const bool negate, const unsigned int step, CVariable* const src, CVariable* const dst)
 {
@@ -13819,17 +13824,31 @@ void EmitPass::emitReductionInterleave(const e_opcode op, const uint64_t identit
 
     CVariable* srcH1 = ScanReducePrepareSrc(type, identityValue, negate, false /* secondHalf */,
         src, nullptr /* dst */);
-    CVariable* temp = srcH1;
+
+    CVariable* srcH2 = nullptr;
+    if (firstStep == 16 && m_currShader->m_numberInstance > 1)
+    {
+        srcH2 = ScanReducePrepareSrc(type, identityValue, negate, true /* secondHalf */,
+            src, nullptr /* dst */);
+    }
+
+    emitReductionInterleave(op, type, m_currShader->m_SIMDSize, step, false, srcH1, srcH2, dst);
+}
+
+// Directly emits interleave reduction on input data, without preparing the input.
+void EmitPass::emitReductionInterleave(const e_opcode op, const VISA_Type type, const SIMDMode simd,
+    const unsigned int step, const bool noMaskBroadcast, CVariable* const src1, CVariable* const src2, CVariable* const dst)
+{
+    const uint16_t firstStep = m_currShader->m_numberInstance * numLanes(simd) / 2;
+
+    CVariable* temp = src1;
 
     // Implementation is similar to emitReductionAll(), but we stop reduction before reaching SIMD1.
     for (unsigned int currentStep = firstStep; currentStep >= step; currentStep >>= 1)
     {
         if (currentStep == 16 && m_currShader->m_numberInstance > 1)
         {
-            CVariable* srcH2 = ScanReducePrepareSrc(type, identityValue, negate, true /* secondHalf */,
-                src, nullptr /* dst */);
-
-            temp = ReductionReduceHelper(op, type, SIMDMode::SIMD16, temp, srcH2);
+            temp = ReductionReduceHelper(op, type, SIMDMode::SIMD16, temp, src2);
         }
         else
         {
@@ -13838,15 +13857,18 @@ void EmitPass::emitReductionInterleave(const e_opcode op, const uint64_t identit
     }
 
     // Broadcast result
+    if (noMaskBroadcast)
+        m_encoder->SetNoMask();
+
     // For XeHP, for low interleave step, broadcast of 64-bit result
     // can be optimized as a separate mov of low/high 32-bit.
     bool use32bitMove = ScanReduceIs64BitType(type) && m_currShader->m_Platform->doScalar64bScan() && m_currShader->m_numberInstance == 1;
     if (use32bitMove && (step == 2 || step == 4))
     {
         CVariable* result32b = m_currShader->GetNewAlias(temp, ISA_TYPE_UD, 0, 2 * step);
-        CVariable* dst32b = m_currShader->GetNewAlias(dst, ISA_TYPE_UD, 0, 2 * numLanes(m_currShader->m_SIMDSize));
+        CVariable* dst32b = m_currShader->GetNewAlias(dst, ISA_TYPE_UD, 0, 2 * numLanes(simd));
 
-        m_encoder->SetSimdSize(m_currShader->m_SIMDSize);
+        m_encoder->SetSimdSize(simd);
         m_encoder->SetSrcRegion(0, 0, step, 2);
         m_encoder->SetDstRegion(2);
         m_encoder->Copy(dst32b, result32b);
@@ -13859,7 +13881,7 @@ void EmitPass::emitReductionInterleave(const e_opcode op, const uint64_t identit
         return;
     }
 
-    m_encoder->SetSimdSize(m_currShader->m_SIMDSize);
+    m_encoder->SetSimdSize(simd);
     m_encoder->SetSrcRegion(0, 0, step, 1);
     m_encoder->Copy(dst, temp);
     if (m_currShader->m_numberInstance > 1)
@@ -13871,6 +13893,119 @@ void EmitPass::emitReductionInterleave(const e_opcode op, const uint64_t identit
     m_encoder->Push();
 }
 
+void EmitPass::emitReductionClusteredInterleave(const e_opcode op, const uint64_t identityValue, const VISA_Type type,
+    const bool negate, const unsigned int clusterSize, const unsigned int interleaveStep, CVariable* const src, CVariable* const dst)
+{
+    IGC_ASSERT_MESSAGE(!dst->IsUniform(), "Unsupported: dst must be non-uniform");
+
+    auto simd = m_currShader->m_SIMDSize;
+    auto dataSizeInBytes = CEncoder::GetCISADataTypeSize(type);
+
+    // If src spans 4 GRFs and cluster spans 2 GRFs (2 clusters total), then WaveClusterInterleave can be expressed
+    // as 2 x WaveInterleave, one for each pair of GRFs.
+    if (m_currShader->m_numberInstance == 1 && 2 * clusterSize == numLanes(simd) &&
+        numLanes(simd) * dataSizeInBytes == 4 * m_currShader->getGRFSize())
+    {
+        auto interleaveLanes = numLanes(simd) / 2;
+        SIMDMode interleaveSIMD = lanesToSIMDMode(interleaveLanes);
+
+        for (int i = 0; i < 2; ++i)
+        {
+            CVariable* srcAlias = m_currShader->GetNewAlias(src, type, i * interleaveLanes * dataSizeInBytes, interleaveLanes);
+            CVariable* dstAlias = m_currShader->GetNewAlias(dst, type, i * interleaveLanes * dataSizeInBytes, interleaveLanes);
+
+            emitReductionInterleave(op, type, interleaveSIMD, interleaveStep, true, srcAlias, nullptr, dstAlias);
+        }
+
+        return;
+    }
+
+    // Implementation for each case is custom, with no general solution.
+
+    if (m_currShader->m_numberInstance == 1 && simd == SIMDMode::SIMD32 && dataSizeInBytes == 4 && clusterSize == 16 && interleaveStep == 2)
+    {
+        CVariable* temp = m_currShader->GetNewVariable(numLanes(simd), type, EALIGN_GRF, false, "reduceSrc");
+
+        // Reorder input. Spread every value by two lanes.
+        //
+        // |  0 | 16 |  1 | 17 |  2 | 18 | ... | 15 | 31 |
+        for (int i = 0; i < 2; ++i)
+        {
+            m_encoder->SetNoMask();
+            m_encoder->SetSimdSize(SIMDMode::SIMD16);
+            m_encoder->SetSrcRegion(0, 1, 1, 0);
+            m_encoder->SetSrcSubReg(0, 16 * i);
+            m_encoder->SetDstRegion(2);
+            m_encoder->SetDstSubReg(i);
+            m_encoder->Copy(temp, src);
+            m_encoder->Push();
+        }
+
+        // Reduce.
+        temp = ReductionReduceHelper(op, type, SIMDMode::SIMD16, temp);
+        temp = ReductionReduceHelper(op, type, SIMDMode::SIMD8, temp);
+        temp = ReductionReduceHelper(op, type, SIMDMode::SIMD4, temp);
+
+        // Propagate output. Repeat each value 8 times.
+        // temp: | a | b | c | d |
+        // dst:  | a | c | a | c | a | c | a | c | ... | b | d | b | d | b | d | b | d |
+        for (int i = 0; i < 2; ++i)
+        {
+            m_encoder->SetNoMask();
+            m_encoder->SetSimdSize(SIMDMode::SIMD16);
+            m_encoder->SetSrcRegion(0, 1, 8, 0);
+            m_encoder->SetSrcSubReg(0, 2 * i);
+            m_encoder->SetDstRegion(2);
+            m_encoder->SetDstSubReg(i);
+            m_encoder->Copy(dst, temp);
+            m_encoder->Push();
+        }
+    }
+    else if (m_currShader->m_numberInstance == 1 && simd == SIMDMode::SIMD32 && dataSizeInBytes == 4 && clusterSize == 8 && interleaveStep == 2)
+    {
+        CVariable* temp = m_currShader->GetNewVariable(numLanes(simd), type, EALIGN_GRF, false, "reduceSrc");
+
+        // Reorder input. Spread every next two values by 8 lanes:
+        //
+        // |  0 |  1 |  8 |  9 |  16 | 17 | ... | 14 | 15 | 22 | 23 | 30 | 31 |
+        for (int i = 0; i < 4; ++i)
+        {
+            m_encoder->SetNoMask();
+            m_encoder->SetSimdSize(SIMDMode::SIMD8);
+            m_encoder->SetSrcRegion(0, 8, 2, 1);
+            m_encoder->SetSrcSubReg(0, 2 * i);
+            m_encoder->SetDstRegion(1);
+            m_encoder->SetDstSubReg(8 * i);
+            m_encoder->Copy(temp, src);
+            m_encoder->Push();
+        }
+
+        // Reduce.
+        temp = ReductionReduceHelper(op, type, SIMDMode::SIMD16, temp);
+        temp = ReductionReduceHelper(op, type, SIMDMode::SIMD8, temp);
+
+        // Propagate output. Repeat each pair of values 4 times.
+        //
+        // temp: | a | b | c | d | e | f | g | h |
+        // dst:  | a | b | a | b | a | b | a | b | ... | g | h | g | h | g | h | g | h |
+        for (int i = 0; i < 2; ++i)
+        {
+            m_encoder->SetNoMask();
+            m_encoder->SetSimdSize(SIMDMode::SIMD16);
+            m_encoder->SetSrcRegion(0, 2, 4, 0);
+            m_encoder->SetSrcSubReg(0, i);
+            m_encoder->SetDstRegion(2);
+            m_encoder->SetDstSubReg(i);
+            m_encoder->Copy(dst, temp);
+            m_encoder->Push();
+        }
+    }
+    else
+    {
+        IGC_ASSERT_MESSAGE(false, "Invalid WaveClusteredInterleave.");
+    }
+}
+
 // do prefix op across all activate channels
 void EmitPass::emitPreOrPostFixOp(
     e_opcode op, uint64_t identityValue, VISA_Type type, bool negateSrc,
@@ -21384,6 +21519,30 @@ void EmitPass::emitWaveInterleave(llvm::GenIntrinsicInst* inst)
     }
 }
 
+void EmitPass::emitWaveClusteredInterleave(llvm::GenIntrinsicInst* inst)
+{
+    bool disableHelperLanes = int_cast<int>(cast<ConstantInt>(inst->getArgOperand(3))->getSExtValue()) == 2;
+    if (disableHelperLanes)
+    {
+        ForceDMask();
+    }
+    CVariable* src = GetSymbol(inst->getOperand(0));
+    const WaveOps op = static_cast<WaveOps>(cast<llvm::ConstantInt>(inst->getOperand(1))->getZExtValue());
+    const unsigned int clusterSize = int_cast<uint32_t>(cast<llvm::ConstantInt>(inst->getOperand(2))->getZExtValue());
+    const unsigned int interleaveStep = int_cast<uint32_t>(cast<llvm::ConstantInt>(inst->getOperand(3))->getZExtValue());
+    VISA_Type type;
+    e_opcode opCode;
+    uint64_t identity = 0;
+    GetReductionOp(op, inst->getOperand(0)->getType(), identity, opCode, type);
+    CVariable* dst = m_destination;
+    m_encoder->SetSubSpanDestination(false);
+    emitReductionClusteredInterleave(opCode, identity, type, false, clusterSize, interleaveStep, src, dst);
+    if (disableHelperLanes)
+    {
+        ResetVMask();
+    }
+}
+
 void EmitPass::emitDP4A(GenIntrinsicInst* GII, const SSource* Sources, const DstModifier& modifier, bool isAccSigned) {
     GenISAIntrinsic::ID GIID = GII->getIntrinsicID();
     CVariable* dst = m_destination;
 
@@ -334,6 +334,24 @@ class EmitPass : public llvm::FunctionPass
         const unsigned int step,
         CVariable* const src,
         CVariable* const dst);
+    void emitReductionInterleave(
+        const e_opcode op,
+        const VISA_Type type,
+        const SIMDMode simd,
+        const unsigned int step,
+        const bool noMaskBroadcast,
+        CVariable* const src1,
+        CVariable* const src2,
+        CVariable* const dst);
+    void emitReductionClusteredInterleave(
+        const e_opcode op,
+        const uint64_t identityValue,
+        const VISA_Type type,
+        const bool negate,
+        const unsigned int clusterSize,
+        const unsigned int interleaveStep,
+        CVariable* const src,
+        CVariable* const dst);
     void emitPreOrPostFixOp(
         e_opcode op,
         uint64_t identityValue,
@@ -442,6 +460,7 @@ class EmitPass : public llvm::FunctionPass
     void emitWaveAll(llvm::GenIntrinsicInst* inst);
     void emitWaveClustered(llvm::GenIntrinsicInst* inst);
     void emitWaveInterleave(llvm::GenIntrinsicInst* inst);
+    void emitWaveClusteredInterleave(llvm::GenIntrinsicInst* inst);
 
     // Those three "vector" version shall be combined with
     // non-vector version.
 
@@ -114,7 +114,8 @@ void IGC::HalfPromotion::handleGenIntrinsic(llvm::GenIntrinsicInst& I)
     if (id == GenISAIntrinsic::GenISA_WaveAll ||
         id == GenISAIntrinsic::GenISA_WavePrefix ||
         id == GenISAIntrinsic::GenISA_WaveClustered ||
-        id == GenISAIntrinsic::GenISA_WaveInterleave)
+        id == GenISAIntrinsic::GenISA_WaveInterleave ||
+        id == GenISAIntrinsic::GenISA_WaveClusteredInterleave)
     {
         Module* M = I.getParent()->getParent()->getParent();
         llvm::IGCIRBuilder<> builder(&I);
 
@@ -1371,6 +1371,7 @@ namespace IGC
             case GenISAIntrinsic::GenISA_WaveAll:
             case GenISAIntrinsic::GenISA_WaveClustered:
             case GenISAIntrinsic::GenISA_WaveInterleave:
+            case GenISAIntrinsic::GenISA_WaveClusteredInterleave:
             case GenISAIntrinsic::GenISA_WavePrefix:
                 match = MatchWaveInstruction(*GII);
                 break;
@@ -5189,6 +5190,7 @@ namespace IGC
             helperLaneIndex = 3;
             break;
         case GenISAIntrinsic::GenISA_WavePrefix:
+        case GenISAIntrinsic::GenISA_WaveClusteredInterleave:
             helperLaneIndex = 4;
             break;
         default:
 
@@ -1135,6 +1135,7 @@ void PromoteInt8Type::promoteIntrinsic()
             GII->isGenIntrinsic(GenISAIntrinsic::GenISA_WaveAll) ||
             GII->isGenIntrinsic(GenISAIntrinsic::GenISA_WaveClustered) ||
             GII->isGenIntrinsic(GenISAIntrinsic::GenISA_WaveInterleave) ||
+            GII->isGenIntrinsic(GenISAIntrinsic::GenISA_WaveClusteredInterleave) ||
             GII->isGenIntrinsic(GenISAIntrinsic::GenISA_WavePrefix) ||
             GII->isGenIntrinsic(GenISAIntrinsic::GenISA_QuadPrefix))
         {
@@ -1160,6 +1161,7 @@ void PromoteInt8Type::promoteIntrinsic()
             if (gid == GenISAIntrinsic::GenISA_WaveAll ||
                 gid == GenISAIntrinsic::GenISA_WaveClustered ||
                 gid == GenISAIntrinsic::GenISA_WaveInterleave ||
+                gid == GenISAIntrinsic::GenISA_WaveClusteredInterleave ||
                 gid == GenISAIntrinsic::GenISA_WavePrefix ||
                 gid == GenISAIntrinsic::GenISA_QuadPrefix ||
                 gid == GenISAIntrinsic::GenISA_WaveShuffleIndex ||
@@ -1212,8 +1214,10 @@ void PromoteInt8Type::promoteIntrinsic()
                     break;
                 }
                 case GenISAIntrinsic::GenISA_WavePrefix:
+                case GenISAIntrinsic::GenISA_WaveClusteredInterleave:
                 {
                     // prototype:  Ty <waveprefix> (Ty, char, bool, bool, int)
+                    // prototype:  Ty <clusteredInterleave> (Ty, char, int, int, int)
                     iArgs.push_back(GII->getArgOperand(1));
                     iArgs.push_back(GII->getArgOperand(2));
                     iArgs.push_back(GII->getArgOperand(3));
 
@@ -1423,6 +1423,7 @@ WIAnalysis::WIDependancy WIAnalysisRunner::calculate_dep(const CallInst* inst)
         intrinsic_name == llvm_waveAll ||
         intrinsic_name == llvm_waveClustered ||
         intrinsic_name == llvm_waveInterleave ||
+        intrinsic_name == llvm_waveClusteredInterleave ||
         intrinsic_name == llvm_ld_ptr ||
         intrinsic_name == llvm_ldlptr ||
         (IGC_IS_FLAG_DISABLED(DisableUniformTypedAccess) && intrinsic_name == llvm_typed_read) ||
@@ -1733,7 +1734,8 @@ WIAnalysis::WIDependancy WIAnalysisRunner::calculate_dep(const CallInst* inst)
             }
         }
 
-        if (intrinsic_name == llvm_waveInterleave)
+        if (intrinsic_name == llvm_waveInterleave ||
+            intrinsic_name == llvm_waveClusteredInterleave)
         {
             return WIAnalysis::RANDOM;
         }
 
@@ -1790,6 +1790,7 @@ namespace IGC
         return (opcode == llvm_waveAll ||
             opcode == llvm_waveClustered ||
             opcode == llvm_waveInterleave ||
+            opcode == llvm_waveClusteredInterleave ||
             opcode == llvm_wavePrefix ||
             opcode == llvm_waveShuffleIndex ||
             opcode == llvm_waveBroadcast ||
 
@@ -284,6 +284,7 @@ DECLARE_OPCODE(GenISA_WaveBallot, GenISAIntrinsic, llvm_waveBallot, false, false
 DECLARE_OPCODE(GenISA_WaveAll, GenISAIntrinsic, llvm_waveAll, false, false, false, false, false, false, false)
 DECLARE_OPCODE(GenISA_WaveClustered, GenISAIntrinsic, llvm_waveClustered, false, false, false, false, false, false, false)
 DECLARE_OPCODE(GenISA_WaveInterleave, GenISAIntrinsic, llvm_waveInterleave, false, false, false, false, false, false, false)
+DECLARE_OPCODE(GenISA_WaveClusteredInterleave, GenISAIntrinsic, llvm_waveClusteredInterleave, false, false, false, false, false, false, false)
 DECLARE_OPCODE(GenISA_WavePrefix, GenISAIntrinsic, llvm_wavePrefix, false, false, false, false, false, false, false)
 DECLARE_OPCODE(GenISA_QuadPrefix, GenISAIntrinsic, llvm_quadPrefix, false, false, false, false, false, false, false)
 DECLARE_OPCODE(GenISA_WaveShuffleIndex, GenISAIntrinsic, llvm_waveShuffleIndex, false, false, false, false, false, false, false)
Original file line number	Diff line number	Diff line change
`@@ -1423,6 +1423,7 @@ WIAnalysis::WIDependancy WIAnalysisRunner::calculate_dep(const CallInst* inst)`
`1423`	`1423`	`intrinsic_name == llvm_waveAll \|\|`
`1424`	`1424`	`intrinsic_name == llvm_waveClustered \|\|`
`1425`	`1425`	`intrinsic_name == llvm_waveInterleave \|\|`
	`1426`	`+ intrinsic_name == llvm_waveClusteredInterleave \|\|`
`1426`	`1427`	`intrinsic_name == llvm_ld_ptr \|\|`
`1427`	`1428`	`intrinsic_name == llvm_ldlptr \|\|`
`1428`	`1429`	`(IGC_IS_FLAG_DISABLED(DisableUniformTypedAccess) && intrinsic_name == llvm_typed_read) \|\|`
`@@ -1733,7 +1734,8 @@ WIAnalysis::WIDependancy WIAnalysisRunner::calculate_dep(const CallInst* inst)`
`1733`	`1734`	`}`
`1734`	`1735`	`}`
`1735`	`1736`
`1736`		`- if (intrinsic_name == llvm_waveInterleave)`
	`1737`	`+ if (intrinsic_name == llvm_waveInterleave \|\|`
	`1738`	`+ intrinsic_name == llvm_waveClusteredInterleave)`
`1737`	`1739`	`{`
`1738`	`1740`	`return WIAnalysis::RANDOM;`
`1739`	`1741`	`}`