dominicshanshan
diff --git a/‎cpp/tensorrt_llm/common/envUtils.h‎
Lines changed: 22 additions & 0 deletions b/‎cpp/tensorrt_llm/common/envUtils.h‎
Lines changed: 22 additions & 0 deletions
diff --git a/‎cpp/tensorrt_llm/kernels/fusedMoeCommKernels.cu‎
Lines changed: 12 additions & 1 deletion b/‎cpp/tensorrt_llm/kernels/fusedMoeCommKernels.cu‎
Lines changed: 12 additions & 1 deletion
diff --git a/‎cpp/tensorrt_llm/kernels/fusedMoeCommKernels.h‎
Lines changed: 1 addition & 0 deletions b/‎cpp/tensorrt_llm/kernels/fusedMoeCommKernels.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎cpp/tensorrt_llm/kernels/moeLoadBalance/moeLoadBalanceKernels.cu‎
Lines changed: 62 additions & 16 deletions b/‎cpp/tensorrt_llm/kernels/moeLoadBalance/moeLoadBalanceKernels.cu‎
Lines changed: 62 additions & 16 deletions
@@ -16,7 +16,9 @@
  */
 
 #pragma once
+#include "tensorrt_llm/common/cudaUtils.h"
 #include <cstdint>
+#include <cuda_runtime.h>
 #include <optional>
 #include <string>
 
@@ -55,6 +57,26 @@ int getEnvMmhaKernelBlockSize();
 // Whether PDL is enabled.
 bool getEnvEnablePDL();
 
+template <typename KernelFn, typename... Args>
+inline void launchWithPdlWhenEnabled(char const* name, KernelFn kernelFn, dim3 grid, dim3 block, size_t dynamicShmSize,
+    cudaStream_t stream, Args&&... args)
+{
+    TLLM_LOG_DEBUG("Enable PDL in %s", name);
+    cudaLaunchConfig_t kernelConfig;
+    kernelConfig.gridDim = grid;
+    kernelConfig.blockDim = block;
+    kernelConfig.dynamicSmemBytes = dynamicShmSize;
+    kernelConfig.stream = stream;
+
+    cudaLaunchAttribute attrs[1];
+    attrs[0].id = cudaLaunchAttributeProgrammaticStreamSerialization;
+    attrs[0].val.programmaticStreamSerializationAllowed = tensorrt_llm::common::getEnvEnablePDL();
+    kernelConfig.attrs = attrs;
+    kernelConfig.numAttrs = 1;
+
+    TLLM_CUDA_CHECK(cudaLaunchKernelEx(&kernelConfig, kernelFn, std::forward<Args>(args)...));
+}
+
 bool getEnvUseUCXKvCache();
 
 bool getEnvUseMPIKvCache();
 
@@ -27,6 +27,8 @@ namespace tensorrt_llm
 namespace kernels
 {
 
+using tensorrt_llm::common::launchWithPdlWhenEnabled;
+
 // Quantize a contiguous shared-memory buffer containing elements of DType into NVFP4 with per-16-element FP8 scales.
 // Output layout (repeated per 16-element group per lane), followed by one global scale float:
 //   [WARP_SIZE * 8 bytes packed e2m1 values] [WARP_SIZE * 1 byte E4M3 per-group scales] ... [global_scale (4 bytes)]
@@ -1069,6 +1071,10 @@ public:
 
         int sendIndex = mPairInfo.channel;
         uint32_t phaseParity = 0;
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+        cudaGridDependencySynchronize();
+        cudaTriggerProgrammaticLaunchCompletion();
+#endif
         for (; sendIndex < tokenCount; sendIndex += mPairInfo.runChannelCount)
         {
             int tokenIndex = sendIndexMapping == nullptr ? sendIndex : sendIndexMapping[sendIndex];
@@ -1140,6 +1146,10 @@ public:
         int recvIndex = mPairInfo.channel;
         uint32_t phaseParity = 0;
         bool needRelease = false;
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+        cudaGridDependencySynchronize();
+        cudaTriggerProgrammaticLaunchCompletion();
+#endif
         for (; recvIndex < tokenCount; recvIndex += mPairInfo.runChannelCount)
         {
             int tokenIndex = recvIndexMapping == nullptr ? recvIndex : recvIndexMapping[recvIndex];
@@ -1459,7 +1469,8 @@ void moeAllToAll(FusedMoeCommKernelParam params, FusedMoeWorkspace workspace, cu
 
     dim3 block = FusedMoeCommunicator::getLaunchBlockDim(groupCountPerCta);
     dim3 grid = FusedMoeCommunicator::getLaunchGridDim(params.worldInfo.epInfo.epSize, groupCountPerCta);
-    kernelFn<<<grid, block, totalDynamicShmSize, stream>>>(params, workspace, hasBasicFields);
+    launchWithPdlWhenEnabled(
+        "moeAllToAll", kernelFn, grid, block, totalDynamicShmSize, stream, params, workspace, hasBasicFields);
     TLLM_CUDA_CHECK(cudaGetLastError());
 }
 
 
@@ -20,6 +20,7 @@
 #include <cuda_runtime_api.h>
 
 #include "tensorrt_llm/common/cudaUtils.h"
+#include "tensorrt_llm/common/envUtils.h"
 #include "tensorrt_llm/kernels/moeCommKernelsCommon.h"
 
 namespace tensorrt_llm
 
@@ -19,6 +19,7 @@
 #include <cub/cub.cuh>
 
 #include "tensorrt_llm/common/cudaUtils.h"
+#include "tensorrt_llm/common/envUtils.h"
 #include "tensorrt_llm/kernels/moeLoadBalance/moeLoadBalanceKernels.h"
 
 namespace cg = cooperative_groups;
@@ -28,6 +29,8 @@ namespace tensorrt_llm
 namespace kernels
 {
 
+using tensorrt_llm::common::launchWithPdlWhenEnabled;
+
 int getOwnerDevice(unsigned long long int stepAndOwner)
 {
     return static_cast<int>(stepAndOwner & MoeLoadBalanceSingleLayerSignal::kDevice);
@@ -71,6 +74,11 @@ __device__ __forceinline__ void moeWaitSignalForGpuStageFunc(MoeLoadBalanceSingl
 
 __global__ void moeWaitSignalForGpuStageKernel(MoeLoadBalanceSingleLayerSignal* signal, int* enabled)
 {
+
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
     if (threadIdx.x == 0 and blockIdx.x == 0)
     {
         moeWaitSignalForGpuStageFunc(signal, enabled);
@@ -79,6 +87,11 @@ __global__ void moeWaitSignalForGpuStageKernel(MoeLoadBalanceSingleLayerSignal*
 
 __global__ void moeSetSignalForCpuStageKernel(MoeLoadBalanceSingleLayerSignal* signal)
 {
+
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
     if (threadIdx.x == 0 and blockIdx.x == 0)
     {
         unsigned long long int loaded = signal->stepAndOwner;
@@ -91,7 +104,8 @@ __global__ void moeSetSignalForCpuStageKernel(MoeLoadBalanceSingleLayerSignal* s
 
 void moeWaitSignalForGpuStageDevice(MoeLoadBalanceSingleLayerSignal* signal, int* enabled, cudaStream_t stream)
 {
-    moeWaitSignalForGpuStageKernel<<<1, 1, 0, stream>>>(signal, enabled);
+    launchWithPdlWhenEnabled(
+        "moeWaitSignalForGpuStage", moeWaitSignalForGpuStageKernel, 1, 1, 0, stream, signal, enabled);
 }
 
 void moeWaitSignalForGpuStageForTest(MoeLoadBalanceSingleLayerSignal* signal, int* enabled)
@@ -119,7 +133,7 @@ void moeWaitSignalForGpuStageForTest(MoeLoadBalanceSingleLayerSignal* signal, in
 
 void moeSetSignalForCpuStageDevice(MoeLoadBalanceSingleLayerSignal* signal, cudaStream_t stream)
 {
-    moeSetSignalForCpuStageKernel<<<1, 1, 0, stream>>>(signal);
+    launchWithPdlWhenEnabled("moeSetSignalForCpuStage", moeSetSignalForCpuStageKernel, 1, 1, 0, stream, signal);
 }
 
 void moeSetSignalForCpuStageForTest(MoeLoadBalanceSingleLayerSignal* signal)
@@ -134,6 +148,10 @@ __global__ void zeroExpertTokenCountKernel(MoeLoadBalanceMetaInfo metaInfo, int*
     TYPE oldExpertTokenCount = {0};
     int* expertTokenCountPtr = expertTokenCount + metaInfo.expertCount * blockIdx.x;
     TYPE* typedExpertTokenCountPtr = reinterpret_cast<TYPE*>(expertTokenCountPtr);
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
     typedExpertTokenCountPtr[threadIdx.x] = oldExpertTokenCount;
 }
 
@@ -145,6 +163,10 @@ __global__ void shiftWindowKernel(MoeLoadBalanceMetaInfo metaInfo, int* const en
         return;
     }
     TYPE oldExpertTokenCount = {0};
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
     if (blockIdx.x > 0)
     {
         int* oldExpertTokenCountPtr = expertTokenCount + metaInfo.expertCount * (blockIdx.x - 1);
@@ -173,6 +195,10 @@ __global__ void statisticKernel(MoeLoadBalanceMetaInfo metaInfo, int* expertToke
         sharedExpertCount[i] = 0;
     }
     __syncthreads();
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
     for (int idx = threadIdx.x + blockIdx.x * blockDim.x; idx < totalEltCount; idx += gridDim.x * blockDim.x)
     {
         int expertId = gatheredRawExpertIds[idx];
@@ -196,6 +222,10 @@ __global__ void updateLoadFactorKernel(MoeLoadBalanceMetaInfo metaInfo, MoeLoadB
         return;
     }
     int expertIdx = blockIdx.x * blockDim.x + threadIdx.x;
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
     int expertTokenCount = expertTokenCountPtr[expertIdx];
     float* loadFactor = statisticInfo.expertLoadFactor;
     loadFactor[expertIdx] = loadFactor[expertIdx] * statisticInfo.decayFactor + expertTokenCount;
@@ -228,6 +258,7 @@ void moeStatisticDevice(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBalanceStatistic
             = {&metaInfo, static_cast<void*>(const_cast<int**>(&enabled)), static_cast<void*>(&expertTokenCount)};
         TLLM_CHECK_WITH_INFO(
             threadCount <= 1024, "expertCount=%d is too large and not supported now.", metaInfo.expertCount);
+        // TODO: add PDL support with cooperative launch
         TLLM_CUDA_CHECK(cudaLaunchCooperativeKernel(kernelFunc, gridDim, blockDim, &args[0], 0, stream));
     }
 
@@ -241,7 +272,7 @@ void moeStatisticDevice(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBalanceStatistic
             blockCount = smCount;
         }
         int sharedMemorySize = metaInfo.expertCount * sizeof(int);
-        statisticKernel<<<blockCount, threadCount, sharedMemorySize, stream>>>(
+        launchWithPdlWhenEnabled("statisticKernel", statisticKernel, blockCount, threadCount, sharedMemorySize, stream,
             metaInfo, statisticInfo.expertTokenCount, totalEltCount, enabled, gatheredRawExpertIds);
     }
 
@@ -250,7 +281,7 @@ void moeStatisticDevice(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBalanceStatistic
         // only last stage need update load factor.
         int threadCount = 128;
         int blockCount = (metaInfo.expertCount + threadCount - 1) / threadCount;
-        updateLoadFactorKernel<<<blockCount, threadCount, 0, stream>>>(
+        launchWithPdlWhenEnabled("updateLoadFactor", updateLoadFactorKernel, blockCount, threadCount, 0, stream,
             metaInfo, statisticInfo, statisticInfo.expertTokenCount, enabled);
     }
 }
@@ -278,11 +309,10 @@ void moeHierarchicalStatisticLocalDevice(MoeLoadBalanceMetaInfo metaInfo, int nu
         }
         dim3 gridDim(1);
         dim3 blockDim(threadCount);
-        void* args[]
-            = {&metaInfo, static_cast<void*>(const_cast<int**>(&enabled)), static_cast<void*>(&localExpertTokenCount)};
         TLLM_CHECK_WITH_INFO(
             threadCount <= 1024, "expertCount=%d is too large and not supported now.", metaInfo.expertCount);
-        TLLM_CUDA_CHECK(cudaLaunchKernel(kernelFunc, gridDim, blockDim, &args[0], 0, stream));
+        launchWithPdlWhenEnabled(
+            "zeroExpertTokenCount", kernelFunc, gridDim, blockDim, 0, stream, metaInfo, enabled, localExpertTokenCount);
     }
 
     {
@@ -295,7 +325,7 @@ void moeHierarchicalStatisticLocalDevice(MoeLoadBalanceMetaInfo metaInfo, int nu
             blockCount = smCount;
         }
         int sharedMemorySize = metaInfo.expertCount * sizeof(int);
-        statisticKernel<<<blockCount, threadCount, sharedMemorySize, stream>>>(
+        launchWithPdlWhenEnabled("statisticKernel", statisticKernel, blockCount, threadCount, sharedMemorySize, stream,
             metaInfo, localExpertTokenCount, totalEltCount, enabled, localRawExpertIds);
     }
 }
@@ -305,8 +335,8 @@ void moeHierarchicalStatisticUpdate(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBala
 {
     int threadCount = 128;
     int blockCount = (metaInfo.expertCount + threadCount - 1) / threadCount;
-    updateLoadFactorKernel<<<blockCount, threadCount, 0, stream>>>(
-        metaInfo, statisticInfo, globalExpertTokenCount, enabled);
+    launchWithPdlWhenEnabled("updateLoadFactor", updateLoadFactorKernel, blockCount, threadCount, 0, stream, metaInfo,
+        statisticInfo, globalExpertTokenCount, enabled);
 }
 
 template <int MAX_EXPERT_COUNT = 1024, int THREAD_COUNT = 256, int ITEM_PER_THREAD = 4>
@@ -316,13 +346,18 @@ __global__ void moeComputeRouteNoRedundantKernel(MoeLoadBalanceMetaInfo metaInfo
     extern __shared__ int16_t sharedGlobalSlotIdsInfo[];
     int expertIds[ITEM_PER_THREAD];
     int slotIds[ITEM_PER_THREAD];
+
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
+
     for (int slotId = threadIdx.x; slotId < metaInfo.epSize * metaInfo.slotCountPerRank; slotId += THREAD_COUNT)
     {
         sharedGlobalSlotIdsInfo[slotId] = placementInfo.globalSlotIds[slotId];
     }
 
     int blockOffset = blockIdx.x * THREAD_COUNT * ITEM_PER_THREAD;
-
     for (; blockOffset < tokenCount * metaInfo.topK; blockOffset += gridDim.x * THREAD_COUNT * ITEM_PER_THREAD)
     {
         int tokenIdxBase = blockOffset + threadIdx.x;
@@ -375,6 +410,12 @@ __global__ void moeComputeRouteKernel(MoeLoadBalanceMetaInfo metaInfo, MoePlacem
 
     __shared__ int sharedArbitrateExpertId[THREAD_COUNT * ITEM_PER_THREAD];
     __shared__ int sharedExpertCount[MAX_EXPERT_COUNT];
+
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
+
     for (int expertIdx = threadIdx.x; expertIdx < metaInfo.expertCount; expertIdx += THREAD_COUNT)
     {
         int replicaCount = placementInfo.expertReplicaCount[expertIdx];
@@ -480,6 +521,11 @@ __global__ void moeComputeRouteSortKernel(MoeLoadBalanceMetaInfo metaInfo, MoePl
     __shared__ int sharedSortedExpertId[THREAD_COUNT * ITEM_PER_THREAD];
     __shared__ int sharedExpertStartThread[MAX_EXPERT_COUNT];
 
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
+
     for (int expertIdx = threadIdx.x; expertIdx < metaInfo.expertCount; expertIdx += THREAD_COUNT)
     {
         sharedExpertTokenCount[expertIdx] = 0;
@@ -496,7 +542,6 @@ __global__ void moeComputeRouteSortKernel(MoeLoadBalanceMetaInfo metaInfo, MoePl
     __syncthreads();
 
     int expertIds[ITEM_PER_THREAD];
-
     for (int blockOffset = blockIdx.x * THREAD_COUNT * ITEM_PER_THREAD; blockOffset < tokenCount * metaInfo.topK;
          blockOffset += gridDim.x * THREAD_COUNT * ITEM_PER_THREAD)
     {
@@ -582,14 +627,15 @@ void moeComputeRouteDevice(MoeLoadBalanceMetaInfo metaInfo, MoePlacementInfo pla
     int dynamicShmSize = sizeof(int16_t) * metaInfo.epSize * metaInfo.slotCountPerRank;
     if (metaInfo.expertCount == metaInfo.epSize * metaInfo.slotCountPerRank)
     {
+        auto* kernelFn = moeComputeRouteNoRedundantKernel<1024, kThreadCount, kEltPerThread>;
         // no redundant expert, so we don't need complex routing, but just assign to the correct solt.
-        moeComputeRouteNoRedundantKernel<1024, kThreadCount, kEltPerThread>
-            <<<blockCount, kThreadCount, dynamicShmSize, stream>>>(
-                metaInfo, placementInfo, tokenSelectedExperts, tokenRoutedSlotIds, tokenCount);
+        launchWithPdlWhenEnabled("moeComputeRouteNoRedundant", kernelFn, blockCount, kThreadCount, dynamicShmSize,
+            stream, metaInfo, placementInfo, tokenSelectedExperts, tokenRoutedSlotIds, tokenCount);
     }
     else
     {
-        moeComputeRouteKernel<1024, kThreadCount, kEltPerThread><<<blockCount, kThreadCount, dynamicShmSize, stream>>>(
+        auto* kernelFn = moeComputeRouteKernel<1024, kThreadCount, kEltPerThread>;
+        launchWithPdlWhenEnabled("moeComputeRoute", kernelFn, blockCount, kThreadCount, dynamicShmSize, stream,
             metaInfo, placementInfo, tokenSelectedExperts, tokenRoutedSlotIds, tokenCount, offsetByEpRank);
     }
 }
Original file line number	Diff line number	Diff line change
`@@ -19,6 +19,7 @@`
`19`	`19`	`#include <cub/cub.cuh>`
`20`	`20`
`21`	`21`	`#include "tensorrt_llm/common/cudaUtils.h"`
	`22`	`+#include "tensorrt_llm/common/envUtils.h"`
`22`	`23`	`#include "tensorrt_llm/kernels/moeLoadBalance/moeLoadBalanceKernels.h"`
`23`	`24`
`24`	`25`	`namespace cg = cooperative_groups;`
`@@ -28,6 +29,8 @@ namespace tensorrt_llm`
`28`	`29`	`namespace kernels`
`29`	`30`	`{`
`30`	`31`
	`32`	`+using tensorrt_llm::common::launchWithPdlWhenEnabled;`
	`33`	`+`
`31`	`34`	`int getOwnerDevice(unsigned long long int stepAndOwner)`
`32`	`35`	`{`
`33`	`36`	`return static_cast<int>(stepAndOwner & MoeLoadBalanceSingleLayerSignal::kDevice);`
`@@ -71,6 +74,11 @@ __device__ __forceinline__ void moeWaitSignalForGpuStageFunc(MoeLoadBalanceSingl`
`71`	`74`
`72`	`75`	`__global__ void moeWaitSignalForGpuStageKernel(MoeLoadBalanceSingleLayerSignal* signal, int* enabled)`
`73`	`76`	`{`
	`77`	`+`
	`78`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`79`	`+ cudaGridDependencySynchronize();`
	`80`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`81`	`+#endif`
`74`	`82`	`if (threadIdx.x == 0 and blockIdx.x == 0)`
`75`	`83`	`{`
`76`	`84`	`moeWaitSignalForGpuStageFunc(signal, enabled);`
`@@ -79,6 +87,11 @@ __global__ void moeWaitSignalForGpuStageKernel(MoeLoadBalanceSingleLayerSignal*`
`79`	`87`
`80`	`88`	`__global__ void moeSetSignalForCpuStageKernel(MoeLoadBalanceSingleLayerSignal* signal)`
`81`	`89`	`{`
	`90`	`+`
	`91`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`92`	`+ cudaGridDependencySynchronize();`
	`93`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`94`	`+#endif`
`82`	`95`	`if (threadIdx.x == 0 and blockIdx.x == 0)`
`83`	`96`	`{`
`84`	`97`	`unsigned long long int loaded = signal->stepAndOwner;`
`@@ -91,7 +104,8 @@ __global__ void moeSetSignalForCpuStageKernel(MoeLoadBalanceSingleLayerSignal* s`
`91`	`104`
`92`	`105`	`void moeWaitSignalForGpuStageDevice(MoeLoadBalanceSingleLayerSignal* signal, int* enabled, cudaStream_t stream)`
`93`	`106`	`{`
`94`		`- moeWaitSignalForGpuStageKernel<<<1, 1, 0, stream>>>(signal, enabled);`
	`107`	`+ launchWithPdlWhenEnabled(`
	`108`	`+ "moeWaitSignalForGpuStage", moeWaitSignalForGpuStageKernel, 1, 1, 0, stream, signal, enabled);`
`95`	`109`	`}`
`96`	`110`
`97`	`111`	`void moeWaitSignalForGpuStageForTest(MoeLoadBalanceSingleLayerSignal* signal, int* enabled)`
`@@ -119,7 +133,7 @@ void moeWaitSignalForGpuStageForTest(MoeLoadBalanceSingleLayerSignal* signal, in`
`119`	`133`
`120`	`134`	`void moeSetSignalForCpuStageDevice(MoeLoadBalanceSingleLayerSignal* signal, cudaStream_t stream)`
`121`	`135`	`{`
`122`		`- moeSetSignalForCpuStageKernel<<<1, 1, 0, stream>>>(signal);`
	`136`	`+ launchWithPdlWhenEnabled("moeSetSignalForCpuStage", moeSetSignalForCpuStageKernel, 1, 1, 0, stream, signal);`
`123`	`137`	`}`
`124`	`138`
`125`	`139`	`void moeSetSignalForCpuStageForTest(MoeLoadBalanceSingleLayerSignal* signal)`
`@@ -134,6 +148,10 @@ __global__ void zeroExpertTokenCountKernel(MoeLoadBalanceMetaInfo metaInfo, int*`
`134`	`148`	`TYPE oldExpertTokenCount = {0};`
`135`	`149`	`int* expertTokenCountPtr = expertTokenCount + metaInfo.expertCount * blockIdx.x;`
`136`	`150`	`TYPE* typedExpertTokenCountPtr = reinterpret_cast<TYPE*>(expertTokenCountPtr);`
	`151`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`152`	`+ cudaGridDependencySynchronize();`
	`153`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`154`	`+#endif`
`137`	`155`	`typedExpertTokenCountPtr[threadIdx.x] = oldExpertTokenCount;`
`138`	`156`	`}`
`139`	`157`
`@@ -145,6 +163,10 @@ __global__ void shiftWindowKernel(MoeLoadBalanceMetaInfo metaInfo, int* const en`
`145`	`163`	`return;`
`146`	`164`	`}`
`147`	`165`	`TYPE oldExpertTokenCount = {0};`
	`166`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`167`	`+ cudaGridDependencySynchronize();`
	`168`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`169`	`+#endif`
`148`	`170`	`if (blockIdx.x > 0)`
`149`	`171`	`{`
`150`	`172`	`int* oldExpertTokenCountPtr = expertTokenCount + metaInfo.expertCount * (blockIdx.x - 1);`
`@@ -173,6 +195,10 @@ __global__ void statisticKernel(MoeLoadBalanceMetaInfo metaInfo, int* expertToke`
`173`	`195`	`sharedExpertCount[i] = 0;`
`174`	`196`	`}`
`175`	`197`	`__syncthreads();`
	`198`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`199`	`+ cudaGridDependencySynchronize();`
	`200`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`201`	`+#endif`
`176`	`202`	`for (int idx = threadIdx.x + blockIdx.x * blockDim.x; idx < totalEltCount; idx += gridDim.x * blockDim.x)`
`177`	`203`	`{`
`178`	`204`	`int expertId = gatheredRawExpertIds[idx];`
`@@ -196,6 +222,10 @@ __global__ void updateLoadFactorKernel(MoeLoadBalanceMetaInfo metaInfo, MoeLoadB`
`196`	`222`	`return;`
`197`	`223`	`}`
`198`	`224`	`int expertIdx = blockIdx.x * blockDim.x + threadIdx.x;`
	`225`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`226`	`+ cudaGridDependencySynchronize();`
	`227`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`228`	`+#endif`
`199`	`229`	`int expertTokenCount = expertTokenCountPtr[expertIdx];`
`200`	`230`	`float* loadFactor = statisticInfo.expertLoadFactor;`
`201`	`231`	`loadFactor[expertIdx] = loadFactor[expertIdx] * statisticInfo.decayFactor + expertTokenCount;`
`@@ -228,6 +258,7 @@ void moeStatisticDevice(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBalanceStatistic`
`228`	`258`	`= {&metaInfo, static_cast<void>(const_cast<int>(&enabled)), static_cast<void>(&expertTokenCount)};`
`229`	`259`	`TLLM_CHECK_WITH_INFO(`
`230`	`260`	`threadCount <= 1024, "expertCount=%d is too large and not supported now.", metaInfo.expertCount);`
	`261`	`+ // TODO: add PDL support with cooperative launch`
`231`	`262`	`TLLM_CUDA_CHECK(cudaLaunchCooperativeKernel(kernelFunc, gridDim, blockDim, &args[0], 0, stream));`
`232`	`263`	`}`
`233`	`264`
`@@ -241,7 +272,7 @@ void moeStatisticDevice(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBalanceStatistic`
`241`	`272`	`blockCount = smCount;`
`242`	`273`	`}`
`243`	`274`	`int sharedMemorySize = metaInfo.expertCount * sizeof(int);`
`244`		`- statisticKernel<<<blockCount, threadCount, sharedMemorySize, stream>>>(`
	`275`	`+ launchWithPdlWhenEnabled("statisticKernel", statisticKernel, blockCount, threadCount, sharedMemorySize, stream,`
`245`	`276`	`metaInfo, statisticInfo.expertTokenCount, totalEltCount, enabled, gatheredRawExpertIds);`
`246`	`277`	`}`
`247`	`278`
`@@ -250,7 +281,7 @@ void moeStatisticDevice(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBalanceStatistic`
`250`	`281`	`// only last stage need update load factor.`
`251`	`282`	`int threadCount = 128;`
`252`	`283`	`int blockCount = (metaInfo.expertCount + threadCount - 1) / threadCount;`
`253`		`- updateLoadFactorKernel<<<blockCount, threadCount, 0, stream>>>(`
	`284`	`+ launchWithPdlWhenEnabled("updateLoadFactor", updateLoadFactorKernel, blockCount, threadCount, 0, stream,`
`254`	`285`	`metaInfo, statisticInfo, statisticInfo.expertTokenCount, enabled);`
`255`	`286`	`}`
`256`	`287`	`}`
`@@ -278,11 +309,10 @@ void moeHierarchicalStatisticLocalDevice(MoeLoadBalanceMetaInfo metaInfo, int nu`
`278`	`309`	`}`
`279`	`310`	`dim3 gridDim(1);`
`280`	`311`	`dim3 blockDim(threadCount);`
`281`		`- void* args[]`
`282`		`- = {&metaInfo, static_cast<void>(const_cast<int>(&enabled)), static_cast<void>(&localExpertTokenCount)};`
`283`	`312`	`TLLM_CHECK_WITH_INFO(`
`284`	`313`	`threadCount <= 1024, "expertCount=%d is too large and not supported now.", metaInfo.expertCount);`
`285`		`- TLLM_CUDA_CHECK(cudaLaunchKernel(kernelFunc, gridDim, blockDim, &args[0], 0, stream));`
	`314`	`+ launchWithPdlWhenEnabled(`
	`315`	`+ "zeroExpertTokenCount", kernelFunc, gridDim, blockDim, 0, stream, metaInfo, enabled, localExpertTokenCount);`
`286`	`316`	`}`
`287`	`317`
`288`	`318`	`{`
`@@ -295,7 +325,7 @@ void moeHierarchicalStatisticLocalDevice(MoeLoadBalanceMetaInfo metaInfo, int nu`
`295`	`325`	`blockCount = smCount;`
`296`	`326`	`}`
`297`	`327`	`int sharedMemorySize = metaInfo.expertCount * sizeof(int);`
`298`		`- statisticKernel<<<blockCount, threadCount, sharedMemorySize, stream>>>(`
	`328`	`+ launchWithPdlWhenEnabled("statisticKernel", statisticKernel, blockCount, threadCount, sharedMemorySize, stream,`
`299`	`329`	`metaInfo, localExpertTokenCount, totalEltCount, enabled, localRawExpertIds);`
`300`	`330`	`}`
`301`	`331`	`}`
`@@ -305,8 +335,8 @@ void moeHierarchicalStatisticUpdate(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBala`
`305`	`335`	`{`
`306`	`336`	`int threadCount = 128;`
`307`	`337`	`int blockCount = (metaInfo.expertCount + threadCount - 1) / threadCount;`
`308`		`- updateLoadFactorKernel<<<blockCount, threadCount, 0, stream>>>(`
`309`		`- metaInfo, statisticInfo, globalExpertTokenCount, enabled);`
	`338`	`+ launchWithPdlWhenEnabled("updateLoadFactor", updateLoadFactorKernel, blockCount, threadCount, 0, stream, metaInfo,`
	`339`	`+ statisticInfo, globalExpertTokenCount, enabled);`
`310`	`340`	`}`
`311`	`341`
`312`	`342`	`template <int MAX_EXPERT_COUNT = 1024, int THREAD_COUNT = 256, int ITEM_PER_THREAD = 4>`
`@@ -316,13 +346,18 @@ __global__ void moeComputeRouteNoRedundantKernel(MoeLoadBalanceMetaInfo metaInfo`
`316`	`346`	`extern __shared__ int16_t sharedGlobalSlotIdsInfo[];`
`317`	`347`	`int expertIds[ITEM_PER_THREAD];`
`318`	`348`	`int slotIds[ITEM_PER_THREAD];`
	`349`	`+`
	`350`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`351`	`+ cudaGridDependencySynchronize();`
	`352`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`353`	`+#endif`
	`354`	`+`
`319`	`355`	`for (int slotId = threadIdx.x; slotId < metaInfo.epSize * metaInfo.slotCountPerRank; slotId += THREAD_COUNT)`
`320`	`356`	`{`
`321`	`357`	`sharedGlobalSlotIdsInfo[slotId] = placementInfo.globalSlotIds[slotId];`
`322`	`358`	`}`
`323`	`359`
`324`	`360`	`int blockOffset = blockIdx.x * THREAD_COUNT * ITEM_PER_THREAD;`
`325`		`-`
`326`	`361`	`for (; blockOffset < tokenCount * metaInfo.topK; blockOffset += gridDim.x * THREAD_COUNT * ITEM_PER_THREAD)`
`327`	`362`	`{`
`328`	`363`	`int tokenIdxBase = blockOffset + threadIdx.x;`
`@@ -375,6 +410,12 @@ __global__ void moeComputeRouteKernel(MoeLoadBalanceMetaInfo metaInfo, MoePlacem`
`375`	`410`
`376`	`411`	`__shared__ int sharedArbitrateExpertId[THREAD_COUNT * ITEM_PER_THREAD];`
`377`	`412`	`__shared__ int sharedExpertCount[MAX_EXPERT_COUNT];`
	`413`	`+`
	`414`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`415`	`+ cudaGridDependencySynchronize();`
	`416`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`417`	`+#endif`
	`418`	`+`
`378`	`419`	`for (int expertIdx = threadIdx.x; expertIdx < metaInfo.expertCount; expertIdx += THREAD_COUNT)`
`379`	`420`	`{`
`380`	`421`	`int replicaCount = placementInfo.expertReplicaCount[expertIdx];`
`@@ -480,6 +521,11 @@ __global__ void moeComputeRouteSortKernel(MoeLoadBalanceMetaInfo metaInfo, MoePl`
`480`	`521`	`__shared__ int sharedSortedExpertId[THREAD_COUNT * ITEM_PER_THREAD];`
`481`	`522`	`__shared__ int sharedExpertStartThread[MAX_EXPERT_COUNT];`
`482`	`523`
	`524`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`525`	`+ cudaGridDependencySynchronize();`
	`526`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`527`	`+#endif`
	`528`	`+`
`483`	`529`	`for (int expertIdx = threadIdx.x; expertIdx < metaInfo.expertCount; expertIdx += THREAD_COUNT)`
`484`	`530`	`{`
`485`	`531`	`sharedExpertTokenCount[expertIdx] = 0;`
`@@ -496,7 +542,6 @@ __global__ void moeComputeRouteSortKernel(MoeLoadBalanceMetaInfo metaInfo, MoePl`
`496`	`542`	`__syncthreads();`
`497`	`543`
`498`	`544`	`int expertIds[ITEM_PER_THREAD];`
`499`		`-`
`500`	`545`	`for (int blockOffset = blockIdx.x * THREAD_COUNT * ITEM_PER_THREAD; blockOffset < tokenCount * metaInfo.topK;`
`501`	`546`	`blockOffset += gridDim.x * THREAD_COUNT * ITEM_PER_THREAD)`
`502`	`547`	`{`
`@@ -582,14 +627,15 @@ void moeComputeRouteDevice(MoeLoadBalanceMetaInfo metaInfo, MoePlacementInfo pla`
`582`	`627`	`int dynamicShmSize = sizeof(int16_t) * metaInfo.epSize * metaInfo.slotCountPerRank;`
`583`	`628`	`if (metaInfo.expertCount == metaInfo.epSize * metaInfo.slotCountPerRank)`
`584`	`629`	`{`
	`630`	`+ auto* kernelFn = moeComputeRouteNoRedundantKernel<1024, kThreadCount, kEltPerThread>;`
`585`	`631`	`// no redundant expert, so we don't need complex routing, but just assign to the correct solt.`
`586`		`- moeComputeRouteNoRedundantKernel<1024, kThreadCount, kEltPerThread>`
`587`		`- <<<blockCount, kThreadCount, dynamicShmSize, stream>>>(`
`588`		`- metaInfo, placementInfo, tokenSelectedExperts, tokenRoutedSlotIds, tokenCount);`
	`632`	`+ launchWithPdlWhenEnabled("moeComputeRouteNoRedundant", kernelFn, blockCount, kThreadCount, dynamicShmSize,`
	`633`	`+ stream, metaInfo, placementInfo, tokenSelectedExperts, tokenRoutedSlotIds, tokenCount);`
`589`	`634`	`}`
`590`	`635`	`else`
`591`	`636`	`{`
`592`		`- moeComputeRouteKernel<1024, kThreadCount, kEltPerThread><<<blockCount, kThreadCount, dynamicShmSize, stream>>>(`
	`637`	`+ auto* kernelFn = moeComputeRouteKernel<1024, kThreadCount, kEltPerThread>;`
	`638`	`+ launchWithPdlWhenEnabled("moeComputeRoute", kernelFn, blockCount, kThreadCount, dynamicShmSize, stream,`
`593`	`639`	`metaInfo, placementInfo, tokenSelectedExperts, tokenRoutedSlotIds, tokenCount, offsetByEpRank);`
`594`	`640`	`}`
`595`	`641`	`}`