NVIDIA
diff --git a/‎cpp/tensorrt_llm/kernels/fusedLayernormKernels/low_latency_layernorm.cuh‎
Lines changed: 18 additions & 12 deletions b/‎cpp/tensorrt_llm/kernels/fusedLayernormKernels/low_latency_layernorm.cuh‎
Lines changed: 18 additions & 12 deletions
diff --git a/‎cpp/tensorrt_llm/kernels/fusedLayernormKernels/ws_layernorm.cuh‎
Lines changed: 55 additions & 24 deletions b/‎cpp/tensorrt_llm/kernels/fusedLayernormKernels/ws_layernorm.cuh‎
Lines changed: 55 additions & 24 deletions
diff --git a/‎cpp/tensorrt_llm/thop/CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions b/‎cpp/tensorrt_llm/thop/CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions
@@ -115,8 +115,6 @@ struct LowLatencyLayerNorm
 
         uint32_t work_id = blockIdx.x;
 
-        FusedOperator fused_operator(param);
-
         constexpr auto PACKED_PER_N_BLOCK = Traits::N_BLOCK / N_THREADS / Traits::PACKED_ELEMS_PER_COMPUTE;
 
         typename Traits::AccumulatorType data[PACKED_PER_N_BLOCK][Traits::PACKED_ELEMS_PER_COMPUTE];
@@ -139,7 +137,7 @@ struct LowLatencyLayerNorm
             for (int i = 0; i < PACKED_PER_N_BLOCK; i++)
             {
                 auto offset = (thread_id + i * N_THREADS) * Traits::PACKED_ELEMS_PER_COMPUTE;
-                if (offset <= sz)
+                if (offset < sz)
                 {
                     data[i] = *reinterpret_cast<PackedType const*>(&g_data[offset]);
                 }
@@ -155,6 +153,17 @@ struct LowLatencyLayerNorm
 
         static_assert(Traits::OUTPUT_SCALE != SCALE_TYPE::VECTOR);
 
+
+        #if (defined(__CUDA_ARCH__) && (__CUDACC_VER_MAJOR__ >= 12))
+        if constexpr (arch::is_major_v<9> || arch::is_major_v<10>)
+        {
+            // Ensure upstream kernel writes are visible before reading dependent activation/residual data.
+            cudaGridDependencySynchronize();
+            // cudaTriggerProgrammaticLaunchCompletion();
+        }
+        #endif
+        FusedOperator fused_operator(param);
+
         if constexpr (Traits::BIAS == SCALE_TYPE::VECTOR)
         {
             load_to_register(param.bias, r_bias, param.n);
@@ -175,13 +184,6 @@ struct LowLatencyLayerNorm
             load_to_register(param.beta, r_beta, param.n);
         }
 
-#if (defined(__CUDA_ARCH__) && (__CUDACC_VER_MAJOR__ >= 12))
-        if constexpr (arch::is_major_v<9> || arch::is_major_v<10>)
-        {
-            cudaGridDependencySynchronize();
-            cudaTriggerProgrammaticLaunchCompletion();
-        }
-#endif
         load_to_register(&param.input[work_id * param.n], data, param.n);
 
         if constexpr (Traits::RESIDUAL)
@@ -260,11 +262,11 @@ struct LowLatencyLayerNorm
         {
             mean = var_and_mean[1] / param.n;
             variance = rsqrtf(
-                var_and_mean[0] / param.n - var_and_mean[1] * var_and_mean[1] + (Traits::AccumulatorType)(1e-5));
+                var_and_mean[0] / param.n - var_and_mean[1] * var_and_mean[1] + (Traits::AccumulatorType)(param.layernorm_eps));
         }
         else
         {
-            variance = rsqrtf(var_and_mean[0] / param.n + (Traits::AccumulatorType)(1e-5));
+            variance = rsqrtf(var_and_mean[0] / param.n + (Traits::AccumulatorType)(param.layernorm_eps));
         }
 
         for (int i = 0; i < PACKED_PER_N_BLOCK; i++)
@@ -332,7 +334,11 @@ struct LowLatencyLayerNorm
     static __device__ void run(const Param param)
     {
         __shared__ Shared shared;
+        // cudaGridDependencySynchronize();
         compute(param, &shared);
+        __syncthreads();
+        asm volatile("membar.gl;" : : : "memory");
+        cudaTriggerProgrammaticLaunchCompletion();
     }
 };
 
 
@@ -139,6 +139,12 @@ struct WarpSpecializedLayerNorm
                     scheduled_tiles++;
                     // if (blockIdx.x == 0) printf("Pushed tile %d to DMA.\n", tile_id);
                 }
+                // #if (defined(__CUDA_ARCH__) && (__CUDACC_VER_MAJOR__ >= 12))
+                // if constexpr (arch::is_major_v<9> || arch::is_major_v<10>)
+                // {
+                //     cudaTriggerProgrammaticLaunchCompletion();
+                // }
+                // #endif
                 sched2dma_w.push(0xffffffff);
                 // if (blockIdx.x == 0) printf("Pushed tile -1 to DMA.\n");
                 if (atomicAdd(&(param.counters->cta_completion_ctr), 1) == grid_sz - 1)
@@ -151,6 +157,12 @@ struct WarpSpecializedLayerNorm
         else
         {
             scheduled_tiles = 1;
+            // #if (defined(__CUDA_ARCH__) && (__CUDACC_VER_MAJOR__ >= 12))
+            // if constexpr (arch::is_major_v<9> || arch::is_major_v<10>)
+            // {
+            //     cudaTriggerProgrammaticLaunchCompletion();
+            // }
+            // #endif
         }
         return scheduled_tiles;
     }
@@ -201,25 +213,30 @@ struct WarpSpecializedLayerNorm
                 }
                 // if (blockIdx.x == 0) printf("Pushed tile %d to MATH.\n", m_base);
 
+                if constexpr (FIRST_RUN)
+                {
+                    cudaGridDependencySynchronize();
+                }
+                const uint32_t eff_m_block
+                    = std::min(static_cast<uint32_t>(Traits::M_BLOCK), static_cast<uint32_t>(param.m - m_base));
                 const auto tx
-                    = (Traits::M_BLOCK * param.n * sizeof(typename Traits::InputType) * (Traits::RESIDUAL ? 2 : 1))
-                    + (FIRST_RUN ? sizeof(AuxData) / Traits::N_BLOCK * param.n : 0);
+                    = (eff_m_block * param.n * sizeof(typename Traits::InputType) * (Traits::RESIDUAL ? 2 : 1))
+                    + (FIRST_RUN ? (sizeof(AuxData) / Traits::N_BLOCK * param.n) : 0);
 
                 auto vec_buffer_ptr = input_vec_fifo_w.tmaReserve(tx);
 
                 // if (blockIdx.x == 0) printf("SMEM buffer ready, start loading tile %d.\n", m_base);
 
-                if constexpr (FIRST_RUN)
-                {
-                    cudaGridDependencySynchronize();
-                }
 
                 for (int i = 0; i < Traits::M_BLOCK; i++)
                 {
-                    load_a_vec(&param.input[(m_base + i) * param.n],
-                        __nvvm_get_smem_pointer(&shared->input_vec[vec_buffer_ptr][0][i * Traits::N_BLOCK]),
-                        param.n * sizeof(typename Traits::InputType),
-                        __nvvm_get_smem_pointer(input_vec_fifo_w.barrier_ptr(vec_buffer_ptr)));
+                    if (i < eff_m_block) [[likely]]
+                    {
+                        load_a_vec(&param.input[(m_base + i) * param.n],
+                            __nvvm_get_smem_pointer(&shared->input_vec[vec_buffer_ptr][0][i * Traits::N_BLOCK]),
+                            param.n * sizeof(typename Traits::InputType),
+                            __nvvm_get_smem_pointer(input_vec_fifo_w.barrier_ptr(vec_buffer_ptr)));
+                    }
                 }
 
                 // Use templated lambdas to defer resolving the symbols like "param.residual".
@@ -231,10 +248,13 @@ struct WarpSpecializedLayerNorm
                     {
                         for (int i = 0; i < Traits::M_BLOCK; i++)
                         {
-                            load_a_vec(&param.residual[(m_base + i) * param.n],
-                                __nvvm_get_smem_pointer(&shared->input_vec[vec_buffer_ptr][1][i * Traits::N_BLOCK]),
-                                param.n * sizeof(typename Traits::InputType),
-                                __nvvm_get_smem_pointer(input_vec_fifo_w.barrier_ptr(vec_buffer_ptr)));
+                            if (i < eff_m_block) [[likely]]
+                            {
+                                load_a_vec(&param.residual[(m_base + i) * param.n],
+                                    __nvvm_get_smem_pointer(&shared->input_vec[vec_buffer_ptr][1][i * Traits::N_BLOCK]),
+                                    param.n * sizeof(typename Traits::InputType),
+                                    __nvvm_get_smem_pointer(input_vec_fifo_w.barrier_ptr(vec_buffer_ptr)));
+                            }
                         }
                     }(param);
                 }
@@ -423,6 +443,13 @@ struct WarpSpecializedLayerNorm
 
         using FusedOperator = GetFusedOperator<typename Traits::FusedOperator>;
 
+        #if (defined(__CUDA_ARCH__) && (__CUDACC_VER_MAJOR__ >= 12))
+        if constexpr (arch::is_major_v<9> || arch::is_major_v<10>)
+        {
+            // Ensure upstream kernel writes are visible before reading dependent activation/residual data.
+            cudaGridDependencySynchronize();
+        }
+        #endif
         FusedOperator fused_operator(param);
 
         static_assert(Traits::PERSISTENT_MODE || Traits::MATH_WARPGROUPS == 1);
@@ -446,6 +473,9 @@ struct WarpSpecializedLayerNorm
             {
                 m_base = block_id;
             }
+            const uint32_t eff_m_block
+                = std::min(static_cast<uint32_t>(Traits::M_BLOCK), static_cast<uint32_t>(param.m - m_base));
+
             // if (blockIdx.x == 0 && thread_id == 0) printf("MATH got tile %d.\n", m_base);
 
             // Peek for data ready.
@@ -613,11 +643,11 @@ struct WarpSpecializedLayerNorm
                 {
                     mean[m_offset] /= param.n;
                     variance[m_offset] = rsqrtf(variance[m_offset] / param.n - mean[m_offset] * mean[m_offset]
-                        + (Traits::AccumulatorType)(1e-5));
+                        + (Traits::AccumulatorType)(param.layernorm_eps));
                 }
                 else
                 {
-                    variance[m_offset] = rsqrtf(variance[m_offset] / param.n + (Traits::AccumulatorType)(1e-5));
+                    variance[m_offset] = rsqrtf(variance[m_offset] / param.n + (Traits::AccumulatorType)(param.layernorm_eps));
                 }
             }
 
@@ -659,8 +689,7 @@ struct WarpSpecializedLayerNorm
                     }
                 }
 
-#pragma unroll Traits::M_BLOCK
-                for (int m_offset = 0; m_offset < Traits::M_BLOCK; m_offset++)
+                for (int m_offset = 0; m_offset < eff_m_block; m_offset++)
                 {
                     auto m = m_base + m_offset;
 
@@ -801,23 +830,22 @@ struct WarpSpecializedLayerNorm
         shared->init(threadIdx.x == 0);
 
         __syncthreads();
-#if (defined(__CUDA_ARCH__) && (__CUDACC_VER_MAJOR__ >= 12))
-#if (defined(__CUDA_ARCH_FEAT_SM90_ALL) || defined(__CUDA_ARCH_FEAT_SM100_ALL))
+#if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900) && (__CUDACC_VER_MAJOR__ >= 12)
         if constexpr (arch::is_major_v<9> || arch::is_major_v<10>)
         {
             auto block_id = blockIdx.x;
             auto warp_id = threadIdx.x / 32;
             auto lane_id = threadIdx.x % 32;
             auto tid_in_wg = threadIdx.x % 128;
-
+            // cudaGridDependencySynchronize();
             if (warp_id < 4)
             {
                 asm volatile("{setmaxnreg.dec.sync.aligned.u32 56; \n\t}");
                 if (warp_id == 0)
                 {
                     scheduler(lane_id, gridDim.x * gridDim.y * gridDim.z, param, shared);
-                    // PRE-EXIT after all tiles have been scheduled.
-                    cudaTriggerProgrammaticLaunchCompletion();
+                    // PRE-EXIT after all tiles have been scheduled.         
+                    // cudaTriggerProgrammaticLaunchCompletion();
                 }
                 else if (warp_id == 1)
                 {
@@ -829,8 +857,11 @@ struct WarpSpecializedLayerNorm
                 asm volatile("{setmaxnreg.inc.sync.aligned.u32 224; \n\t}");
                 compute(block_id, threadIdx.x / 128 - 1, tid_in_wg, param, shared);
             }
+            __syncthreads();
+            asm volatile("membar.gl;" : : : "memory");
+            cudaTriggerProgrammaticLaunchCompletion();
+            // cudaTriggerProgrammaticLaunchCompletion();
         }
-#endif
 #endif
     }
 };
 
@@ -66,6 +66,7 @@ add_library(
   fp8Quantize.cpp
   dsv3FusedAGemmOp.cpp
   fusedQKNormRopeOp.cpp
+  fusedAddRMSNormQuant.cpp
   fusedTopkSoftmax.cpp
   gatherTreeOp.cpp
   groupRmsNormOp.cpp