Always pass weight tensor to avoid allocating on hotpath

ProExpertProg · ProExpertProg · commit c5a04b8c658e · 2026-03-11T15:58:14.000-04:00
Signed-off-by: Luka Govedič &lt;lgovedic@redhat.com&gt;
diff --git a/vllm/model_executor/layers/layernorm.py b/vllm/model_executor/layers/layernorm.py
@@ -271,10 +271,9 @@ def forward_native(
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
         """PyTorch-native implementation equivalent to forward()."""
         add_residual = residual is not None
-        weight = self.weight.data if self.has_weight else None
         if not add_residual:
             return ir.ops.rms_norm(
-                x, weight, self.variance_epsilon, self.variance_size_override
+                x, self.weight, self.variance_epsilon, self.variance_size_override
             )
 
         return self.forward_static(
@@ -293,10 +292,9 @@ def forward_cuda(
         residual: torch.Tensor | None = None,
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
         add_residual = residual is not None
-        weight = self.weight.data if self.has_weight else None
         if not add_residual and not vllm_is_batch_invariant():
             return ir.ops.rms_norm(
-                x, weight, self.variance_epsilon, self.variance_size_override
+                x, self.weight, self.variance_epsilon, self.variance_size_override
             )
 
         if self.variance_size_override is not None: