[Main] Add the missing part to support 1F1B overlap for Qwen3-Next (#2997)

BestJuly · web-flow · commit 4a239726348e · 2026-02-04T04:24:27.000Z
diff --git a/megatron/core/ssm/gated_delta_net.py b/megatron/core/ssm/gated_delta_net.py
@@ -508,6 +508,19 @@ def sharded_state_dict(self, prefix="", sharded_offsets=(), metadata=None, tp_gr
 
         return sharded_state_dict
 
+    def backward_dw(self):
+        """Execute weight gradient computation for all linear layers."""
+        self._backward_in_proj()
+        self._backward_out_proj()
+
+    def _backward_in_proj(self):
+        """Computes weight gradients of input projection layer."""
+        self.in_proj.backward_dw()
+
+    def _backward_out_proj(self):
+        """Computes weight gradients of output projection layer."""
+        self.out_proj.backward_dw()
+
 
 def _split_tensor_factory(
     orig_sh_ten: ShardedTensor, split_sections: List[int], split_names: List[str], split_dim: int