bigscience-workshop · thomasw21 · Mar 24, 2022 · Mar 24, 2022 · Mar 25, 2022 · Mar 25, 2022
diff --git a/megatron/model/fused_layer_norm.py b/megatron/model/fused_layer_norm.py
@@ -87,8 +87,10 @@ def reset_parameters(self):
   def forward(self, input):
     tp_world_size = mpu.get_tensor_model_parallel_world_size()
     # TODO: hack in order to synchronize all layer norms despite them being unsynched
-    weight = mpu.reduce_from_tensor_model_parallel_region(self.weight) / tp_world_size
-    bias = mpu.reduce_from_tensor_model_parallel_region(self.bias) / tp_world_size
+    weight = torch.clone(self.weight)
+    bias = torch.clone(self.bias)
+    weight = mpu.reduce_from_tensor_model_parallel_region(weight) / tp_world_size
+    bias = mpu.reduce_from_tensor_model_parallel_region(bias) / tp_world_size
 def _reduce(input_): 
     """All-reduce the the input tensor across model parallel group.""" 
     # Bypass the function if we are using only 1 GPU. 
     if get_tensor_model_parallel_world_size()==1: 
         return input_ 
     # All-reduce. 
     torch.distributed.all_reduce(input_, group=get_tensor_model_parallel_group()) 
 def _reduce(input_): 
     """All-reduce the the input tensor across model parallel group.""" 
  
     # Bypass the function if we are using only 1 GPU. 
     if get_tensor_model_parallel_world_size()==1: 
         return input_ 
  
     # All-reduce. 
     torch.distributed.all_reduce(input_, group=get_tensor_model_parallel_group()) 
 
     return FusedLayerNormAffineFunction.apply(
       input, weight, bias, self.normalized_shape,self.eps)