remove sequence parallel in llama4 (#40084)

3outeille · web-flow · commit 31ab7168ff7e · 2025-08-13T00:12:45.000+02:00
diff --git a/src/transformers/models/llama4/configuration_llama4.py b/src/transformers/models/llama4/configuration_llama4.py
@@ -251,9 +251,6 @@ class Llama4TextConfig(PretrainedConfig):
         "layers.*.self_attn.k_proj": "colwise",
         "layers.*.self_attn.v_proj": "colwise",
         "layers.*.self_attn.o_proj": "rowwise",
-        "layers.*.input_layernorm.weight": "sequence_parallel",
-        "layers.*.post_attention_layernorm.weight": "sequence_parallel",
-        "norm.weight": "sequence_parallel",
         "layers.*.feed_forward.shared_expert.gate_proj": "local_colwise",
         "layers.*.feed_forward.shared_expert.up_proj": "local_colwise",
         "layers.*.feed_forward.shared_expert.down_proj": "local_rowwise",