support shard fsdp in 2d-all gather in moe and support capped attention as option in deepseek

suexu1025 · suexu1025 · commit eaffeef9412e · 2025-12-09T23:19:47.000Z
diff --git a/src/MaxText/configs/base.yml b/src/MaxText/configs/base.yml
@@ -449,6 +449,7 @@ logical_axis_rules: [
                       ['cache_kv', []],
                       ['cache_sequence', []],
                       ['exp', 'expert'],
+                      ['exp_with_fsdp', 'fsdp'],
                       ['paged_kv_heads', ['tensor']],
                       ['num_pages', []],
                       ['tokens_per_page', []],
diff --git a/src/MaxText/layers/deepseek.py b/src/MaxText/layers/deepseek.py
@@ -106,6 +106,7 @@ def self_attention_with_norm(
       mscale=cfg.mscale,
       rope_factor=cfg.rope_factor,
       model_mode=model_mode,
+      attn_logits_soft_cap=cfg.attn_logits_soft_cap,
   )
 
   attention_lnx, _ = attention_layer(
diff --git a/src/MaxText/layers/moe.py b/src/MaxText/layers/moe.py
@@ -1256,11 +1256,11 @@ def get_active_sharding_axes(pspec_dim_axes, tensor_dim_index):
 
     if self.config.moe_fsdp_use_two_stage_all_gather:
       # Unshard on fsdp axis
-      w0_kernel = self._maybe_shard_with_logical(w0_kernel, ("exp", "embed_tensor_transpose", "mlp"))
-      w1_kernel = self._maybe_shard_with_logical(w1_kernel, ("exp", "embed_tensor_transpose", "mlp"))
+      w0_kernel = self._maybe_shard_with_logical(w0_kernel, ("exp_with_fsdp", "embed_tensor_transpose", "mlp"))
+      w1_kernel = self._maybe_shard_with_logical(w1_kernel, ("exp_with_fsdp", "embed_tensor_transpose", "mlp"))
 
       # Unshard on fsdp_transpose axis
-      wo_kernel = self._maybe_shard_with_logical(wo_kernel, ("exp", "mlp", "embed_tensor_transpose"))
+      wo_kernel = self._maybe_shard_with_logical(wo_kernel, ("exp_with_fsdp", "mlp", "embed_tensor_transpose"))
 
       # Make sure XLA does not optimize by combining above All-Gather to unshard
       # on FSDP axis and the subsequent unshard on fsdp_transpose axis
@@ -1269,9 +1269,9 @@ def get_active_sharding_axes(pspec_dim_axes, tensor_dim_index):
       wo_kernel = jax.lax.optimization_barrier(wo_kernel)
 
       # Unshard on both fsdp and fsdp_transpose transpose
-      w0_kernel = self._maybe_shard_with_logical(w0_kernel, ("exp", "embed_tensor_transpose", "mlp_no_fsdp"))
-      w1_kernel = self._maybe_shard_with_logical(w1_kernel, ("exp", "embed_tensor_transpose", "mlp_no_fsdp"))
-      wo_kernel = self._maybe_shard_with_logical(wo_kernel, ("exp", "mlp_no_fsdp", "embed_tensor_transpose"))
+      w0_kernel = self._maybe_shard_with_logical(w0_kernel, ("exp_with_fsdp", "embed_tensor_transpose", "mlp_no_fsdp"))
+      w1_kernel = self._maybe_shard_with_logical(w1_kernel, ("exp_with_fsdp", "embed_tensor_transpose", "mlp_no_fsdp"))
+      wo_kernel = self._maybe_shard_with_logical(wo_kernel, ("exp_with_fsdp", "mlp_no_fsdp", "embed_tensor_transpose"))
 
     if self.get_tensor_transpose_parallelism_size() > 1:
       input_axes = (batch_logical_axis, "activation_norm_length", "activation_embed")

Original file line number	Diff line number	Diff line change
`@@ -106,6 +106,7 @@ def self_attention_with_norm(`
`106`	`106`	`mscale=cfg.mscale,`
`107`	`107`	`rope_factor=cfg.rope_factor,`
`108`	`108`	`model_mode=model_mode,`
	`109`	`+ attn_logits_soft_cap=cfg.attn_logits_soft_cap,`
`109`	`110`	`)`
`110`	`111`
`111`	`112`	`attention_lnx, _ = attention_layer(`