fix md display in config guide

jingyushen · StephenRi · commit b5f735d67f48 · 2025-06-17T17:25:11.000+08:00
diff --git a/docs_roll/docs/English/QuickStart/config_guide.md b/docs_roll/docs/English/QuickStart/config_guide.md
@@ -155,8 +155,8 @@ Used for configuring training parameters such as `learning_rate`, `weight_decay`
 - `training_args.per_device_train_batch_size`: The batch size to use when training.
 - `training_args.gradient_accumulation_steps`: The number of gradient accumulation steps.
 
-In deepspeed training the global train batch size is `per_device_train_batch_size` * `gradient_accumulation_steps` * world_size (a.k.a length of `device_mapping` for `actor_train`/`critic`).
+In deepspeed training the global train batch size is `per_device_train_batch_size` \* `gradient_accumulation_steps` \* world_size (a.k.a length of `device_mapping` for `actor_train`/`critic`).
 
-In megatron training the global train batch size is `per_device_train_batch_size` * `gradient_accumulation_steps` * world_size / `tensor_model_parallel_size` / `pipeline_model_parallel_size` / `context_parallel_size` (don't need to divide `expert_model_parallel_size`).
+In megatron training the global train batch size is `per_device_train_batch_size` \* `gradient_accumulation_steps` \* world_size / `tensor_model_parallel_size` / `pipeline_model_parallel_size` / `context_parallel_size` (don't need to divide `expert_model_parallel_size`).
 
-If you want to perform one optimization step in each rollout, set `gradient_accumulation_steps` to `rollout_batch_size` * `num_return_sequences_in_group` * `tensor_model_parallel_size` * `pipeline_model_parallel_size` * `context_parallel_size`/ `per_device_train_batch_size` / world_size.
+If you want to perform one optimization step in each rollout, set `gradient_accumulation_steps` to `rollout_batch_size` \* `num_return_sequences_in_group` \* `tensor_model_parallel_size` \* `pipeline_model_parallel_size` \* `context_parallel_size`/ `per_device_train_batch_size` / world_size.
diff --git a/docs_roll/docs/简体中文/快速开始/config_guide_cn.md b/docs_roll/docs/简体中文/快速开始/config_guide_cn.md
@@ -286,8 +286,8 @@ actor_train:
 - `training_args.per_device_train_batch_size`: 在每个设备上进行训练时使用的批次大小。
 - `training_args.gradient_accumulation_steps`: 梯度累积的步数。
 
-在 DeepSpeed 训练中，全局训练批次大小是`per_device_train_batch_size` * `gradient_accumulation_steps` * world_size (即`actor_train`/`critic`的`device_mapping`长度)。
+在 DeepSpeed 训练中，全局训练批次大小是`per_device_train_batch_size` \* `gradient_accumulation_steps` \* world_size (即`actor_train`/`critic`的`device_mapping`长度)。
 
-在 Megatron 训练中，全局训练批次大小是`per_device_train_batch_size` * `gradient_accumulation_steps` * world_size / `tensor_model_parallel_size` / `pipeline_model_parallel_size` / `context_parallel_size` (不需要除以`expert_model_parallel_size`).
+在 Megatron 训练中，全局训练批次大小是`per_device_train_batch_size` \* `gradient_accumulation_steps` \* world_size / `tensor_model_parallel_size` / `pipeline_model_parallel_size` / `context_parallel_size` (不需要除以`expert_model_parallel_size`).
 
-如果你想在每次 Rollout 中执行一次优化步骤，则应设置`gradient_accumulation_steps`为 `rollout_batch_size` * `num_return_sequences_in_group` * `tensor_model_parallel_size` * `pipeline_model_parallel_size` * `context_parallel_size`/ `per_device_train_batch_size` / world_size.
+如果你想在每次 Rollout 中执行一次优化步骤，则应设置`gradient_accumulation_steps`为 `rollout_batch_size` \* `num_return_sequences_in_group` \* `tensor_model_parallel_size` \* `pipeline_model_parallel_size` \* `context_parallel_size`/ `per_device_train_batch_size` / world_size.