doc fix

chenyushuo · chenyushuo · commit 0374c2538823 · 2025-06-17T10:44:29.000+08:00
diff --git a/examples/dpo_humanlike/train_dpo.yaml b/examples/dpo_humanlike/train_dpo.yaml
@@ -26,7 +26,7 @@ actor_rollout_ref:
       min_lr_ratio: 0.1   # only useful for warmup with cosine
       warmup_style: cosine  # select from constant/cosine
       total_training_steps: 783  #
-      betas: [0.9, 0.95]  # set to smaller value for scenarios with abrupt distribution shift (e.g., large sync_interval)
+      betas: [0.9, 0.95]
     fsdp_config:
       wrap_policy:
         # transformer_layer_cls_to_wrap: None