docs: rename reward_models to judge_models for consistency

XiaoBoAI · XiaoBoAI · commit caade5584e6e · 2026-01-08T19:05:12.000+08:00
diff --git a/docs/building_graders/training_judge_models.md b/docs/building_graders/training_judge_models.md
@@ -1,4 +1,4 @@
-# Train Reward Models
+# Train Judge Models
 
 Train judge models using three approaches: **SFT** for foundation learning, **Bradley-Terry** for scalar preference scoring, and **GRPO** for generative evaluation with reasoning.
 
@@ -10,7 +10,7 @@ OpenJudge provides training pipelines for building custom judge models. Each met
 | Method | Output Type | Training Data | Interpretable | Best For |
 |--------|-------------|---------------|---------------|----------|
 | **SFT** | Generative (text) | Demonstrations | ✅ Yes | Model initialization, response generation |
-| **Bradley-Terry** | Scalar score | Preference pairs | ❌ No | RLHF reward modeling, ranking |
+| **Bradley-Terry** | Scalar score | Preference pairs | ❌ No | RLHF judge modeling, ranking |
 | **GRPO** | Generative (text) | Labeled responses | ✅ Yes | Interpretable evaluation with reasoning |
 
 **Common Requirements:**
diff --git a/mkdocs.yml b/mkdocs.yml
@@ -35,7 +35,7 @@ nav:
       - Overview: building_graders/overview.md
       - Create Custom Graders: building_graders/create_custom_graders.md
       - Generate Rubrics as Graders: building_graders/generate_rubrics_as_graders.md
-      - Train Reward Models: building_graders/training_reward_models.md
+      - Train Judge Models: building_graders/training_judge_models.md
 
   - Running Graders:
       - Run Grading Tasks: running_graders/run_tasks.md