for debug

DNXie · DNXie · commit 2a1e021884ca · 2025-09-03T13:02:59.000-07:00
diff --git a/apps/grpo/main.py b/apps/grpo/main.py
@@ -274,10 +274,10 @@ async def __next__(self) -> dict[str, str] | None:
 async def main():
     """Main GRPO training loop with rollout and training processes."""
     group_size = 1
-    model = "Qwen/Qwen3-0.6B"
-    titan_model = TitanJobModelConfig(name="qwen3", flavor="0.6B")
-    # model = "meta-llama/Llama-3.1-8B-Instruct"
-    # titan_model = TitanJobModelConfig(name="llama3", flavor="8B")
+    # model = "Qwen/Qwen3-0.6B"
+    # titan_model = TitanJobModelConfig(name="qwen3", flavor="0.6B")
+    model = "meta-llama/Llama-3.1-8B-Instruct"
+    titan_model = TitanJobModelConfig(name="llama3", flavor="8B")
 
     # ---- Setup WandB Logger ---- #
     logger = get_metric_logger(