Fixing nits

mydatascience · mydatascience · commit 36acf602d802 · 2025-11-26T02:03:05.000+04:00
Signed-off-by: Vladimir Suvorov &lt;suvorovv@google.com&gt;
diff --git a/src/MaxText/examples/rl_llama3_demo.ipynb b/src/MaxText/examples/rl_llama3_demo.ipynb
@@ -4,9 +4,9 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "# GRPO/GSPO Llama3.1-8B Demo\n",
+    "# Llama3.1-8B-Instruct Reinforcement Learning Demo\n",
     "\n",
-    "This notebook demonstrates GRPO (Group Relative Policy Optimization) training using the unified `rl_train` function or GSPO (Group Sequence Policy Optimization) - the change is in loss function which is a parameter\n",
+    "This notebook demonstrates training on Llama3.1-8B-Instruct model with either GRPO (Group Relative Policy Optimization) or GSPO (Group Sequence Policy Optimization).\n",
     "\n",
     "## What is GRPO/GSPO?\n",
     "\n",