Add DeepSeek Example for ModelTrainer (#4813)

benieric · web-flow · commit f671af53c3f7 · 2025-01-31T17:28:40.000-08:00
* Add DeepSeek Example for ModelTrainer

* nit
diff --git a/      build_and_train_models/sm-model_trainer/model_trainer_overview.ipynb b/      build_and_train_models/sm-model_trainer/model_trainer_overview.ipynb
@@ -540,9 +540,11 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## ModelTrainer - SageMaker Recipes\n",
+    "## ModelTrainer - SageMaker HyperPod Recipes\n",
     "\n",
-    "This example showcases how a user could leverage SageMaker pre-defined training recipe `training/mistral/hf_mistral_7b_seq8k_gpu_p5x16_pretrain` for training a Mistral Model using synthetic data."
+    "This example showcases how a user could leverage the pre-defined recipe `fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_70b_seq8k_gpu_fine_tuning` for fine-tuning a DeepSeek R1 Model using synthetic data.\n",
+    "\n",
+    "For More Available Recipes Visit - https://github.com/aws/sagemaker-hyperpod-recipes/"
    ]
   },
   {
@@ -569,24 +571,20 @@
     "    \"run\": {\n",
     "        \"results_dir\": \"/opt/ml/model\",\n",
     "    },\n",
-    "    \"trainer\": {\n",
-    "        \"num_nodes\": 1,\n",
-    "    },\n",
     "    \"exp_manager\": {\n",
-    "        \"exp_dir\": \"/opt/ml/output\",\n",
+    "        \"exp_dir\": \"/opt/ml/output/\",\n",
     "        \"explicit_log_dir\": \"/opt/ml/output/tensorboard\",\n",
     "    },\n",
     "    \"model\": {\n",
-    "        \"fp8\": False,\n",
-    "        \"train_batch_size\": 1,\n",
-    "        \"num_hidden_layers\": 4,\n",
-    "        \"shard_degree\": 4,\n",
-    "        \"data\": {\"use_synthetic_data\": True},\n",
+    "        \"hf_model_name_or_path\": \"deepseek-ai/DeepSeek-R1-Distill-Llama-8B\",\n",
+    "        \"data\": {\n",
+    "            \"use_synthetic_data\": True,\n",
+    "        }\n",
     "    },\n",
     "}\n",
     "\n",
     "compute = Compute(\n",
-    "    instance_type=\"ml.p4d.24xlarge\",\n",
+    "    instance_type=\"ml.p5.48xlarge\",\n",
     "    keep_alive_period_in_seconds=3600,\n",
     ")\n",
     "\n",
@@ -602,10 +600,10 @@
     "model_trainer = ModelTrainer.from_recipe(\n",
     "    sagemaker_session=sagemaker_session,\n",
     "    training_image=smp_image,\n",
-    "    training_recipe=\"training/mistral/hf_mistral_7b_seq8k_gpu_p5x16_pretrain\",\n",
+    "    training_recipe=\"fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_8b_seq8k_gpu_fine_tuning\",\n",
     "    recipe_overrides=recipe_overrides,\n",
     "    compute=compute,\n",
-    "    base_job_name=f\"model-trainer-recipes\",\n",
+    "    base_job_name=f\"model-trainer-deepseek-p5-8b\",\n",
     ").with_tensorboard_output_config(tensorboad_output_config)"
    ]
   },
@@ -621,7 +619,7 @@
  ],
  "metadata": {
   "kernelspec": {
-   "display_name": "py3.10.14",
+   "display_name": "Python 3",
    "language": "python",
    "name": "python3"
   },