[DSV3] Upgrade to DeepSeek-V3.1 (#1609)

wwwjn · web-flow · commit 82d6c3b0382d · 2025-08-21T10:12:12.000-07:00
Tested Loading weights from https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base <img width="1296" height="605" alt="Screenshot 2025-08-20 at 10 28 20 PM" src="https://github.com/user-attachments/assets/cc5bc9ef-0afd-45c9-bdf6-7cf36d9729e8" />
diff --git a/torchtitan/models/deepseek_v3/README.md b/torchtitan/models/deepseek_v3/README.md
@@ -8,7 +8,7 @@ DeepSeek-V3 is a Mixture-of-Experts (MoE) transformer model with Multi-head Late
 
 ```bash
 # DeepSeek 671B tokenizer (automatically downloads tokenizer.json and tokenizer_config.json)
-python scripts/download_hf_assets.py --repo_id deepseek-ai/DeepSeek-V3 --assets tokenizer
+python scripts/download_hf_assets.py --repo_id deepseek-ai/DeepSeek-V3.1-Base --assets tokenizer
 ```
 
 ```bash
diff --git a/torchtitan/models/deepseek_v3/train_configs/deepseek_v3_671b.toml b/torchtitan/models/deepseek_v3/train_configs/deepseek_v3_671b.toml
@@ -20,7 +20,7 @@ enable_wandb = false
 [model]
 name = "deepseek_v3"
 flavor = "671B"
-hf_assets_path = "./assets/hf/DeepSeek-V3"
+hf_assets_path = "./assets/hf/DeepSeek-V3.1-Base"
 # converters = ["float8"]
 
 [optimizer]