[dsv3] Remove dtype to avoid confusion (#1599)

wwwjn · web-flow · commit 9f47cebfc92a · 2025-08-19T13:01:15.000-07:00
Remove unused dtype field, we haven't supported FP8 training in
torchtitan dsv3 now.
diff --git a/torchtitan/models/deepseek_v3/__init__.py b/torchtitan/models/deepseek_v3/__init__.py
@@ -150,7 +150,6 @@
         qk_nope_head_dim=128,
         qk_rope_head_dim=64,
         v_head_dim=128,
-        dtype="fp8",
     ),
 }
 
diff --git a/torchtitan/models/deepseek_v3/model/args.py b/torchtitan/models/deepseek_v3/model/args.py
@@ -8,7 +8,6 @@
 
 
 from dataclasses import dataclass, field
-from typing import Literal
 
 from torch import nn
 
@@ -28,7 +27,6 @@ class DeepSeekV3ModelArgs(BaseModelArgs):
     Attributes:
         max_batch_size (int): Maximum batch size.
         max_seq_len (int): Maximum sequence length.
-        dtype (Literal["bf16", "fp8"]): Data type for computations.
         vocab_size (int): Vocabulary size.
         dim (int): Model dimension.
         inter_dim (int): Intermediate dimension for MLP layers.
@@ -59,7 +57,6 @@ class DeepSeekV3ModelArgs(BaseModelArgs):
 
     max_batch_size: int = 8
     max_seq_len: int = 4096 * 4
-    dtype: Literal["bf16", "fp8"] = "bf16"
     vocab_size: int = 102400
     dim: int = 2048
     inter_dim: int = 10944