Fix loss scale (#383)

tastelikefeet · web-flow · commit 31b201025d20 · 2024-02-05T19:20:40.000+08:00
diff --git a/docs/source/LLM/命令行参数.md b/docs/source/LLM/命令行参数.md
@@ -1,12 +1,15 @@
 # 命令行参数
+
 ## 目录
+
 - [sft 参数](#sft-参数)
 - [dpo 参数](#dpo-参数)
 - [merge-lora infer 参数](#merge-lora-infer-参数)
 - [app-ui 参数](#app-ui-参数)
 - [deploy 参数](#deploy-参数)
 
 ## sft 参数
+
 - `--model_type`: 表示你选择的模型类型, 默认是`None`. 如果没有指定`model_id_or_path`, 则抛出异常. 如果指定了`model_id_or_path`, 则会根据`model_id_or_path`以及`MODEL_MAPPING`推断`model_type`. `model_type`和`model_id_or_path`这两个参数不能同时指定. 可以选择的`model_type`可以查看`MODEL_MAPPING.keys()`.
 - `--model_id_or_path`: 表示模型在ModelScope Hub中的`model_id`, 不区分大小写, 默认为`None`. 如果`--model_id_or_path`未被注册, 则会抛出异常. 你可以使用`model_type`的方式指定模型类型, 也可以通过`model_id_or_path`的方式指定模型类型.
 - `--model_revision`: 表示模型在ModelScope Hub中对应`model_id`的版本号, 默认为`None`. `model_revision`指定为`None`, 则使用注册在`MODEL_MAPPING`中的revision. 否则强制使用命令行传入的`model_revision`.
@@ -96,7 +99,7 @@
 - `--gpu_memory_fraction`: 默认为None. 该参数旨在指定显卡最大可用显存比例的情况下运行训练，用于极限测试.
 - `--train_dataset_mix_ratio`: 默认为0. 该参数定义了如何进行数据集打混训练. 指定该参数时, 训练集会以`train_dataset_mix_ratio`倍数混合`train_dataset_mix_ds`指定的通用知识数据集, 使整体数据集长度达到`train_dataset_sample`.
 - `--train_dataset_mix_ds`: 默认为`ms-bench`. 用于防止知识遗忘的通用知识数据集.
-- `--use_loss_scale`: 默认为True. 生效时会讲Agent的部分字段(Action/Action Input部分)的loss权重加强以强化CoT, 对普通SFT场景没有任何效果.
+- `--use_loss_scale`: 默认为False. 生效时会将Agent的部分字段(Action/Action Input部分)的loss权重加强以强化CoT, 对普通SFT场景没有任何效果.
 
 ### AdaLoRA微调参数
 
@@ -130,8 +133,8 @@ dpo参数继承了sft参数, 除此之外增加了以下参数:
 - `--loss_type`: DPOloss类型, 支持'sigmoid', 'hinge', 'ipo', 'kto_pair', 默认值'sigmoid'.
 - `--sft_beta`: 是否在DPO中加入sft loss, 默认为0.1, 支持[0, 1)区间，最后的loss为(1-sft_beta)*KL_loss + sft_beta * sft_loss.
 
-
 ## merge-lora infer 参数
+
 - `--model_type`: 默认值为`None`, 具体的参数介绍可以在`sft.sh命令行参数`中查看.
 - `--model_id_or_path`: 默认值为`None`, 具体的参数介绍可以在`sft.sh命令行参数`中查看. 推荐使用model_type的方式指定.
 - `--model_revision`: 默认值为`None`. 具体的参数介绍可以在`sft.sh命令行参数`中查看. 如果`model_id_or_path`为None或者是本地的模型目录, 则该参数失效.
@@ -176,7 +179,6 @@ dpo参数继承了sft参数, 除此之外增加了以下参数:
 - `--gpu_memory_utilization`: 初始化vllm引擎`EngineArgs`的参数, 默认为`0.9`. 该参数只有在使用vllm时才生效.
 - `--tensor_parallel_size`: 初始化vllm引擎`EngineArgs`的参数, 默认为`1`. 该参数只有在使用vllm时才生效.
 
-
 ## app-ui 参数
 
 app-ui参数继承了infer参数, 除此之外增加了以下参数:
diff --git a/examples/pytorch/llm/scripts/qwen_7b_chat/lora/sft.sh b/examples/pytorch/llm/scripts/qwen_7b_chat/lora/sft.sh
@@ -11,6 +11,7 @@ python llm_sft.py \
     --dtype AUTO \
     --output_dir output \
     --dataset ms-agent \
+    --use_loss_scale true \
     --train_dataset_mix_ratio 2.0 \
     --train_dataset_sample -1 \
     --num_train_epochs 2 \
diff --git a/swift/llm/agent/utils.py b/swift/llm/agent/utils.py
@@ -57,7 +57,8 @@ def split_agent_parts_by(text: str, delimiters: List[str]):
 
 
 def calculate_loss_scale(response: str,
-                         use_loss_scale=True) -> Tuple[List[str], List[float]]:
+                         use_loss_scale=False
+                         ) -> Tuple[List[str], List[float]]:
     """Calculate the loss scale by splitting the agent response.
 
     This algorithm comes from paper: https://arxiv.org/pdf/2309.00986.pdf
@@ -88,7 +89,6 @@ def calculate_loss_scale(response: str,
             'Observation:'
         ]
         agent_parts = split_agent_parts_by(response, agent_keyword)
-        assert all([c['key'] for c in agent_parts])
         weights = []
         agent_content = []
         for c in agent_parts:
diff --git a/swift/llm/utils/argument.py b/swift/llm/utils/argument.py
@@ -70,7 +70,7 @@ class SftArguments:
     train_dataset_mix_ds: List[str] = field(
         default_factory=lambda: ['ms-bench'])
     val_dataset_sample: Optional[int] = None  # -1: all dataset
-    use_loss_scale: Optional[bool] = True
+    use_loss_scale: Optional[bool] = False
     system: Optional[str] = None
     max_length: int = 2048  # -1: no limit
     truncation_strategy: Literal['delete', 'truncation_left'] = 'delete'
diff --git a/swift/llm/utils/template.py b/swift/llm/utils/template.py
@@ -177,7 +177,7 @@ def _init_template(self,
         self.max_length = max_length
         self.truncation_strategy = truncation_strategy
         self.model = kwargs.get('model', None)
-        self.use_loss_scale = kwargs.get('use_loss_scale', True)
+        self.use_loss_scale = kwargs.get('use_loss_scale', False)
         for key in [
                 'prefix', 'prompt', 'chat_sep', 'suffix', 'prefix_has_system'
         ]:
@@ -363,8 +363,9 @@ def _encode(
         inputs = {
             'input_ids': input_ids,
             'labels': labels,
-            'loss_scale': loss_scale
         }
+        if self.use_loss_scale:
+            inputs['loss_scale'] = loss_scale
         return inputs, tokenizer_kwargs
 
     def get_tokenizer_kwargs(self, context: str) -> Dict[str, Any]: