Merge commit 'ab712f13dbf219374b96bca8effedfdca760b6a2' into release/1.6

tastelikefeet · tastelikefeet · commit c8a53f8e96d6 · 2024-02-04T14:31:27.000+08:00
* commit 'ab712f13dbf219374b96bca8effedfdca760b6a2': fix system='' bug (#378) fix system='' bug (#374) update compute loss (#375) fix loss (#372) Fix length penalty (#371) fix lazy_tokenize bug (#369)
diff --git a/docs/source/LLM/命令行参数.md b/docs/source/LLM/命令行参数.md
@@ -27,7 +27,7 @@
 - `--dataset_test_ratio`: 用于指定子数据集切分成训练集和验证集的比例, 默认为`0.01`. 如果子数据集已经进行了训练集和验证集的切分, 则此参数无效.
 - `--train_dataset_sample`: 对训练集进行采样, 默认是`20000`, 用于加快训练的速度. 该参数是为了避免数据集过大, 单个epoch训练时间过长的问题. 如果你指定为`-1`, 则使用完整的训练集进行训练.
 - `--val_dataset_sample`: 对验证集进行采样, 默认是`None`, 自动选取合适数量的数据集数量进行验证. 如果你指定为`-1`, 则使用完整的验证集进行验证.
-- `--system`: 对话模板中使用的system, 默认为`None`, 即使用模型默认的system.
+- `--system`: 对话模板中使用的system, 默认为`None`, 即使用模型默认的system. 如果指定为'', 则不使用system.
 - `--max_length`: token的最大长度, 默认为`2048`. 可以避免个别过长的数据样本造成OOM的问题. 当指定`--truncation_strategy delete`时, 如果某数据样本长度超过max_length, 我们会删除该数据样本. 如果指定`--truncation_strategy truncation_left`时, 我们会切除最前面的token: `input_ids[-max_length:]`. 如果设置为-1, 则无限制.
 - `--truncation_strategy`: 默认是`'delete'`表示把超过max_length的句子从数据集中删除. `'truncation_left'`表示会将超过文本的左边给切除掉, 这可能会切到special token, 会影响性能, 并不推荐.
 - `--check_dataset_strategy`: 默认值为`'none'`, 即不做检查. 如果你训练的模型是LLM, 则推荐使用`'warning'`作为数据检查的策略. 如果你的训练目标为句子分类等任务, 则建议设置为'`none`'.
diff --git a/docs/source/LLM/自定义与拓展.md b/docs/source/LLM/自定义与拓展.md
@@ -317,7 +317,7 @@ class CustomTemplateType:
 register_template(
     CustomTemplateType.tigerbot,
     Template(['{{SYSTEM}}'], ['\n\n### Instruction:\n{{QUERY}}\n\n### Response:\n'], [],
-             [['eos_token_id']], ''))
+             [['eos_token_id']]))
 
 if __name__ == '__main__':
     # test template
diff --git a/examples/pytorch/llm/custom.py b/examples/pytorch/llm/custom.py
@@ -72,7 +72,7 @@ def get_tigerbot_model_tokenizer(model_dir: str,
     CustomTemplateType.tigerbot,
     Template(['{{SYSTEM}}'],
              ['\n\n### Instruction:\n{{QUERY}}\n\n### Response:\n'], [],
-             [['eos_token_id']], ''))
+             [['eos_token_id']]))
 
 
 def _preprocess_stsb(dataset: HfDataset) -> HfDataset:
diff --git a/swift/llm/deploy.py b/swift/llm/deploy.py
@@ -104,8 +104,8 @@ async def inference_vllm_async(request: Union[ChatCompletionRequest,
         return create_error_response(HTTPStatus.BAD_REQUEST, error_msg)
     kwargs = {'max_new_tokens': request.max_tokens}
     for key in [
-            'n', 'stop', 'best_of', 'frequency_penalty', 'presence_penalty',
-            'num_beams'
+            'n', 'stop', 'best_of', 'frequency_penalty', 'length_penalty',
+            'presence_penalty', 'num_beams'
     ]:
         kwargs[key] = getattr(request, key)
     for key in ['temperature', 'top_k', 'top_p', 'repetition_penalty']:
diff --git a/swift/llm/sft.py b/swift/llm/sft.py
@@ -162,7 +162,8 @@ def llm_sft(args: SftArguments) -> Dict[str, Union[str, Any]]:
         td0, tkwargs0 = template.encode(train_dataset[0])
         print_example(td0, tokenizer, tkwargs0)
         train_dataset = LazyLLMDataset(train_dataset, template)
-        val_dataset = LazyLLMDataset(val_dataset, template)
+        if val_dataset is not None:
+            val_dataset = LazyLLMDataset(val_dataset, template)
 
     padding_to = args.max_length if args.sft_type == 'longlora' else None
     data_collator = partial(template.data_collator, padding_to=padding_to)
diff --git a/swift/llm/utils/argument.py b/swift/llm/utils/argument.py
@@ -522,7 +522,8 @@ def __post_init__(self) -> None:
                     self.infer_backend = 'vllm'
         if self.infer_backend == 'vllm':
             assert self.quantization_bit == 0, 'VLLM does not support bnb.'
-            assert support_vllm, f'vllm not support `{self.model_type}`'
+            if not support_vllm:
+                logger.warning(f'vllm not support `{self.model_type}`')
             if self.sft_type == 'lora':
                 assert self.merge_lora_and_save is True, (
                     'To use VLLM, you need to provide the complete weight parameters. '
diff --git a/swift/llm/utils/protocol.py b/swift/llm/utils/protocol.py
@@ -45,6 +45,7 @@ class XRequestConfig:
     best_of: Optional[int] = None
     presence_penalty: float = 0.
     frequency_penalty: float = 0.
+    length_penalty: float = 1.
 
     # additional
     num_beams: int = 1
diff --git a/swift/llm/utils/template.py b/swift/llm/utils/template.py
@@ -104,6 +104,15 @@ def _has_system(prefix: Prompt) -> bool:
     return False
 
 
+def _replace_system(prefix: Prompt) -> Prompt:
+    res = []
+    for p in prefix:
+        if '{{SYSTEM}}' in p:
+            p = p.replace('{{SYSTEM}}', '')
+        res.append(p)
+    return res
+
+
 class Template:
 
     def __init__(self,
@@ -113,11 +122,13 @@ def __init__(self,
                  suffix: Prompt,
                  default_system: Optional[str] = None,
                  prefix_has_system: Optional[Prompt] = None) -> None:
-        self.prefix = prefix
+        if default_system == '':
+            default_system = None
         if _has_system(prefix):
             assert prefix_has_system is None, 'The prefix already contains {{SYSTEM}}.'
-            assert default_system is not None, 'You need to provide the `default_system`.'
             prefix_has_system = prefix
+            prefix = _replace_system(prefix)
+        self.prefix = prefix
         self.prefix_has_system = prefix_has_system
         if self.prefix_has_system is None:
             assert default_system is None, 'The template does not support `system`.'
@@ -157,7 +168,10 @@ def _init_template(self,
         assert self._is_init is False, 'The template has been initialized.'
         self._is_init = True
         self.tokenizer = tokenizer
-        if default_system is not None:
+        # if default_system is None. not change self.default_system
+        if default_system == '':
+            self.default_system = None
+        elif default_system is not None:
             assert self.prefix_has_system is not None, 'The template does not support `system`.'
             self.default_system = default_system
         self.max_length = max_length
@@ -189,6 +203,8 @@ def encode(
         if system is None:
             if self.use_default_system:
                 system = self.default_system
+        elif system == '':
+            system = None
         else:
             assert self.prefix_has_system is not None, 'The template does not support `system`.'
         inputs, tokenizer_kwargs = self._encode(query, response, history,
@@ -299,7 +315,6 @@ def _encode(
         res_context_list: List[Context] = []
         compute_loss_idx: List[float] = []
         if system is None:
-            assert self.prefix != self.prefix_has_system, f'template.prefix: {self.prefix}'
             prefix = self.prefix
         else:
             prefix = self.prefix_has_system
@@ -586,22 +601,21 @@ def data_collator(self,
 
 register_template(
     TemplateType.yi_vl,
-    YiVLTemplate(['{{SYSTEM}}\n\n'],
-                 ['### Human: ', [-200], '\n{{QUERY}}\n### Assistant:\n'],
-                 ['\n'], ['\n###'], yi_vl_default_system),
+    YiVLTemplate([], ['### Human: ', [-200], '\n{{QUERY}}\n### Assistant:\n'],
+                 ['\n'], ['\n###'], yi_vl_default_system, ['{{SYSTEM}}\n\n']),
     use_model=True,
     infer_media_type='round',
     lazy_tokenize=True)
 
 register_template(
     TemplateType.baichuan,
     Template(['{{SYSTEM}}'], [[195], '{{QUERY}}', [196]], [],
-             [['eos_token_id']], ''))
+             [['eos_token_id']]))
 register_template(
     TemplateType.chatglm2,
     Template([[64790, 64792], '{{SYSTEM}}'],
              ['[Round {{ROUND1}}]\n\n问：{{QUERY}}\n\n答：'], ['\n\n'],
-             [['eos_token_id']], ''))
+             [['eos_token_id']]))
 
 register_template(
     TemplateType.chatglm_generation,
@@ -818,29 +832,29 @@ def get_generate_ids(generate_ids: Tensor,
 register_template(
     TemplateType.xverse,
     Template(['{{SYSTEM}}'], ['Human: {{QUERY}}\n\nAssistant: '],
-             [['eos_token_id']], [['eos_token_id']], ''))
+             [['eos_token_id']], [['eos_token_id']]))
 register_template(TemplateType.yuan,
                   Template([], ['{{QUERY}}<sep>'], None, [['eos_token_id']]))
 register_template(
     TemplateType.ziya,
     Template([['bos_token_id'], '{{SYSTEM}}'], ['<human>:{{QUERY}}\n<bot>:'],
-             ['\n'], [['eos_token_id']], ''))
+             ['\n'], [['eos_token_id']]))
 
 register_template(
     TemplateType.skywork,
     Template(['<s>{{SYSTEM}}'], ['</s><s>[USER]{{QUERY}}[SEP][BOT]'], None,
-             ['[SEP]</s>'], ''))
+             ['[SEP]</s>']))
 
 register_template(
     TemplateType.bluelm,
     Template([['bos_token_id'], '{{SYSTEM}}'], ['[|Human|]:{{QUERY}}[|AI|]:'],
-             [], [['eos_token_id']], ''))
+             [], [['eos_token_id']]))
 
 register_template(
     TemplateType.codefuse_codellama,
     Template(['{{SYSTEM}}'], [
         '<|role_start|>human<|role_end|>{{QUERY}}<|role_start|>bot<|role_end|>'
-    ], [], [['eos_token_id']], ''))
+    ], [], [['eos_token_id']]))
 
 register_template(
     TemplateType.codefuse,
@@ -867,12 +881,12 @@ def get_generate_ids(generate_ids: Tensor,
 register_template(
     TemplateType.sus,
     Template(['{{SYSTEM}}'], ['### Human: {{QUERY}}\n\n### Assistant: '],
-             ['<|endoftext|>'], ['<|endoftext|>'], ''))
+             ['<|endoftext|>'], ['<|endoftext|>']))
 
 register_template(
     TemplateType.orion,
     Template(['<s>{{SYSTEM}}'], ['Human: {{QUERY}}\n\nAssistant: </s>'],
-             ['</s>'], ['</s>'], ''))
+             ['</s>'], ['</s>']))
 
 
 class CogAgentTemplate(Template):
@@ -939,7 +953,7 @@ def data_collator(self,
 
 register_template(
     TemplateType.openbmb,
-    Template(['<s>{{SYSTEM}}'], ['<用户>{{QUERY}}<AI>'], [], ['</s>'], ''))
+    Template(['<s>{{SYSTEM}}'], ['<用户>{{QUERY}}<AI>'], [], ['</s>']))
 
 
 def get_template(
diff --git a/swift/llm/utils/utils.py b/swift/llm/utils/utils.py
@@ -205,7 +205,7 @@ def _try_fetch(self, first_idx: int) -> Optional[Dict[str, Any]]:
         for i in [first_idx] + idx.tolist():
             data = self.dataset[i]
             res = self.template.encode(data)
-            if res is not None:
+            if len(res[0]) > 0:
                 return res
 
     def __len__(self) -> int:
diff --git a/swift/llm/utils/vllm_utils.py b/swift/llm/utils/vllm_utils.py
@@ -139,7 +139,8 @@ def __init__(
         kwargs['top_p'] = top_p
         kwargs['repetition_penalty'] = repetition_penalty
         if num_beams > 1:
-            assert 'use_beam_search' not in kwargs and 'best_of' not in kwargs
+            best_of = kwargs.get('best_of')
+            assert 'use_beam_search' not in kwargs and best_of is None
             kwargs['use_beam_search'] = True
             kwargs['best_of'] = num_beams
         kwargs['n'] = n
diff --git a/swift/trainers/trainers.py b/swift/trainers/trainers.py
@@ -180,19 +180,23 @@ def prediction_step(
 
         return loss, generated_tokens, labels
 
-    def compute_scaled_loss(self, labels, lm_logits, loss_scale):
-        lm_logits = lm_logits.to(torch.float32)
-
+    def compute_scaled_loss(self, labels: torch.Tensor,
+                            lm_logits: torch.Tensor,
+                            loss_scale: torch.Tensor) -> torch.Tensor:
+        device = lm_logits.device
         # Shift so that tokens < n predict n
-        shift_logits = lm_logits[..., :-1, :].contiguous()
-        shift_labels = labels[..., 1:].contiguous()
+        shift_logits = lm_logits[..., :-1, :]
+        shift_labels = labels[..., 1:]
+        shift_scale = loss_scale[..., 1:]
+        # Save memory
+        masks = shift_labels != -100
+        shift_logits = shift_logits[masks]
+        shift_labels = shift_labels[masks].to(device)
+        shift_scale = shift_scale[masks].to(device)
         # Flatten the tokens
-        loss_fct = CrossEntropyLoss(ignore_index=-100, reduction='none')
-        loss = loss_fct(
-            shift_logits.view(-1, shift_logits.size(-1)),
-            shift_labels.view(-1))
-        loss_scale = loss_scale[..., 1:].contiguous().view(-1).to(loss.device)
-        loss = loss_scale * loss
+        loss_fct = CrossEntropyLoss(reduction='none')
+        loss = loss_fct(shift_logits, shift_labels)
+        loss = shift_scale * loss
         return loss.mean()
 
     def compute_loss(self, model, inputs, return_outputs=None):
diff --git a/tests/llm/test_run.py b/tests/llm/test_run.py