Support vllm max_model_len (#392)

Jintao-Huang · web-flow · commit 22af2e6d6264 · 2024-02-06T13:49:34.000+08:00
diff --git a/docs/source/LLM/命令行参数.md b/docs/source/LLM/命令行参数.md
@@ -48,9 +48,9 @@
 - `--lora_alpha`: 默认为`32`. 只有当`sft_type`指定为'lora'时才生效.
 - `--lora_dropout_p`: 默认为`0.05`, 只有当`sft_type`指定为'lora'时才生效.
 - `--lora_bias_trainable`: 默认为`'none'`, 可以选择的值: 'none', 'all'. 如果你要将bias全都设置为可训练, 你可以设置为`'all'`.
-- `--modules_to_save`: 默认为`[]`. 如果你想要训练embedding, lm_head, 或者layer_norm, 你可以设置此参数, 例如: `--modules_to_save wte ln_1 ln_2 ln_f lm_head`, 这个参数用于任何adapter的训练中.
+- `--lora_modules_to_save`: 默认为`[]`. 如果你想要训练embedding, lm_head, 或者layer_norm, 你可以设置此参数, 例如: `--lora_modules_to_save wte ln_1 ln_2 ln_f lm_head`, 这个参数用于任何adapter的训练中.
 - `--lora_dtype`: 默认为`'fp32'`, 指定lora模块的dtype类型. 如果是`AUTO`则跟随原始模块的dtype类型. 你可以选择的值: 'fp16', 'bf16', 'fp32', 'AUTO'.
-- `--neftune_noise_alpha`: `NEFTune`添加的噪声系数, 可以提升模型在指令微调中的性能, 默认为`None`. 通常可以设置为5, 10, 15. 你可以查看[相关论文](https://arxiv.org/abs/2310.05914).
+- `--neftune_noise_alpha`: `NEFTune`添加的噪声系数, 可以提升模型在指令微调中的性能, 默认为`5`. 通常可以设置为5, 10, 15. 设置成`0`取消噪声扰动. 你可以查看[相关论文](https://arxiv.org/abs/2310.05914).
 - `--gradient_checkpointing`: 是否开启gradient checkpointing, 默认为`True`. 该参数可以用于节约显存, 虽然这会略微降低训练速度. 该参数在max_length较大, batch_size较大时作用显著.
 - `--deepspeed`: 用于指定deepspeed的配置文件的路径或者直接传入json格式的配置信息, 默认为`None`, 即不开启deepspeed. deepspeed可以节约显存. 我们书写了默认的[ZeRO-2配置文件](https://github.com/modelscope/swift/blob/main/swift/llm/ds_config/zero2.json), [ZeRO-3配置文件](https://github.com/modelscope/swift/blob/main/swift/llm/ds_config/zero3.json). 你只需要指定'default-zero2', 就会使用默认zero2配置文件; 指定'default-zero3', 就会使用默认的zero3配置文件.
 - `--batch_size`: 训练时的batch_size, 默认为`1`. 增大batch_size可以增加GPU的利用率, 但不一定会增加训练速度, 因为在一个batch中, 需要对较短的句子按该batch中最长句子的长度进行padding, 从而引入无效的计算量.
@@ -103,24 +103,24 @@
 
 ### AdaLoRA微调参数
 
-以下参数`sft_type`设置为`adalora`时生效。adalora的`target_modules`等参数继承于lora的对应参数，但`lora_dtype`参数不生效。
+以下参数`sft_type`设置为`adalora`时生效. adalora的`target_modules`等参数继承于lora的对应参数, 但`lora_dtype`参数不生效.
 
-- `--adalora_target_r`: 默认值8, adalora的平均rank
-- `--adalora_init_r`: 默认值12, adalora的初始rank
-- `--adalora_tinit`: 默认值0, adalora的初始warmup
-- `--adalora_tfinal`: 默认值0, adalora的final warmup
-- `--adalora_deltaT`: 默认值1, adalora的step间隔
-- `--adalora_beta1`: 默认值0.85, adalora的EMA参数
-- `--adalora_beta2`: 默认值0.85, adalora的EMA参数
-- `--adalora_orth_reg_weight`: 默认值0.5, adalora的正则化参数
+- `--adalora_target_r`: 默认值`8`, adalora的平均rank.
+- `--adalora_init_r`: 默认值`12`, adalora的初始rank.
+- `--adalora_tinit`: 默认值`0`, adalora的初始warmup.
+- `--adalora_tfinal`: 默认值`0`, adalora的final warmup.
+- `--adalora_deltaT`: 默认值`1`, adalora的step间隔.
+- `--adalora_beta1`: 默认值`0.85`, adalora的EMA参数.
+- `--adalora_beta2`: 默认值`0.85`, adalora的EMA参数.
+- `--adalora_orth_reg_weight`: 默认值`0.5`, adalora的正则化参数.
 
 ### IA3微调参数
 
-以下参数`sft_type`设置为`ia3`时生效。
+以下参数`sft_type`设置为`ia3`时生效.
 
-- `--ia3_target_modules`: 指定IA3目标模块, 默认为`['DEFAULT']`. 如果ia3_target_modules传入`'DEFAULT'` or `'AUTO'`, 则根据`model_type`查找`MODEL_MAPPING`中的`lora_target_modules`(默认指定为qkv). 如果传入`ALL`, 则将所有的Linear层都指定为lora模块(不含head). 注意如果指定为`ALL`时，需要手动设置`ia3_feedforward_modules`参数指定MLP Linear名称。
-- `--ia3_feedforward_modules`: 指定IA3的MLP的Linear名称，该名称必须在`ia3_target_modules`中。
-- `--modules_to_save`: 即上面参数的modules_to_save, IA3参与训练的额外模块。
+- `--ia3_target_modules`: 指定IA3目标模块, 默认为`['DEFAULT']`. 具体含义可以参考`lora_target_modules`.
+- `--ia3_feedforward_modules`: 指定IA3的MLP的Linear名称, 该名称必须在`ia3_target_modules`中.
+- `--ia3_modules_to_save`: IA3参与训练的额外模块. 具体含义可以参考`lora_modules_to_save`的含义.
 
 ## dpo 参数
 
@@ -131,7 +131,7 @@ dpo参数继承了sft参数, 除此之外增加了以下参数:
 - `--beta`: DPO logits的正则项，默认为0.1.
 - `--label_smoothing`: 是否使用DPO smoothing, 默认值为0，一般设置在0~0.5之间.
 - `--loss_type`: DPOloss类型, 支持'sigmoid', 'hinge', 'ipo', 'kto_pair', 默认值'sigmoid'.
-- `--sft_beta`: 是否在DPO中加入sft loss, 默认为0.1, 支持[0, 1)区间，最后的loss为(1-sft_beta)*KL_loss + sft_beta * sft_loss.
+- `--sft_beta`: 是否在DPO中加入sft loss, 默认为0.1, 支持[0, 1)区间，最后的loss为`(1-sft_beta)*KL_loss + sft_beta * sft_loss`.
 
 ## merge-lora infer 参数
 
@@ -178,6 +178,7 @@ dpo参数继承了sft参数, 除此之外增加了以下参数:
 - `--verbose`: 如果设置为False, 则使用tqdm样式推理. 如果设置为True, 则输出推理的query, response, label. 默认为`None`, 进行自动选择, 即`len(val_dataset) >= 100`时, 设置为False, 否则设置为True. 该参数只有在使用数据集评估时生效.
 - `--gpu_memory_utilization`: 初始化vllm引擎`EngineArgs`的参数, 默认为`0.9`. 该参数只有在使用vllm时才生效.
 - `--tensor_parallel_size`: 初始化vllm引擎`EngineArgs`的参数, 默认为`1`. 该参数只有在使用vllm时才生效.
+- `--max_model_len`: 覆盖模型的max_model_len, 默认为`None`. 该参数只有在使用vllm时才生效.
 
 ## app-ui 参数
 
diff --git a/swift/llm/tuner.py b/swift/llm/tuner.py
@@ -35,7 +35,7 @@ def prepare_model(model, args: SftArguments):
                 'lora_alpha': args.lora_alpha,
                 'lora_dropout': args.lora_dropout_p,
                 'bias': args.lora_bias_trainable,
-                'modules_to_save': args.modules_to_save,
+                'modules_to_save': args.lora_modules_to_save,
                 'layers_to_transform': args.lora_layers_to_transform,
                 'layers_pattern': args.lora_layers_pattern,
                 'rank_pattern': args.lora_rank_pattern,
@@ -105,7 +105,7 @@ def prepare_model(model, args: SftArguments):
                     task_type='CAUSAL_LM',
                     target_modules=args.ia3_target_modules,
                     feedforward_modules=args.ia3_feedforward_modules or [],
-                    modules_to_save=args.modules_to_save,
+                    modules_to_save=args.ia3_modules_to_save,
                 )
                 model = Swift.prepare_model(model, ia3_config)
                 logger.info(f'ia3_config: {ia3_config}')
diff --git a/swift/llm/utils/argument.py b/swift/llm/utils/argument.py
@@ -99,17 +99,16 @@ class SftArguments:
     lora_alpha: int = 32
     lora_dropout_p: float = 0.05
     lora_bias_trainable: Literal['none', 'all'] = 'none'
+    # e.g. ['wte', 'ln_1', 'ln_2', 'ln_f', 'lm_head']
+    lora_modules_to_save: List[str] = field(default_factory=list)
+    lora_dtype: Literal['fp16', 'bf16', 'fp32', 'AUTO'] = 'fp32'
 
     use_rslora: bool = False
-    lora_layers_to_transform: List[int] = None
-    lora_layers_pattern: List[str] = None
+    lora_layers_to_transform: Optional[List[int]] = None
+    lora_layers_pattern: Optional[List[str]] = None
     lora_rank_pattern: Dict = field(default_factory=dict)
     lora_alpha_pattern: Dict = field(default_factory=dict)
-    lora_loftq_config: str = field(default_factory=dict)
-    # e.g. ['wte', 'ln_1', 'ln_2', 'ln_f', 'lm_head']
-    lora_modules_to_save: List[str] = field(default_factory=list)
-    modules_to_save: List[str] = field(default_factory=list)
-    lora_dtype: Literal['fp16', 'bf16', 'fp32', 'AUTO'] = 'fp32'
+    lora_loftq_config: Dict = field(default_factory=dict)
     # adalora
     adalora_target_r: int = 8
     adalora_init_r: int = 12
@@ -121,9 +120,10 @@ class SftArguments:
     adalora_orth_reg_weight: float = 0.5
     # ia3
     ia3_target_modules: List[str] = field(default_factory=lambda: ['DEFAULT'])
-    ia3_feedforward_modules: List[str] = None
+    ia3_feedforward_modules: List[str] = field(default_factory=list)
+    ia3_modules_to_save: List[str] = field(default_factory=list)
 
-    neftune_noise_alpha: Optional[float] = None  # e.g. 5, 10, 15
+    neftune_noise_alpha: float = 5.  # e.g. 0, 5, 10, 15
     gradient_checkpointing: Optional[bool] = None
     # e.g. 'default-zero3', 'default-zero2', 'ds_config/zero2.json'
     deepspeed: Optional[str] = None
@@ -259,9 +259,6 @@ def __post_init__(self) -> None:
                     'If you have already added LoRA on MLP, please ignore this warning.'
                 )
 
-        if not self.modules_to_save:
-            self.modules_to_save = self.lora_modules_to_save
-
         self.torch_dtype, self.fp16, self.bf16 = select_dtype(self)
         world_size = 1
         if is_dist():
@@ -458,6 +455,7 @@ class InferArguments:
     # vllm
     gpu_memory_utilization: float = 0.9
     tensor_parallel_size: int = 1
+    max_model_len: Optional[int] = None
     # compatibility. (Deprecated)
     show_dataset_sample: int = 10
     safe_serialization: Optional[bool] = None
@@ -542,6 +540,8 @@ def __post_init__(self) -> None:
             self.stream = False
             logger.info('Setting self.stream: False')
         self.infer_media_type = template_info.get('infer_media_type', 'none')
+        if args.neftune_noise_alpha <= 0:
+            args.neftune_noise_alpha = None
 
     @staticmethod
     def check_ckpt_dir_correct(ckpt_dir) -> bool:
diff --git a/swift/llm/utils/vllm_utils.py b/swift/llm/utils/vllm_utils.py
@@ -25,6 +25,7 @@ def get_vllm_engine(model_type: str,
                     *,
                     gpu_memory_utilization: float = 0.9,
                     tensor_parallel_size: int = 1,
+                    max_model_len: Optional[int] = None,
                     engine_kwargs: Optional[Dict[str, Any]] = None,
                     use_async: bool = False,
                     **kwargs) -> LLMEngine:
@@ -70,6 +71,7 @@ def get_vllm_engine(model_type: str,
         dtype=dtype_mapping[torch_dtype],
         gpu_memory_utilization=gpu_memory_utilization,
         tensor_parallel_size=tensor_parallel_size,
+        max_model_len=max_model_len,
         disable_log_stats=disable_log_stats,
         **engine_kwargs)
     try:
@@ -325,6 +327,7 @@ def prepare_vllm_engine_template(
         args.torch_dtype,
         gpu_memory_utilization=args.gpu_memory_utilization,
         tensor_parallel_size=args.tensor_parallel_size,
+        max_model_len=args.max_model_len,
         use_async=use_async,
         **kwargs)
     tokenizer = llm_engine.tokenizer
diff --git a/swift/ui/llm_train/llm_train.py b/swift/ui/llm_train/llm_train.py
@@ -191,7 +191,7 @@ def do_build_ui(cls, base_tab: Type['BaseUI']):
                     gr.Slider(
                         elem_id='neftune_noise_alpha',
                         minimum=0.0,
-                        maximum=10.0,
+                        maximum=20.0,
                         step=0.5,
                         scale=4)
                 with gr.Row():