Support lora regex (#1375)

tastelikefeet · web-flow · commit 34ec333b1bd5 · 2024-07-12T17:07:20.000+08:00
diff --git a/docs/source/LLM/命令行参数.md b/docs/source/LLM/命令行参数.md
@@ -62,6 +62,7 @@
 - `--bnb_4bit_use_double_quant`: 是否在4bit量化时开启double量化, 默认为`True`. 当quantization_bit为0时, 该参数无效.
 - `--bnb_4bit_quant_storage`: 默认值为`None`. 量化参数的存储类型. 若`quantization_bit`设置为0, 则该参数失效.
 - `--lora_target_modules`: 指定lora模块, 默认为`['DEFAULT']`. 如果lora_target_modules传入`'DEFAULT'` or `'AUTO'`, 则根据`model_type`查找`MODEL_MAPPING`中的`lora_target_modules`(默认指定为qkv). 如果传入`'ALL'`, 则将所有的Linear层(不含head)指定为lora模块. 如果传入`'EMBEDDING'`, 则Embedding层指定为lora模块. 如果内存允许, 建议设置成'ALL'. 当然, 你也可以设置`['ALL', 'EMBEDDING']`, 将所有的Linear和embedding层指定为lora模块. 该参数只有当`sft_type`指定为'lora'时才生效.
+- `--lora_target_regex`: 指定lora模块的regex表达式, `Optional[str]`类型. 默认为`None`, 如果该值传入, 则lora_target_modules不生效.
 - `--lora_rank`: 默认为`8`. 只有当`sft_type`指定为'lora'时才生效.
 - `--lora_alpha`: 默认为`32`. 只有当`sft_type`指定为'lora'时才生效.
 - `--lora_dropout_p`: 默认为`0.05`, 只有当`sft_type`指定为'lora'时才生效.
diff --git a/docs/source_en/LLM/Command-line-parameters.md b/docs/source_en/LLM/Command-line-parameters.md
@@ -63,6 +63,7 @@
 - `--bnb_4bit_use_double_quant`: Whether to enable double quantization for 4bit quantization, default is `True`. Has no effect when quantization_bit is 0.
 - `--bnb_4bit_quant_storage`: Default vlaue `None`.This sets the storage type to pack the quanitzed 4-bit prarams. Has no effect when quantization_bit is 0.
 - `--lora_target_modules`: Specify lora modules, default is `['DEFAULT']`. If lora_target_modules is passed `'DEFAULT'` or `'AUTO'`, look up `lora_target_modules` in `MODEL_MAPPING` based on `model_type` (default specifies qkv). If passed `'ALL'`, all Linear layers (excluding head) will be specified as lora modules. If passed `'EMBEDDING'`, Embedding layer will be specified as lora module. If memory allows, setting to 'ALL' is recommended. You can also set `['ALL', 'EMBEDDING']` to specify all Linear and embedding layers as lora modules. This parameter only takes effect when `sft_type` is 'lora'.
+- `--lora_target_regex`: The lora target regex in `Optional[str]`. default is `None`. If this argument is specified, the `lora_target_modules` will have no effect.
 - `--lora_rank`: Default is `8`. Only takes effect when `sft_type` is 'lora'.
 - `--lora_alpha`: Default is `32`. Only takes effect when `sft_type` is 'lora'.
 - `--lora_dropout_p`: Default is `0.05`, only takes effect when `sft_type` is 'lora'.
diff --git a/examples/pytorch/llm/custom.py b/examples/pytorch/llm/custom.py
@@ -75,7 +75,7 @@ def _preprocess_stsb(dataset: HfDataset) -> HfDataset:
     return HfDataset.from_dict({'query': query, 'response': response})
 
 
-register_dataset(CustomDatasetName.stsb_en, 'huangjintao/stsb', None, _preprocess_stsb, get_dataset_from_repo)
+register_dataset(CustomDatasetName.stsb_en, 'swift/stsb', None, _preprocess_stsb, get_dataset_from_repo)
 
 if __name__ == '__main__':
     # The Shell script can view `examples/pytorch/llm/scripts/custom`.
diff --git a/swift/llm/tuner.py b/swift/llm/tuner.py
@@ -103,9 +103,12 @@ def prepare_model(model, args: SftArguments):
             handle_modules_to_save(model, args)
             if args.init_lora_weights and args.init_lora_weights.lower() in ('true', 'false'):
                 args.init_lora_weights = args.init_lora_weights.lower() in ('true', 'True')
+            if args.lora_target_regex:
+                logger.info(f'Value of lora_target_modules: {args.lora_target_modules} will have no effect '
+                            f'because lora_target_regex value: {args.lora_target_regex} exists.')
             lora_kwargs = {
                 'r': args.lora_rank,
-                'target_modules': args.lora_target_modules,
+                'target_modules': args.lora_target_regex or args.lora_target_modules,
                 'lora_alpha': args.lora_alpha,
                 'lora_dropout': args.lora_dropout_p,
                 'bias': args.lora_bias_trainable,
diff --git a/swift/llm/utils/argument.py b/swift/llm/utils/argument.py
@@ -492,6 +492,7 @@ class SftArguments(ArgumentsBase):
     bnb_4bit_quant_storage: Optional[str] = None
     # lora
     lora_target_modules: List[str] = field(default_factory=lambda: ['DEFAULT'])
+    lora_target_regex: Optional[str] = None
     lora_rank: int = 8
     lora_alpha: int = 32
     lora_dropout_p: float = 0.05
diff --git a/swift/llm/utils/dataset.py b/swift/llm/utils/dataset.py
@@ -719,7 +719,7 @@ def _preprocess_aishell1_dataset(dataset: HfDataset) -> HfDataset:
 
 
 def _preprocess_video_chatgpt(dataset: HfDataset) -> HfDataset:
-    url = 'https://modelscope.cn/datasets/huangjintao/VideoChatGPT/resolve/master/videos.zip'
+    url = 'https://modelscope.cn/datasets/swift/VideoChatGPT/resolve/master/videos.zip'
     local_dir = MediaCache.download(url, 'video_chatgpt')
     local_dir = os.path.join(local_dir, 'Test_Videos')
     # only `.mp4`
@@ -742,7 +742,7 @@ def _preprocess_video_chatgpt(dataset: HfDataset) -> HfDataset:
 
 register_dataset(
     DatasetName.video_chatgpt,
-    'huangjintao/VideoChatGPT', ['Generic', 'Temporal', 'Consistency'],
+    'swift/VideoChatGPT', ['Generic', 'Temporal', 'Consistency'],
     _preprocess_video_chatgpt,
     get_dataset_from_repo,
     split=['test'],
@@ -1832,7 +1832,7 @@ def preprocess(row):
 
 register_dataset(
     DatasetName.sharegpt,
-    'huangjintao/sharegpt', ['common-zh', 'computer-zh', 'unknow-zh', 'common-en', 'computer-en'],
+    'swift/sharegpt', ['common-zh', 'computer-zh', 'unknow-zh', 'common-en', 'computer-en'],
     preprocess_sharegpt,
     get_dataset_from_repo,
     tags=['chat', 'general', 'multi-round'])
@@ -1977,7 +1977,7 @@ def _repair_conversations_agent_instruct(s: str) -> List[Dict[str, Any]]:
 
 register_dataset(
     DatasetName.agent_instruct_all_en,
-    'huangjintao/AgentInstruct_copy', ['alfworld', 'db', 'kg', 'mind2web', 'os', 'webshop'],
+    'swift/AgentInstruct_copy', ['alfworld', 'db', 'kg', 'mind2web', 'os', 'webshop'],
     ConversationsPreprocessor('human', 'gpt', repair_conversations=_repair_conversations_agent_instruct),
     get_dataset_from_repo,
     tags=['chat', 'agent', 'multi-round'])
diff --git a/swift/llm/utils/model.py b/swift/llm/utils/model.py
@@ -2442,7 +2442,7 @@ def _output_device_map_hook(module, input, output):
     hf_model_id='mistralai/Mistral-7B-v0.1')
 @register_model(
     ModelType.codestral_22b,
-    'huangjintao/Codestral-22B-v0.1',
+    'swift/Codestral-22B-v0.1',
     LoRATM.llama,
     TemplateType.default_generation,
     requires=['transformers>=4.34'],
@@ -4033,7 +4033,7 @@ def get_model_tokenizer_deepseek_vl(model_dir: str,
 
 @register_model(
     ModelType.llama3_70b_instruct_awq,
-    'huangjintao/Meta-Llama-3-70B-Instruct-AWQ',
+    'swift/Meta-Llama-3-70B-Instruct-AWQ',
     LoRATM.llama,
     TemplateType.llama3,
     requires=['autoawq'],
@@ -4044,7 +4044,7 @@ def get_model_tokenizer_deepseek_vl(model_dir: str,
     hf_model_id='study-hjt/Meta-Llama-3-70B-Instruct-AWQ')
 @register_model(
     ModelType.llama3_70b_instruct_int8,
-    'huangjintao/Meta-Llama-3-70b-Instruct-GPTQ-Int8',
+    'swift/Meta-Llama-3-70b-Instruct-GPTQ-Int8',
     LoRATM.llama,
     TemplateType.llama3,
     requires=['auto_gptq'],
@@ -4055,7 +4055,7 @@ def get_model_tokenizer_deepseek_vl(model_dir: str,
     hf_model_id='study-hjt/Meta-Llama-3-70B-Instruct-GPTQ-Int8')
 @register_model(
     ModelType.llama3_70b_instruct_int4,
-    'huangjintao/Meta-Llama-3-70B-Instruct-GPTQ-Int4',
+    'swift/Meta-Llama-3-70B-Instruct-GPTQ-Int4',
     LoRATM.llama,
     TemplateType.llama3,
     requires=['auto_gptq'],
@@ -4066,7 +4066,7 @@ def get_model_tokenizer_deepseek_vl(model_dir: str,
     hf_model_id='study-hjt/Meta-Llama-3-70B-Instruct-GPTQ-Int4')
 @register_model(
     ModelType.llama3_8b_instruct_awq,
-    'huangjintao/Meta-Llama-3-8B-Instruct-AWQ',
+    'swift/Meta-Llama-3-8B-Instruct-AWQ',
     LoRATM.llama,
     TemplateType.llama3,
     requires=['autoawq'],
@@ -4077,7 +4077,7 @@ def get_model_tokenizer_deepseek_vl(model_dir: str,
     hf_model_id='study-hjt/Meta-Llama-3-8B-Instruct-AWQ')
 @register_model(
     ModelType.llama3_8b_instruct_int8,
-    'huangjintao/Meta-Llama-3-8B-Instruct-GPTQ-Int8',
+    'swift/Meta-Llama-3-8B-Instruct-GPTQ-Int8',
     LoRATM.llama,
     TemplateType.llama3,
     requires=['auto_gptq'],
@@ -4088,7 +4088,7 @@ def get_model_tokenizer_deepseek_vl(model_dir: str,
     hf_model_id='study-hjt/Meta-Llama-3-8B-Instruct-GPTQ-Int8')
 @register_model(
     ModelType.llama3_8b_instruct_int4,
-    'huangjintao/Meta-Llama-3-8B-Instruct-GPTQ-Int4',
+    'swift/Meta-Llama-3-8B-Instruct-GPTQ-Int4',
     LoRATM.llama,
     TemplateType.llama3,
     requires=['auto_gptq'],
@@ -5106,7 +5106,7 @@ def get_model_tokenizer_llava_hf(model_dir: str, *args, **kwargs):
 
 @register_model(
     ModelType.llava1_5_13b_instruct,
-    'huangjintao/llava-1.5-13b-hf',
+    'swift/llava-1.5-13b-hf',
     LoRATM.llama,
     TemplateType.llava1_5,
     eos_token='</s>',
@@ -5123,7 +5123,7 @@ def get_model_tokenizer_llava_hf(model_dir: str, *args, **kwargs):
     hf_model_id='llava-hf/llava-1.5-13b-hf')
 @register_model(
     ModelType.llava1_5_7b_instruct,
-    'huangjintao/llava-1.5-7b-hf',
+    'swift/llava-1.5-7b-hf',
     LoRATM.llama,
     TemplateType.llava1_5,
     eos_token='</s>',
@@ -5147,7 +5147,7 @@ def get_model_tokenizer_llava_1_5(*args, **kwargs):
 
 @register_model(
     ModelType.llava1_6_vicuna_7b_instruct,
-    'huangjintao/llava-v1.6-vicuna-7b-hf',
+    'swift/llava-v1.6-vicuna-7b-hf',
     LoRATM.llama,
     TemplateType.llava_vicuna,
     support_vllm=True,
@@ -5163,7 +5163,7 @@ def get_model_tokenizer_llava_1_5(*args, **kwargs):
     hf_model_id='llava-hf/llava-v1.6-vicuna-7b-hf')
 @register_model(
     ModelType.llava1_6_vicuna_13b_instruct,
-    'huangjintao/llava-v1.6-vicuna-13b-hf',
+    'swift/llava-v1.6-vicuna-13b-hf',
     LoRATM.llama,
     TemplateType.llava_vicuna,
     support_vllm=True,
@@ -5179,7 +5179,7 @@ def get_model_tokenizer_llava_1_5(*args, **kwargs):
     hf_model_id='llava-hf/llava-v1.6-vicuna-13b-hf')
 @register_model(
     ModelType.llava1_6_mistral_7b_instruct,
-    'huangjintao/llava-v1.6-mistral-7b-hf',
+    'swift/llava-v1.6-mistral-7b-hf',
     LoRATM.llama,
     TemplateType.llava_mistral,
     support_vllm=True,
@@ -5202,7 +5202,7 @@ def get_model_tokenizer_llava_next(*args, **kwargs):
 
 @register_model(
     ModelType.llava1_6_yi_34b_instruct,
-    'huangjintao/llava-v1.6-34b-hf',
+    'swift/llava-v1.6-34b-hf',
     LoRATM.llama,
     TemplateType.llava_yi,
     support_vllm=True,
@@ -5226,7 +5226,7 @@ def get_model_tokenizer_llava_next_yi(*args, **kwargs):
 
 @register_model(
     ModelType.llava_next_video_7b_dpo_instruct,
-    'huangjintao/LLaVA-NeXT-Video-7B-DPO-hf',
+    'swift/LLaVA-NeXT-Video-7B-DPO-hf',
     LoRATM.llama,
     TemplateType.llava_next_video,
     support_flash_attn=True,
@@ -5235,7 +5235,7 @@ def get_model_tokenizer_llava_next_yi(*args, **kwargs):
     hf_model_id='llava-hf/LLaVA-NeXT-Video-7B-DPO-hf')
 @register_model(
     ModelType.llava_next_video_7b_32k_instruct,
-    'huangjintao/LLaVA-NeXT-Video-7B-32K-hf',
+    'swift/LLaVA-NeXT-Video-7B-32K-hf',
     LoRATM.llama,
     TemplateType.llava_next_video,
     support_flash_attn=True,
@@ -5244,7 +5244,7 @@ def get_model_tokenizer_llava_next_yi(*args, **kwargs):
     hf_model_id='llava-hf/LLaVA-NeXT-Video-7B-32K-hf')
 @register_model(
     ModelType.llava_next_video_7b_instruct,
-    'huangjintao/LLaVA-NeXT-Video-7B-hf',
+    'swift/LLaVA-NeXT-Video-7B-hf',
     LoRATM.llama,
     TemplateType.llava_next_video,
     support_flash_attn=True,
@@ -5259,7 +5259,7 @@ def get_model_tokenizer_llava_next_video(*args, **kwargs):
 
 @register_model(
     ModelType.llava_next_video_34b_instruct,
-    'huangjintao/LLaVA-NeXT-Video-34B-hf',
+    'swift/LLaVA-NeXT-Video-34B-hf',
     LoRATM.llama,
     TemplateType.llava_next_video_yi,
     support_flash_attn=True,