fix template bug (#43)

Jintao-Huang · web-flow · commit 9cf5e6738f3c · 2023-09-04T19:10:12.000+08:00
diff --git a/README.md b/README.md
@@ -31,12 +31,12 @@ Key features:
 ## LLM SFT Example
 [code link](https://github.com/modelscope/swift/tree/main/examples/pytorch/llm)
 
-1. supported sft method: [lora](https://arxiv.org/abs/2106.09685), [qlora](https://arxiv.org/abs/2305.14314), full(full parameter fine tuning), ...
+1. supported SFT methods: [lora](https://arxiv.org/abs/2106.09685), [qlora](https://arxiv.org/abs/2305.14314), full(full parameter fine-tuning)
 2. supported models: qwen-7b, [qwen-7b-chat](https://github.com/QwenLM/Qwen-7B), qwen-vl, [qwen-vl-chat](https://github.com/QwenLM/Qwen-VL), baichuan-7b, baichuan-13b, baichuan-13b-chat, chatglm2-6b, chatglm2-6b-32k, llama2-7b, llama2-7b-chat, llama2-13b, llama2-13b-chat, llama2-70b, llama2-70b-chat, openbuddy-llama2-13b, openbuddy-llama-65b, polylm-13b
-3. supported feature: quantization, ddp, model parallelism(device map), gradient checkpoint, gradient accumulation steps, push to modelscope hub, custom datasets, multimodal and agent sft, mutli-round chat, ...
+3. supported features: quantization, ddp, model parallelism(device map), gradient checkpointing, gradient accumulation, pushing to modelscope hub, custom datasets, multimodal and agent SFT, mutli-round chat, ...
 4. supported datasets:
-   1. nlp: alpaca-en(gpt4), alpaca-zh(gpt4), finance-en, multi-alpaca-all, code-en, instinwild-en, instinwild-zh, cot-en, cot-zh, firefly-all-zh, poetry-zh
-   2. agent: damo-agent-zh, damo-agent-mini-zh
+   1. NLP: alpaca-en(gpt4), alpaca-zh(gpt4), finance-en, multi-alpaca-all, code-en, instinwild-en, instinwild-zh, cot-en, cot-zh, firefly-all-zh, poetry-zh, instruct-en, gpt4all-en
+   2. agent: [damo-agent-zh](https://modelscope.cn/datasets/damo/MSAgent-Bench/summary), damo-agent-mini-zh
    3. multi-modal: coco-en
 5. supported templates: chatml(qwen), baichuan, chatglm2, llama, openbuddy_llama, default
 
diff --git a/README_CN.md b/README_CN.md
@@ -29,12 +29,12 @@ SWIFT（Scalable lightWeight Infrastructure for Fine-Tuning）是一个可扩展
 ## 大模型微调的例子
 [code link](https://github.com/modelscope/swift/tree/main/examples/pytorch/llm)
 
-1. 支持的sft方法: [lora](https://arxiv.org/abs/2106.09685), [qlora](https://arxiv.org/abs/2305.14314), 全参数微调, ...
+1. 支持的SFT方法: [lora](https://arxiv.org/abs/2106.09685), [qlora](https://arxiv.org/abs/2305.14314), 全参数微调
 2. 支持的模型: qwen-7b, [qwen-7b-chat](https://github.com/QwenLM/Qwen-7B), qwen-vl, [qwen-vl-chat](https://github.com/QwenLM/Qwen-VL), baichuan-7b, baichuan-13b, baichuan-13b-chat, chatglm2-6b, chatglm2-6b-32k, llama2-7b, llama2-7b-chat, llama2-13b, llama2-13b-chat, llama2-70b, llama2-70b-chat, openbuddy-llama2-13b, openbuddy-llama-65b, polylm-13b
-3. 支持的特性: 模型量化, DDP, 模型并行(device_map), gradient checkpoint, 梯度累加, 支持推送modelscope hub, 自定义数据集, 多模态和agent sft, 多轮对话, ...
+3. 支持的特性: 模型量化, DDP, 模型并行(device_map), gradient checkpointing, 梯度累加, 支持推送ModelScope Hub, 自定义数据集, 多模态和Agent SFT, 多轮对话, ...
 4. 支持的数据集:
-   1. nlp: alpaca-en(gpt4), alpaca-zh(gpt4), finance-en, multi-alpaca-all, code-en, instinwild-en, instinwild-zh, cot-en, cot-zh, firefly-all-zh, poetry-zh
-   2. agent: damo-agent-zh, damo-agent-mini-zh
+   1. NLP: alpaca-en(gpt4), alpaca-zh(gpt4), finance-en, multi-alpaca-all, code-en, instinwild-en, instinwild-zh, cot-en, cot-zh, firefly-all-zh, poetry-zh, instruct-en, gpt4all-en
+   2. agent: [damo-agent-zh](https://modelscope.cn/datasets/damo/MSAgent-Bench/summary), damo-agent-mini-zh
    3. multi-modal: coco-en
 5. 支持的对话模板: chatml(qwen), baichuan, chatglm2, llama, openbuddy_llama, default
 
diff --git a/examples/pytorch/llm/README.md b/examples/pytorch/llm/README.md
@@ -15,12 +15,12 @@
 </p>
 
 ## Features
-1. supported sft method: [lora](https://arxiv.org/abs/2106.09685), [qlora](https://arxiv.org/abs/2305.14314), full(full parameter fine tuning), ...
+1. supported SFT methods: [lora](https://arxiv.org/abs/2106.09685), [qlora](https://arxiv.org/abs/2305.14314), full(full parameter fine-tuning)
 2. supported models: qwen-7b, [qwen-7b-chat](https://github.com/QwenLM/Qwen-7B), qwen-vl, [qwen-vl-chat](https://github.com/QwenLM/Qwen-VL), baichuan-7b, baichuan-13b, baichuan-13b-chat, chatglm2-6b, chatglm2-6b-32k, llama2-7b, llama2-7b-chat, llama2-13b, llama2-13b-chat, llama2-70b, llama2-70b-chat, openbuddy-llama2-13b, openbuddy-llama-65b, polylm-13b
-3. supported feature: quantization, ddp, model parallelism(device map), gradient checkpoint, gradient accumulation steps, push to modelscope hub, custom datasets, multimodal and agent sft, mutli-round chat, ...
+3. supported features: quantization, ddp, model parallelism(device map), gradient checkpointing, gradient accumulation, pushing to modelscope hub, custom datasets, multimodal and agent SFT, mutli-round chat, ...
 4. supported datasets:
-   1. nlp: alpaca-en(gpt4), alpaca-zh(gpt4), finance-en, multi-alpaca-all, code-en, instinwild-en, instinwild-zh, cot-en, cot-zh, firefly-all-zh, poetry-zh
-   2. agent: damo-agent-zh, damo-agent-mini-zh
+   1. NLP: alpaca-en(gpt4), alpaca-zh(gpt4), finance-en, multi-alpaca-all, code-en, instinwild-en, instinwild-zh, cot-en, cot-zh, firefly-all-zh, poetry-zh, instruct-en, gpt4all-en
+   2. agent: [damo-agent-zh](https://modelscope.cn/datasets/damo/MSAgent-Bench/summary), damo-agent-mini-zh
    3. multi-modal: coco-en
 5. supported templates: chatml(qwen), baichuan, chatglm2, llama, openbuddy_llama, default
 
@@ -60,7 +60,7 @@ git clone https://github.com/modelscope/swift.git
 cd swift/examples/pytorch/llm
 
 # sft(qlora) and infer qwen-7b, Requires 16GB VRAM.
-# If you want to use quantification, you need to `pip install bitsandbytes`
+# If you want to use quantification, you need to `pip install bitsandbytes -U`
 # If you want to push weights into modelscope hub during training, you need to set '--push_to_hub true'
 bash scripts/qwen_7b_chat/qlora/sft.sh
 bash scripts/qwen_7b_chat/qlora/infer.sh
diff --git a/examples/pytorch/llm/README_CN.md b/examples/pytorch/llm/README_CN.md
@@ -16,12 +16,12 @@
 
 
 ## 特性
-1. 支持的sft方法: [lora](https://arxiv.org/abs/2106.09685), [qlora](https://arxiv.org/abs/2305.14314), 全参数微调, ...
+1. 支持的SFT方法: [lora](https://arxiv.org/abs/2106.09685), [qlora](https://arxiv.org/abs/2305.14314), 全参数微调
 2. 支持的模型: qwen-7b, [qwen-7b-chat](https://github.com/QwenLM/Qwen-7B), qwen-vl, [qwen-vl-chat](https://github.com/QwenLM/Qwen-VL), baichuan-7b, baichuan-13b, baichuan-13b-chat, chatglm2-6b, chatglm2-6b-32k, llama2-7b, llama2-7b-chat, llama2-13b, llama2-13b-chat, llama2-70b, llama2-70b-chat, openbuddy-llama2-13b, openbuddy-llama-65b, polylm-13b
-3. 支持的特性: 模型量化, DDP, 模型并行(device_map), gradient checkpoint, 梯度累加, 支持推送modelscope hub, 自定义数据集, 多模态和agent sft, 多轮对话, ...
+3. 支持的特性: 模型量化, DDP, 模型并行(device_map), gradient checkpointing, 梯度累加, 支持推送ModelScope Hub, 自定义数据集, 多模态和Agent SFT, 多轮对话, ...
 4. 支持的数据集:
-   1. nlp: alpaca-en(gpt4), alpaca-zh(gpt4), finance-en, multi-alpaca-all, code-en, instinwild-en, instinwild-zh, cot-en, cot-zh, firefly-all-zh, poetry-zh
-   2. agent: damo-agent-zh, damo-agent-mini-zh
+   1. NLP: alpaca-en(gpt4), alpaca-zh(gpt4), finance-en, multi-alpaca-all, code-en, instinwild-en, instinwild-zh, cot-en, cot-zh, firefly-all-zh, poetry-zh, instruct-en, gpt4all-en
+   2. agent: [damo-agent-zh](https://modelscope.cn/datasets/damo/MSAgent-Bench/summary), damo-agent-mini-zh
    3. multi-modal: coco-en
 5. 支持的对话模板: chatml(qwen), baichuan, chatglm2, llama, openbuddy_llama, default
 
@@ -62,7 +62,7 @@ git clone https://github.com/modelscope/swift.git
 cd swift/examples/pytorch/llm
 
 # 微调(qlora)+推理 qwen-7b, 需要16GB显存.
-# 如果你想要使用量化, 你需要`pip install bitsandbytes`
+# 如果你想要使用量化, 你需要`pip install bitsandbytes -U`
 # 如果你想在训练时, 将权重push到modelscope hub中, 你需要设置`--push_to_hub true`
 bash scripts/qwen_7b_chat/qlora/sft.sh
 bash scripts/qwen_7b_chat/qlora/infer.sh
diff --git a/examples/pytorch/llm/scripts/qwen_7b/qlora_ddp/sft.sh b/examples/pytorch/llm/scripts/qwen_7b/qlora_ddp/sft.sh
@@ -7,7 +7,7 @@ torchrun \
     src/llm_sft.py \
     --model_type qwen-7b \
     --sft_type lora \
-    --template_type chatml \
+    --template_type default \
     --dtype bf16 \
     --output_dir runs \
     --ddp_backend nccl \
@@ -21,6 +21,7 @@ torchrun \
     --lora_alpha 16 \
     --lora_dropout_p 0.05 \
     --lora_target_modules ALL \
+    --gradient_checkpointing true \
     --batch_size 1 \
     --weight_decay 0. \
     --learning_rate 1e-4 \
diff --git a/examples/pytorch/llm/scripts/qwen_7b_chat/full/sft.sh b/examples/pytorch/llm/scripts/qwen_7b_chat/full/sft.sh
@@ -11,6 +11,7 @@ python src/llm_sft.py \
     --dataset_sample -1 \
     --num_train_epochs 1 \
     --max_length 1024 \
+    --gradient_checkpointing true \
     --batch_size 1 \
     --weight_decay 0.01 \
     --learning_rate 1e-5 \
diff --git a/examples/pytorch/llm/scripts/qwen_7b_chat/lora_ddp/sft.sh b/examples/pytorch/llm/scripts/qwen_7b_chat/lora_ddp/sft.sh
@@ -18,6 +18,7 @@ torchrun \
     --lora_rank 8 \
     --lora_alpha 32 \
     --lora_dropout_p 0.05 \
+    --gradient_checkpointing true \
     --batch_size 1 \
     --weight_decay 0. \
     --learning_rate 1e-4 \
diff --git a/examples/pytorch/llm/scripts/qwen_7b_chat/qlora/sft.sh b/examples/pytorch/llm/scripts/qwen_7b_chat/qlora/sft.sh
@@ -16,6 +16,7 @@ python src/llm_sft.py \
     --lora_alpha 16 \
     --lora_dropout_p 0.05 \
     --lora_target_modules ALL \
+    --gradient_checkpointing true \
     --batch_size 1 \
     --weight_decay 0. \
     --learning_rate 1e-4 \
diff --git a/examples/pytorch/llm/scripts/qwen_7b_chat/qlora_ddp/sft.sh b/examples/pytorch/llm/scripts/qwen_7b_chat/qlora_ddp/sft.sh
@@ -21,6 +21,7 @@ torchrun \
     --lora_alpha 16 \
     --lora_dropout_p 0.05 \
     --lora_target_modules ALL \
+    --gradient_checkpointing true \
     --batch_size 1 \
     --weight_decay 0. \
     --learning_rate 1e-4 \
diff --git a/examples/pytorch/llm/scripts/qwen_agent/qlora_ddp/sft.sh b/examples/pytorch/llm/scripts/qwen_agent/qlora_ddp/sft.sh
@@ -21,6 +21,7 @@ torchrun \
     --lora_alpha 16 \
     --lora_dropout_p 0.05 \
     --lora_target_modules ALL \
+    --gradient_checkpointing true \
     --batch_size 1 \
     --weight_decay 0. \
     --learning_rate 1e-4 \
diff --git a/examples/pytorch/llm/scripts/qwen_vl/qlora_ddp/sft.sh b/examples/pytorch/llm/scripts/qwen_vl/qlora_ddp/sft.sh
@@ -7,7 +7,7 @@ torchrun \
     src/llm_sft.py \
     --model_type qwen-vl \
     --sft_type lora \
-    --template_type chatml \
+    --template_type default \
     --dtype bf16 \
     --output_dir runs \
     --ddp_backend nccl \
@@ -21,6 +21,7 @@ torchrun \
     --lora_alpha 16 \
     --lora_dropout_p 0.05 \
     --lora_target_modules ALL \
+    --gradient_checkpointing true \
     --batch_size 1 \
     --weight_decay 0. \
     --learning_rate 1e-4 \
diff --git a/examples/pytorch/llm/scripts/qwen_vl_chat/lora_ddp/sft.sh b/examples/pytorch/llm/scripts/qwen_vl_chat/lora_ddp/sft.sh
@@ -18,6 +18,7 @@ torchrun \
     --lora_rank 8 \
     --lora_alpha 32 \
     --lora_dropout_p 0.05 \
+    --gradient_checkpointing true \
     --batch_size 1 \
     --weight_decay 0. \
     --learning_rate 1e-4 \
diff --git a/examples/pytorch/llm/scripts/qwen_vl_chat/qlora/sft.sh b/examples/pytorch/llm/scripts/qwen_vl_chat/qlora/sft.sh
@@ -16,6 +16,7 @@ python src/llm_sft.py \
     --lora_alpha 16 \
     --lora_dropout_p 0.05 \
     --lora_target_modules ALL \
+    --gradient_checkpointing true \
     --batch_size 1 \
     --weight_decay 0. \
     --learning_rate 1e-4 \
diff --git a/examples/pytorch/llm/scripts/qwen_vl_chat/qlora_ddp/sft.sh b/examples/pytorch/llm/scripts/qwen_vl_chat/qlora_ddp/sft.sh
@@ -21,6 +21,7 @@ torchrun \
     --lora_alpha 16 \
     --lora_dropout_p 0.05 \
     --lora_target_modules ALL \
+    --gradient_checkpointing true \
     --batch_size 1 \
     --weight_decay 0. \
     --learning_rate 1e-4 \
diff --git a/examples/pytorch/llm/src/llm_sft.py b/examples/pytorch/llm/src/llm_sft.py
@@ -167,7 +167,7 @@ def __post_init__(self):
             else:
                 assert ModelScopeConfig.get_token(
                 ) is not None, 'Please enter hub_token'
-            logger.info('hub login successful!!!')
+            logger.info('hub login successful!')
 
 
 def llm_sft(args: SftArguments) -> None:
diff --git a/examples/pytorch/llm/src/utils/dataset.py b/examples/pytorch/llm/src/utils/dataset.py
@@ -12,15 +12,16 @@
 from tqdm.auto import tqdm
 
 from swift.utils import get_seed
+from .preprocess import History
 from .utils import download_dataset
 
 
-def _process_alpaca(
+def _process_alpaca_dataset(
         dataset: HfDataset,
         preprocess_input: Optional[Callable[[str], str]] = None) -> HfDataset:
     instruction = dataset['instruction']
     input_ = dataset['input']
-    new_instruction = []
+    new_instruction: List[str] = []
     for inst, inp in zip(instruction, input_):
         if inp is None:
             inp = ''
@@ -38,7 +39,7 @@ def _process_alpaca(
 def get_alpaca_gpt4_en_dataset() -> HfDataset:
     dataset: HfDataset = MsDataset.load(
         'AI-ModelScope/alpaca-gpt4-data-en', split='train').to_hf_dataset()
-    return _process_alpaca(dataset)
+    return _process_alpaca_dataset(dataset)
 
 
 def get_alpaca_gpt4_zh_dataset() -> HfDataset:
@@ -50,13 +51,13 @@ def _preprocess_input(inp: str) -> str:
             inp = inp[3:]
         return inp
 
-    return _process_alpaca(dataset, _preprocess_input)
+    return _process_alpaca_dataset(dataset, _preprocess_input)
 
 
 def get_finance_en_dataset() -> HfDataset:
     dataset: HfDataset = MsDataset.load(
         'wyj123456/finance_en', split='train').to_hf_dataset()
-    return _process_alpaca(dataset)
+    return _process_alpaca_dataset(dataset)
 
 
 _multi_alpaca_language_list = [
@@ -69,7 +70,7 @@ def _get_multi_alpaca(subset_name: str) -> HfDataset:
         'damo/nlp_polylm_multialpaca_sft',
         subset_name=subset_name,
         split='train').to_hf_dataset()
-    return _process_alpaca(dataset)
+    return _process_alpaca_dataset(dataset)
 
 
 def get_multi_alpaca(language_list: List[str]) -> HfDataset:
@@ -87,7 +88,7 @@ def get_multi_alpaca(language_list: List[str]) -> HfDataset:
         th	Thai	11,496
         vi	Vietnamese	13,908
     """
-    dataset_list = []
+    dataset_list: List[HfDataset] = []
     for subset_name in language_list:
         dataset = _get_multi_alpaca(subset_name)
         dataset_list.append(dataset)
@@ -102,33 +103,33 @@ def get_multi_alpaca_all() -> HfDataset:
 def get_code_alpaca_en_dataset() -> HfDataset:
     dataset: HfDataset = MsDataset.load(
         'wyj123456/code_alpaca_en', split='train').to_hf_dataset()
-    return _process_alpaca(dataset)
+    return _process_alpaca_dataset(dataset)
 
 
 def get_instinwild_zh_dataset() -> HfDataset:
     dataset: HfDataset = MsDataset.load(
         'wyj123456/instinwild', subset_name='default',
         split='train').to_hf_dataset()
-    return _process_alpaca(dataset)
+    return _process_alpaca_dataset(dataset)
 
 
 def get_instinwild_en_dataset() -> HfDataset:
     dataset: HfDataset = MsDataset.load(
         'wyj123456/instinwild', subset_name='subset',
         split='train').to_hf_dataset()
-    return _process_alpaca(dataset)
+    return _process_alpaca_dataset(dataset)
 
 
 def get_cot_en_dataset() -> HfDataset:
     dataset: HfDataset = MsDataset.load(
         'YorickHe/CoT', split='train').to_hf_dataset()
-    return _process_alpaca(dataset)
+    return _process_alpaca_dataset(dataset)
 
 
 def get_cot_zh_dataset() -> HfDataset:
     dataset: HfDataset = MsDataset.load(
         'YorickHe/CoT_zh', split='train').to_hf_dataset()
-    return _process_alpaca(dataset)
+    return _process_alpaca_dataset(dataset)
 
 
 def _process_mutimodal_dataset(dataset: HfDataset, prompt: str, image_key: str,
@@ -161,7 +162,7 @@ def _filter_agent_dataset(dataset: List[Dict[str, Any]],
         pattern = r'\d\. {"plugin_name": "(.+?)"'
     else:
         pattern = r'\d\. {"(?:plugin_)?name": "(.+?)"'
-    res = []
+    res: List[Dict[str, Any]] = []
     for d in tqdm(dataset):
         idx = d['conversations'].find(r"'from': 'user")
         if idx == -1:
@@ -178,18 +179,18 @@ def _filter_agent_dataset(dataset: List[Dict[str, Any]],
 
 
 def _process_agent_dataset(dataset: List[Dict[str, str]]) -> HfDataset:
-    system = []
-    query = []
-    response = []
-    history = []
+    system: List[str] = []
+    query: List[str] = []
+    response: List[str] = []
+    history: List[Optional[History]] = []
     for d in tqdm(dataset):
         conversations = d['conversations']
         assert len(conversations) >= 3
         assert conversations[0]['from'] == 'system'
         system.append(conversations[0]['value'])
         query.append(conversations[-2]['value'])
         response.append(conversations[-1]['value'])
-        h = None
+        h: Optional[History] = None
         if len(conversations) > 3:
             assert len(conversations) % 2 == 1
             conversations_h = conversations[1:-2]
@@ -227,8 +228,8 @@ def get_damo_agent_zh_dataset(use_mini: bool = False) -> HfDataset:
 def _process_firefly(dataset: List[Dict[str, str]],
                      kind_list: List[str]) -> HfDataset:
     kind_set = set(kind_list)
-    query = []
-    response = []
+    query: List[str] = []
+    response: List[str] = []
     for d in dataset:
         if d['kind'] not in kind_set:
             continue
@@ -270,6 +271,20 @@ def get_poetry_zh_dataset() -> HfDataset:
     })
 
 
+def get_instruct_en_dataset() -> HfDataset:
+    dataset: HfDataset = MsDataset.load(
+        'wyj123456/instruct', split='train').to_hf_dataset()
+    dataset = dataset.rename_column('prompt', 'query')
+    dataset = dataset.rename_column('completion', 'response')
+    return dataset
+
+
+def get_gpt4all_en_dataset() -> HfDataset:
+    dataset: HfDataset = MsDataset.load(
+        'wyj123456/GPT4all', split='train').to_hf_dataset()
+    return _process_alpaca_dataset(dataset)
+
+
 DATASET_MAPPING = {
     # nlp
     'alpaca-en': get_alpaca_gpt4_en_dataset,
@@ -285,13 +300,15 @@ def get_poetry_zh_dataset() -> HfDataset:
     'damo-agent-zh': get_damo_agent_zh_dataset,  # containing normal chat
     'firefly-all-zh': get_firefly_all_zh_dataset,
     'poetry-zh': get_poetry_zh_dataset,
+    'instruct-en': get_instruct_en_dataset,
+    'gpt4all-en': get_gpt4all_en_dataset,
     # multi-modal
     'coco-en': get_coco_en_dataset,
 }
 
 
 def get_dataset(dataset_name_list: List[str]) -> HfDataset:
-    dataset_list = []
+    dataset_list: List[HfDataset] = []
     for dataset_name in dataset_name_list:
         get_function = DATASET_MAPPING[dataset_name]
         dataset_list.append(get_function())
diff --git a/examples/pytorch/llm/src/utils/model.py b/examples/pytorch/llm/src/utils/model.py
diff --git a/examples/pytorch/llm/src/utils/preprocess.py b/examples/pytorch/llm/src/utils/preprocess.py
diff --git a/examples/pytorch/llm/src/utils/utils.py b/examples/pytorch/llm/src/utils/utils.py
diff --git a/swift/trainers/trainers.py b/swift/trainers/trainers.py