update readme and fix bug (#167)

Jintao-Huang · web-flow · commit e78dcdb99a64 · 2023-11-22T10:55:24.000+08:00
diff --git a/README.md b/README.md
@@ -115,7 +115,7 @@ To see more sh startup scripts, please refer to: [Run SFT and Inference](https:/
 ```bash
 git clone https://github.com/modelscope/swift.git
 cd swift
-pip install .
+pip install -e .
 ```
 
 
@@ -141,19 +141,74 @@ sft_args = SftArguments(
     dataset=[DatasetName.blossom_math_zh],
     output_dir='output',
     gradient_checkpointing=True)
-best_ckpt_dir = sft_main(sft_args)['best_model_checkpoint']
-print(f'best_ckpt_dir: {best_ckpt_dir}')
+result = sft_main(sft_args)
+best_model_checkpoint = result['best_model_checkpoint']
+print(f'best_model_checkpoint: {best_model_checkpoint}')
 torch.cuda.empty_cache()
+
 infer_args = InferArguments(
-    ckpt_dir=best_ckpt_dir,
+    ckpt_dir=best_model_checkpoint,
     load_args_from_ckpt_dir=True,
     stream=True,
     show_dataset_sample=5)
-infer_main(infer_args)
+result = infer_main(infer_args)
+print(f'result: {result}')
 torch.cuda.empty_cache()
+
 web_ui_main(infer_args)
 ```
 
+**Single-Sample Inference**:
+
+Inference using LoRA **incremental** weights:
+```python
+import os
+os.environ['CUDA_VISIBLE_DEVICES'] = '0'
+
+from swift.llm import (
+    get_model_tokenizer, get_template, inference, ModelType, get_default_template_type
+)
+from swift.tuners import Swift
+import torch
+
+model_dir = 'vx_xxx/checkpoint-100'
+model_type = ModelType.qwen_7b_chat
+template_type = get_default_template_type(model_type)
+
+model, tokenizer = get_model_tokenizer(model_type, torch.bfloat16, {'device_map': 'auto'})
+
+model = Swift.from_pretrained(model, model_dir, inference_mode=True)
+template = get_template(template_type, tokenizer)
+query = 'xxxxxx'
+response, history = inference(model, template, query, verbose=False)
+print(f'response: {response}')
+print(f'history: {history}')
+```
+
+Inference using LoRA **merged** complete weights:
+```python
+import os
+os.environ['CUDA_VISIBLE_DEVICES'] = '0'
+
+from swift.llm import (
+    get_model_tokenizer, get_template, inference, ModelType, get_default_template_type
+)
+import torch
+
+model_dir = 'vx_xxx/checkpoint-100-merged'
+model_type = ModelType.qwen_7b_chat
+template_type = get_default_template_type(model_type)
+
+model, tokenizer = get_model_tokenizer(model_type, torch.bfloat16, {'device_map': 'auto'},
+                                       model_dir=model_dir)
+
+template = get_template(template_type, tokenizer)
+query = 'xxxxxx'
+response, history = inference(model, template, query, verbose=False)
+print(f'response: {response}')
+print(f'history: {history}')
+```
+
 #### Run using Swift CLI
 **SFT**:
 ```bash
diff --git a/README_CN.md b/README_CN.md
@@ -113,7 +113,7 @@ LLM微调的详细使用文档可以查看[这里](https://github.com/modelscope
 ```bash
 git clone https://github.com/modelscope/swift.git
 cd swift
-pip install .
+pip install -e .
 ```
 
 #### 使用python运行
@@ -138,19 +138,74 @@ sft_args = SftArguments(
     dataset=[DatasetName.blossom_math_zh],
     output_dir='output',
     gradient_checkpointing=True)
-best_ckpt_dir = sft_main(sft_args)['best_model_checkpoint']
-print(f'best_ckpt_dir: {best_ckpt_dir}')
+result = sft_main(sft_args)
+best_model_checkpoint = result['best_model_checkpoint']
+print(f'best_model_checkpoint: {best_model_checkpoint}')
 torch.cuda.empty_cache()
+
 infer_args = InferArguments(
-    ckpt_dir=best_ckpt_dir,
+    ckpt_dir=best_model_checkpoint,
     load_args_from_ckpt_dir=True,
     stream=True,
     show_dataset_sample=5)
-infer_main(infer_args)
+result = infer_main(infer_args)
+print(f'result: {result}')
 torch.cuda.empty_cache()
+
 web_ui_main(infer_args)
 ```
 
+**单样本推理**:
+
+使用LoRA**增量**权重进行推理:
+```python
+import os
+os.environ['CUDA_VISIBLE_DEVICES'] = '0'
+
+from swift.llm import (
+    get_model_tokenizer, get_template, inference, ModelType, get_default_template_type
+)
+from swift.tuners import Swift
+import torch
+
+model_dir = 'vx_xxx/checkpoint-100'
+model_type = ModelType.qwen_7b_chat
+template_type = get_default_template_type(model_type)
+
+model, tokenizer = get_model_tokenizer(model_type, torch.bfloat16, {'device_map': 'auto'})
+
+model = Swift.from_pretrained(model, model_dir, inference_mode=True)
+template = get_template(template_type, tokenizer)
+query = 'xxxxxx'
+response, history = inference(model, template, query, verbose=False)
+print(f'response: {response}')
+print(f'history: {history}')
+```
+
+使用LoRA **merge**后完整的权重进行推理:
+```python
+import os
+os.environ['CUDA_VISIBLE_DEVICES'] = '0'
+
+from swift.llm import (
+    get_model_tokenizer, get_template, inference, ModelType, get_default_template_type
+)
+import torch
+
+model_dir = 'vx_xxx/checkpoint-100-merged'
+model_type = ModelType.qwen_7b_chat
+template_type = get_default_template_type(model_type)
+
+model, tokenizer = get_model_tokenizer(model_type, torch.bfloat16, {'device_map': 'auto'},
+                                       model_dir=model_dir)
+
+template = get_template(template_type, tokenizer)
+query = 'xxxxxx'
+response, history = inference(model, template, query, verbose=False)
+print(f'response: {response}')
+print(f'history: {history}')
+```
+
 #### 使用Swift CLI运行
 **微调**:
 ```bash
diff --git a/examples/pytorch/llm/README.md b/examples/pytorch/llm/README.md
@@ -61,7 +61,7 @@ Experimental environment: A10, 3090, V100, A100, ...
 pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
 git clone https://github.com/modelscope/swift.git
 cd swift
-pip install .
+pip install -e .
 # The following script needs to be executed in this directory.
 cd examples/pytorch/llm
 
@@ -104,19 +104,74 @@ sft_args = SftArguments(
     dataset=[DatasetName.blossom_math_zh],
     output_dir='output',
     gradient_checkpointing=True)
-best_ckpt_dir = sft_main(sft_args)['best_model_checkpoint']
-print(f'best_ckpt_dir: {best_ckpt_dir}')
+result = sft_main(sft_args)
+best_model_checkpoint = result['best_model_checkpoint']
+print(f'best_model_checkpoint: {best_model_checkpoint}')
 torch.cuda.empty_cache()
+
 infer_args = InferArguments(
-    ckpt_dir=best_ckpt_dir,
+    ckpt_dir=best_model_checkpoint,
     load_args_from_ckpt_dir=True,
     stream=True,
-    val_dataset_sample=5)
-infer_main(infer_args)
+    show_dataset_sample=5)
+result = infer_main(infer_args)
+print(f'result: {result}')
 torch.cuda.empty_cache()
+
 web_ui_main(infer_args)
 ```
 
+**Single-Sample Inference**:
+
+Inference using LoRA **incremental** weights:
+```python
+import os
+os.environ['CUDA_VISIBLE_DEVICES'] = '0'
+
+from swift.llm import (
+    get_model_tokenizer, get_template, inference, ModelType, get_default_template_type
+)
+from swift.tuners import Swift
+import torch
+
+model_dir = 'vx_xxx/checkpoint-100'
+model_type = ModelType.qwen_7b_chat
+template_type = get_default_template_type(model_type)
+
+model, tokenizer = get_model_tokenizer(model_type, torch.bfloat16, {'device_map': 'auto'})
+
+model = Swift.from_pretrained(model, model_dir, inference_mode=True)
+template = get_template(template_type, tokenizer)
+query = 'xxxxxx'
+response, history = inference(model, template, query, verbose=False)
+print(f'response: {response}')
+print(f'history: {history}')
+```
+
+Inference using LoRA **merged** complete weights:
+```python
+import os
+os.environ['CUDA_VISIBLE_DEVICES'] = '0'
+
+from swift.llm import (
+    get_model_tokenizer, get_template, inference, ModelType, get_default_template_type
+)
+import torch
+
+model_dir = 'vx_xxx/checkpoint-100-merged'
+model_type = ModelType.qwen_7b_chat
+template_type = get_default_template_type(model_type)
+
+model, tokenizer = get_model_tokenizer(model_type, torch.bfloat16, {'device_map': 'auto'},
+                                       model_dir=model_dir)
+
+template = get_template(template_type, tokenizer)
+query = 'xxxxxx'
+response, history = inference(model, template, query, verbose=False)
+print(f'response: {response}')
+print(f'history: {history}')
+```
+
 ### Run using Swift CLI
 **SFT**:
 ```bash
diff --git a/examples/pytorch/llm/README_CN.md b/examples/pytorch/llm/README_CN.md
@@ -60,7 +60,7 @@
 pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
 git clone https://github.com/modelscope/swift.git
 cd swift
-pip install .
+pip install -e .
 # 下面的脚本需要在此目录下执行
 cd examples/pytorch/llm
 
@@ -103,19 +103,74 @@ sft_args = SftArguments(
     dataset=[DatasetName.blossom_math_zh],
     output_dir='output',
     gradient_checkpointing=True)
-best_ckpt_dir = sft_main(sft_args)['best_model_checkpoint']
-print(f'best_ckpt_dir: {best_ckpt_dir}')
+result = sft_main(sft_args)
+best_model_checkpoint = result['best_model_checkpoint']
+print(f'best_model_checkpoint: {best_model_checkpoint}')
 torch.cuda.empty_cache()
+
 infer_args = InferArguments(
-    ckpt_dir=best_ckpt_dir,
+    ckpt_dir=best_model_checkpoint,
     load_args_from_ckpt_dir=True,
     stream=True,
-    val_dataset_sample=5)
-infer_main(infer_args)
+    show_dataset_sample=5)
+result = infer_main(infer_args)
+print(f'result: {result}')
 torch.cuda.empty_cache()
+
 web_ui_main(infer_args)
 ```
 
+**单样本推理**:
+
+使用LoRA**增量**权重进行推理:
+```python
+import os
+os.environ['CUDA_VISIBLE_DEVICES'] = '0'
+
+from swift.llm import (
+    get_model_tokenizer, get_template, inference, ModelType, get_default_template_type
+)
+from swift.tuners import Swift
+import torch
+
+model_dir = 'vx_xxx/checkpoint-100'
+model_type = ModelType.qwen_7b_chat
+template_type = get_default_template_type(model_type)
+
+model, tokenizer = get_model_tokenizer(model_type, torch.bfloat16, {'device_map': 'auto'})
+
+model = Swift.from_pretrained(model, model_dir, inference_mode=True)
+template = get_template(template_type, tokenizer)
+query = 'xxxxxx'
+response, history = inference(model, template, query, verbose=False)
+print(f'response: {response}')
+print(f'history: {history}')
+```
+
+使用LoRA **merge**后完整的权重进行推理:
+```python
+import os
+os.environ['CUDA_VISIBLE_DEVICES'] = '0'
+
+from swift.llm import (
+    get_model_tokenizer, get_template, inference, ModelType, get_default_template_type
+)
+import torch
+
+model_dir = 'vx_xxx/checkpoint-100-merged'
+model_type = ModelType.qwen_7b_chat
+template_type = get_default_template_type(model_type)
+
+model, tokenizer = get_model_tokenizer(model_type, torch.bfloat16, {'device_map': 'auto'},
+                                       model_dir=model_dir)
+
+template = get_template(template_type, tokenizer)
+query = 'xxxxxx'
+response, history = inference(model, template, query, verbose=False)
+print(f'response: {response}')
+print(f'history: {history}')
+```
+
 ### 使用Swift CLI运行
 **微调**:
 ```bash
diff --git a/swift/llm/infer.py b/swift/llm/infer.py
@@ -153,11 +153,10 @@ def llm_infer(args: InferArguments) -> None:
         _, val_dataset = get_dataset(args.dataset, args.dataset_test_ratio,
                                      args.dataset_seed)
         if args.val_dataset_sample >= 0:
-            mini_val_dataset = val_dataset.select(
+            val_dataset = val_dataset.select(
                 range(min(args.val_dataset_sample, val_dataset.shape[0])))
-        else:
-            mini_val_dataset = val_dataset
-        for data in mini_val_dataset:
+        logger.info(f'val_dataset: {val_dataset}')
+        for data in val_dataset:
             _, history = inference(
                 model,
                 template,
diff --git a/swift/llm/utils/__init__.py b/swift/llm/utils/__init__.py
@@ -3,7 +3,7 @@
 from .dataset import (DATASET_MAPPING, DatasetName, GetDatasetFunction,
                       get_dataset, get_dataset_from_repo, register_dataset)
 from .model import (MODEL_MAPPING, GetModelTokenizerFunction, LoRATM,
-                    ModelType, get_model_tokenizer,
+                    ModelType, get_default_template_type, get_model_tokenizer,
                     get_model_tokenizer_from_repo,
                     get_model_tokenizer_from_sdk, register_model)
 from .preprocess import (AlpacaPreprocessor, ClsPreprocessor,
diff --git a/swift/llm/utils/argument.py b/swift/llm/utils/argument.py
@@ -538,7 +538,7 @@ def register_custom_dataset(args: Union[SftArguments, InferArguments]) -> None:
         get_function=get_custom_dataset)
     if args.dataset is None:
         args.dataset = ['_custom_dataset']
-    else:
+    elif '_custom_dataset' not in args.dataset:
         args.dataset.append('_custom_dataset')
 
 
diff --git a/swift/llm/utils/model.py b/swift/llm/utils/model.py
@@ -905,3 +905,7 @@ def get_model_tokenizer(
             model.generation_config = GenerationConfig.from_pretrained(
                 model_dir)
     return model, tokenizer
+
+
+def get_default_template_type(model_type: str) -> Optional[str]:
+    return MODEL_MAPPING[model_type].get('template')
diff --git a/swift/llm/utils/utils.py b/swift/llm/utils/utils.py
diff --git a/tests/llm/test_run.py b/tests/llm/test_run.py