modelscope
diff --git a/‎docs/source/Multi-Modal/deepseek-vl最佳实践.md‎
Lines changed: 57 additions & 33 deletions b/‎docs/source/Multi-Modal/deepseek-vl最佳实践.md‎
Lines changed: 57 additions & 33 deletions
diff --git a/‎docs/source/Multi-Modal/llava最佳实践.md‎
Lines changed: 0 additions & 2 deletions b/‎docs/source/Multi-Modal/llava最佳实践.md‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎docs/source/Multi-Modal/qwen-audio最佳实践.md‎
Lines changed: 0 additions & 2 deletions b/‎docs/source/Multi-Modal/qwen-audio最佳实践.md‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎docs/source/Multi-Modal/qwen-vl最佳实践.md‎
Lines changed: 0 additions & 1 deletion b/‎docs/source/Multi-Modal/qwen-vl最佳实践.md‎
Lines changed: 0 additions & 1 deletion
@@ -13,9 +13,14 @@
 pip install 'ms-swift[llm]' -U
 ```
 
+模型链接:
+- deepseek-vl-1_3b-chat: [https://www.modelscope.cn/models/deepseek-ai/deepseek-vl-1.3b-chat/summary](https://www.modelscope.cn/models/deepseek-ai/deepseek-vl-1.3b-chat/summary)
+- deepseek-vl-7b-chat: [https://www.modelscope.cn/models/deepseek-ai/deepseek-vl-7b-chat/summary](https://www.modelscope.cn/models/deepseek-ai/deepseek-vl-7b-chat/summary)
+
+
 ## 推理
 
-推理[deepseek-vl-7b-chat](https://www.modelscope.cn/models/deepseek-ai/deepseek-vl-7b-chat/summary):
+推理deepseek-vl-7b-chat:
 
 ```shell
 # Experimental environment: A100
@@ -29,29 +34,36 @@ CUDA_VISIBLE_DEVICES=0 swift infer --model_type deepseek-vl-1_3b-chat
 7b模型效果展示: (支持传入本地路径或URL)
 ```python
 """
-<<< 描述这种图片
-Input a media path or URL <<< http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/cat.png
-这幅图片捕捉到了一只小猫咪迷人的场景，它的眼睛睁得大大的，带着好奇心。小猫的毛发是白色和灰色的混合，给它一种几乎是空灵的外观。它的耳朵尖尖的，警觉地向上指，而它的鼻子是柔和的粉红色。小猫的眼睛是醒目的蓝色，充满了天真和好奇。小猫舒适地坐在一块白色的布料上，与它的灰色和白色毛发形成了美丽的对比。背景模糊，使人们的焦点集中在小猫的脸上，突出了它特征的精细细节。这幅图片散发出一种温暖和柔软的感觉，捕捉到了小猫的纯真和魅力。
+<<< 你是谁？
+我是一个人工智能助手，专门设计来帮助用户解答问题和提供信息。我可以帮助你了解各种主题，从语言学习到视觉识别技术。有什么我可以帮助你的吗？
+--------------------------------------------------
+<<< <img>http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/animal.png</img><img>http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/cat.png</img>这两张图片有什么区别
+这两张图片的主要区别在于它们描绘的动物和场景。
+
+第一张图片展示了一只小猫，它有着醒目的蓝色眼睛和灰白色的毛皮。小猫坐在一个模糊的背景前，看起来像是一张白色的床单或毯子。小猫的目光直直地对着相机，给人一种好奇和警觉的印象。
+
+第二张图片展示了一群羊站在一个绿色的田野中。羊的毛皮是白色和棕色的，它们站在一片绿色的草地上，背景中可以看到山脉。羊群看起来很平静，没有特别指向相机，这表明它们可能正在吃草或仅仅是享受田野。
+
+两张图片的背景都是模糊的，这有助于将焦点集中在动物上。然而，第一张图片中的背景更简单，只有一张白色的床单，而第二张图片中的背景更复杂，包括了绿色的田野和远处的山脉。
+
+总的来说，这两张图片捕捉了两种不同的场景：一只小猫在室内环境中，而一群羊在户外环境中。
 --------------------------------------------------
-<<< 图中有几只羊？
-Input a media path or URL <<< http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/animal.png
-图片中有四只羊。
+<<< <img>http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/animal.png</img>图中有几只羊
+图中有四只羊。
 --------------------------------------------------
-<<< 计算结果是多少
-Input a media path or URL <<< http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/math.png
+<<< <img>http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/math.png</img>计算结果是多少
 将1452和45304相加的结果是1452 + 45304 = 46756。
 --------------------------------------------------
-<<< 根据图片中的内容写首诗
-Input a media path or URL <<< http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/poem.png
+<<< <img>http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/poem.png</img>根据图片中的内容写首诗
 星辉洒落湖面静，
-独舟轻摇夜风中。
+独舟轻摇夜色中。
 灯火摇曳伴星辰，
 波光粼粼映山影。
 
-翠竹轻拂夜色浓，
-银河倒挂水天清。
-渔火点点入梦来，
-一舟一人话星辰。
+轻风拂过水面涟，
+舟儿前行不自知。
+夜深人静思绪远，
+孤舟独行心悠然。
 """
 ```
 
@@ -97,16 +109,14 @@ model.generation_config.max_new_tokens = 256
 template = get_template(template_type, tokenizer)
 seed_everything(42)
 
-images = ['http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/road.png']
-query = '距离各城市多远？'
-response, history = inference(model, template, query, images=images)
+query = '<img>http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/road.png</img>距离各城市多远？'
+response, history = inference(model, template, query)
 print(f'query: {query}')
 print(f'response: {response}')
 
 # 流式
 query = '距离最远的城市是哪？'
-images = images * 2
-gen = inference_stream(model, template, query, history, images=images)
+gen = inference_stream(model, template, query, history)
 print_idx = 0
 print(f'query: {query}\nresponse: ', end='')
 for response, history in gen:
@@ -116,7 +126,7 @@ for response, history in gen:
 print()
 print(f'history: {history}')
 """
-query: 距离各城市多远？
+query: <img>http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/road.png</img>距离各城市多远？
 response: 这个标志显示了从当前位置到以下城市的距离：
 
 - 马塔（Mata）：14公里
@@ -125,8 +135,8 @@ response: 这个标志显示了从当前位置到以下城市的距离：
 
 这些信息是根据图片中的标志提供的。
 query: 距离最远的城市是哪？
-response: 距离最远的那个城市是广州，根据标志所示，从当前位置到广州的距离是293公里。
-history: [['距离各城市多远？', '这个标志显示了从当前位置到以下城市的距离：\n\n- 马塔（Mata）：14公里\n- 阳江（Yangjiang）：62公里\n- 广州（Guangzhou）：293公里\n\n这些信息是根据图片中的标志提供的。'], ['距离最远的城市是哪？', '距离最远的那个城市是广州，根据标志所示，从当前位置到广州的距离是293公里。']]
+response: 根据图片中的标志，距离最远的城市是广州，距离为293公里。
+history: [['<img>http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/road.png</img>距离各城市多远？', '这个标志显示了从当前位置到以下城市的距离：\n\n- 马塔（Mata）：14公里\n- 阳江（Yangjiang）：62公里\n- 广州（Guangzhou）：293公里\n\n这些信息是根据图片中的标志提供的。'], ['距离最远的城市是哪？', '根据图片中的标志，距离最远的城市是广州，距离为293公里。']]
 """
 ```
 
@@ -148,7 +158,7 @@ LoRA微调:
 # 20GB GPU memory
 CUDA_VISIBLE_DEVICES=0 swift sft \
     --model_type deepseek-vl-7b-chat \
-    --dataset coco-mini-en-2 \
+    --dataset coco-mini-en \
 ```
 
 全参数微调:
@@ -157,21 +167,35 @@ CUDA_VISIBLE_DEVICES=0 swift sft \
 # 4 * 70GB GPU memory
 NPROC_PER_NODE=4 CUDA_VISIBLE_DEVICES=0,1,2,3 swift sft \
     --model_type deepseek-vl-7b-chat \
-    --dataset coco-mini-en-2 \
-    --train_dataset_sample -1 \
+    --dataset coco-mini-en \
     --sft_type full \
     --use_flash_attn true \
     --deepspeed default-zero2
 ```
 
 [自定义数据集](../LLM/自定义与拓展.md#-推荐命令行参数的形式)支持json, jsonl样式, 以下是自定义数据集的例子:
 
-(支持多轮对话, 每轮对话必须包含一张图片, 支持传入本地路径或URL)
-
-```jsonl
-{"query": "55555", "response": "66666", "images": ["image_path"]}
-{"query": "eeeee", "response": "fffff", "history": [], "images": ["image_path"]}
-{"query": "EEEEE", "response": "FFFFF", "history": [["AAAAA", "BBBBB"], ["CCCCC", "DDDDD"]], "images": ["image_path", "image_path2", "image_path3"]}
+(支持多轮对话, 支持每轮对话含多张图片或不含图片, 支持传入本地路径或URL)
+
+```json
+[
+    {"conversations": [
+        {"from": "user", "value": "<img>img_path</img>11111"},
+        {"from": "assistant", "value": "22222"}
+    ]},
+    {"conversations": [
+        {"from": "user", "value": "<img>img_path</img><img>img_path2</img><img>img_path3</img>aaaaa"},
+        {"from": "assistant", "value": "bbbbb"},
+        {"from": "user", "value": "<img>img_path</img>ccccc"},
+        {"from": "assistant", "value": "ddddd"}
+    ]},
+    {"conversations": [
+        {"from": "user", "value": "AAAAA"},
+        {"from": "assistant", "value": "BBBBB"},
+        {"from": "user", "value": "CCCCC"},
+        {"from": "assistant", "value": "DDDDD"}
+    ]}
+]
 ```
 
 
 
@@ -184,15 +184,13 @@ CUDA_VISIBLE_DEVICES=0,1 swift sft \
 NPROC_PER_NODE=4 CUDA_VISIBLE_DEVICES=0,1,2,3 swift sft \
     --model_type llava1d6-mistral-7b-instruct \
     --dataset coco-mini-en-2 \
-    --train_dataset_sample -1 \
     --sft_type full \
     --deepspeed default-zero2
 
 # 8 * 50 GPU memory
 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 swift sft \
     --model_type llava1d6-yi-34b-instruct \
     --dataset coco-mini-en-2 \
-    --train_dataset_sample -1 \
     --sft_type full \
 ```
 
 
@@ -116,7 +116,6 @@ CUDA_VISIBLE_DEVICES=0 swift sft \
 CUDA_VISIBLE_DEVICES=0,1 swift sft \
     --model_type qwen-audio-chat \
     --dataset aishell1-mini-zh \
-    --train_dataset_sample -1 \
     --sft_type full \
 
 # ZeRO2
@@ -125,7 +124,6 @@ CUDA_VISIBLE_DEVICES=0,1 swift sft \
 NPROC_PER_NODE=4 CUDA_VISIBLE_DEVICES=0,1,2,3 swift sft \
     --model_type qwen-audio-chat \
     --dataset aishell1-mini-zh \
-    --train_dataset_sample -1 \
     --sft_type full \
     --use_flash_attn true \
     --deepspeed default-zero2
 
@@ -148,7 +148,6 @@ CUDA_VISIBLE_DEVICES=0 swift sft \
 NPROC_PER_NODE=2 CUDA_VISIBLE_DEVICES=0,1,2,3 swift sft \
     --model_type qwen-vl-chat \
     --dataset coco-mini-en \
-    --train_dataset_sample -1 \
     --sft_type full \
 ```