[llm]update tipc setting (#6990)

lugimzzz · DesmonDay · web-flow · commit dcad8b0e3d03 · 2023-09-13T03:15:27.000-05:00
* update setting

* delete

---------

Co-authored-by: DesmonDay &lt;908660116@qq.com&gt;
diff --git a/tests/test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh b/tests/test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh
@@ -20,7 +20,7 @@ function _set_params(){
     # 脚本所需参数
     model_name_or_path=${1:-"facebook/llama-7b"}
     dataset_name_or_path=${2:-"llm_benchmark_zh"}
-    max_length=${3:-"1024"}
+    base_batch_size=${3:-"1"}
     learning_rate=${4:-"3e-05"}
     recompute=${5:-"true"}
     tensor_parallel_degree=${6:-"1"}
@@ -29,7 +29,6 @@ function _set_params(){
 
     # benchmark配置参数
     model_item=${9:-"facebook/llama-7b"}   # (必选) 模型 item |fastscnn|segformer_b0| ocrnet_hrnetw48
-    base_batch_size=1     # (必选) 如果是静态图单进程，则表示每张卡上的BS，需在训练时*卡数
     fp_item="fp16"            # (必选) fp32|fp16
     run_mode=${10:-"DP"}             # (必选) MP模型并行|DP数据并行|PP流水线并行|混合并行DP1-MP1-PP1|DP1-MP4-PP1
     device_num=${11:-"N1C1"}         # (必选) 使用的卡数量，N1C1|N1C8|N4C32 （4机32卡）
@@ -91,7 +90,7 @@ function _train(){
     train_cmd="    --model_name_or_path ${model_name_or_path} \
             --dataset_name_or_path ${dataset_name_or_path} \
             --output_dir output \
-            --per_device_train_batch_size 1 \
+            --per_device_train_batch_size ${base_batch_size} \
             --gradient_accumulation_steps 1 \
             --num_train_epochs ${num_train_epochs} \
             --learning_rate ${learning_rate} \
@@ -100,7 +99,7 @@ function _train(){
             --save_strategy no \
             --logging_steps 1 \
             --src_length 1024 \
-            --max_length ${max_length} \
+            --max_length 1024 \
             --fp16 1 \
             --fp16_opt_level O2 \
             --do_train 1 \
diff --git a/tests/test_tipc/dygraph/ft/bloom/N1C1/bigscience-bloomz-7b1-mt_lora_bs1_fp16_DP1.sh b/tests/test_tipc/dygraph/ft/bloom/N1C1/bigscience-bloomz-7b1-mt_lora_bs1_fp16_DP1.sh
@@ -14,17 +14,17 @@
 
 model_name_or_path="bigscience/bloomz-7b1-mt"
 dataset_name_or_path="llm_benchmark_zh"
-max_length=3072
+base_batch_size=1
 learning_rate="3e-04"
-recompute="1"
+recompute="0"
 tensor_parallel_degree="1"
 lora="1"
 prefix_tuning="0"
 model_item="bigscience-bloomz-7b1-mt_lora"
-run_mode="DP1-recompute"
+run_mode="DP1"
 device_num="N1C1"
 num_train_epochs=2
 export CUDA_VISIBLE_DEVICES=0
 cd ./tests
 bash ./test_tipc/dygraph/ft/benchmark_common/prepare.sh
-bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${max_length} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
+bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${base_batch_size} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
diff --git a/tests/test_tipc/dygraph/ft/bloom/N1C1/bigscience-bloomz-7b1-mt_pt_bs1_fp16_DP1.sh b/tests/test_tipc/dygraph/ft/bloom/N1C1/bigscience-bloomz-7b1-mt_pt_bs1_fp16_DP1.sh
@@ -14,17 +14,17 @@
 
 model_name_or_path="bigscience/bloomz-7b1-mt"
 dataset_name_or_path="llm_benchmark_zh"
-max_length=3072
+base_batch_size=1
 learning_rate="3e-02"
-recompute="1"
+recompute="0"
 tensor_parallel_degree="1"
 lora="0"
 prefix_tuning="1"
 model_item="bigscience-bloomz-7b1-mt_pt"
-run_mode="DP1-recompute"
+run_mode="DP1"
 device_num="N1C1"
 num_train_epochs=2
 export CUDA_VISIBLE_DEVICES=0
 cd ./tests
 bash ./test_tipc/dygraph/ft/benchmark_common/prepare.sh
-bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${max_length} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
+bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${base_batch_size} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
diff --git a/tests/test_tipc/dygraph/ft/bloom/N1C8/bigscience-bloomz-7b1-mt_sft_bs2_fp16_MP8.sh b/tests/test_tipc/dygraph/ft/bloom/N1C8/bigscience-bloomz-7b1-mt_sft_bs2_fp16_MP8.sh
@@ -14,17 +14,17 @@
 
 model_name_or_path="bigscience/bloomz-7b1-mt"
 dataset_name_or_path="llm_benchmark_zh"
-max_length=3072
+base_batch_size=2
 learning_rate="3e-05"
-recompute="1"
+recompute="0"
 tensor_parallel_degree="8"
 lora="0"
 prefix_tuning="0"
 model_item="bigscience-bloomz-7b1-mt_sft"
-run_mode="MP8-recompute"
+run_mode="MP8"
 device_num="N1C8"
 num_train_epochs=5
 export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
 cd ./tests
 bash ./test_tipc/dygraph/ft/benchmark_common/prepare.sh
-bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${max_length} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
+bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${base_batch_size} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
diff --git a/tests/test_tipc/dygraph/ft/chatglm/N1C1/THUDM-chatglm-6b_lora_bs1_fp16_DP1.sh b/tests/test_tipc/dygraph/ft/chatglm/N1C1/THUDM-chatglm-6b_lora_bs1_fp16_DP1.sh
@@ -14,17 +14,17 @@
 
 model_name_or_path="THUDM/chatglm-6b"
 dataset_name_or_path="llm_benchmark_zh"
-max_length=3072
+base_batch_size=1
 learning_rate="3e-04"
-recompute="1"
+recompute="0"
 tensor_parallel_degree="1"
 lora="1"
 prefix_tuning="0"
 model_item="THUDM-chatglm-6b_lora"
-run_mode="DP1-recompute"
+run_mode="DP1"
 device_num="N1C1"
 num_train_epochs=2
 export CUDA_VISIBLE_DEVICES=0
 cd ./tests
 bash ./test_tipc/dygraph/ft/benchmark_common/prepare.sh
-bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${max_length} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
+bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${base_batch_size} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
diff --git a/tests/test_tipc/dygraph/ft/chatglm/N1C1/THUDM-chatglm-6b_pt_bs1_fp16_DP1.sh b/tests/test_tipc/dygraph/ft/chatglm/N1C1/THUDM-chatglm-6b_pt_bs1_fp16_DP1.sh
@@ -14,17 +14,17 @@
 
 model_name_or_path="THUDM/chatglm-6b"
 dataset_name_or_path="llm_benchmark_zh"
-max_length=3072
+base_batch_size=1
 learning_rate="3e-02"
-recompute="1"
+recompute="0"
 tensor_parallel_degree="1"
 lora="0"
 prefix_tuning="1"
 model_item="THUDM-chatglm-6b_pt"
-run_mode="DP1-recompute"
+run_mode="DP1"
 device_num="N1C1"
 num_train_epochs=2
 export CUDA_VISIBLE_DEVICES=0
 cd ./tests
 bash ./test_tipc/dygraph/ft/benchmark_common/prepare.sh
-bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${max_length} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
+bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${base_batch_size} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
diff --git a/tests/test_tipc/dygraph/ft/chatglm/N1C8/THUDM-chatglm-6b_sft_bs2_fp16_MP8.sh b/tests/test_tipc/dygraph/ft/chatglm/N1C8/THUDM-chatglm-6b_sft_bs2_fp16_MP8.sh
@@ -14,17 +14,17 @@
 
 model_name_or_path="THUDM/chatglm-6b"
 dataset_name_or_path="llm_benchmark_zh"
-max_length=3072
+base_batch_size=2
 learning_rate="3e-05"
-recompute="1"
+recompute="0"
 tensor_parallel_degree="8"
 lora="0"
 prefix_tuning="0"
 model_item="THUDM-chatglm-6b_sft"
-run_mode="MP8-recompute"
+run_mode="MP8"
 device_num="N1C8"
 num_train_epochs=5
 export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
 cd ./tests
 bash ./test_tipc/dygraph/ft/benchmark_common/prepare.sh
-bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${max_length} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
+bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${base_batch_size} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
diff --git a/tests/test_tipc/dygraph/ft/llama/N1C1/facebook-llama-13b_lora_bs1_fp16_DP1-recompute.sh b/tests/test_tipc/dygraph/ft/llama/N1C1/facebook-llama-13b_lora_bs1_fp16_DP1-recompute.sh
@@ -14,7 +14,7 @@
 
 model_name_or_path="facebook/llama-13b"
 dataset_name_or_path="llm_benchmark_en"
-max_length=1024
+base_batch_size=1
 learning_rate="3e-04"
 recompute="1"
 tensor_parallel_degree="1"
@@ -27,4 +27,4 @@ num_train_epochs=2
 export CUDA_VISIBLE_DEVICES=0
 cd ./tests
 bash ./test_tipc/dygraph/ft/benchmark_common/prepare.sh
-bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${max_length} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
+bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${base_batch_size} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
diff --git a/tests/test_tipc/dygraph/ft/llama/N1C1/facebook-llama-13b_pt_bs1_fp16_DP1-recompute.sh b/tests/test_tipc/dygraph/ft/llama/N1C1/facebook-llama-13b_pt_bs1_fp16_DP1-recompute.sh
@@ -14,7 +14,7 @@
 
 model_name_or_path="facebook/llama-13b"
 dataset_name_or_path="llm_benchmark_en"
-max_length=1024
+base_batch_size=1
 learning_rate="3e-02"
 recompute="1"
 tensor_parallel_degree="1"
@@ -27,4 +27,4 @@ num_train_epochs=2
 export CUDA_VISIBLE_DEVICES=0
 cd ./tests
 bash ./test_tipc/dygraph/ft/benchmark_common/prepare.sh
-bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${max_length} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
+bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${base_batch_size}  ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
diff --git a/tests/test_tipc/dygraph/ft/llama/N1C1/facebook-llama-7b_lora_bs1_fp16_DP1.sh b/tests/test_tipc/dygraph/ft/llama/N1C1/facebook-llama-7b_lora_bs1_fp16_DP1.sh
@@ -14,17 +14,17 @@
 
 model_name_or_path="facebook/llama-7b"
 dataset_name_or_path="llm_benchmark_en"
-max_length=3072
+base_batch_size=1
 learning_rate="3e-04"
-recompute="1"
+recompute="0"
 tensor_parallel_degree="1"
 lora="1"
 prefix_tuning="0"
 model_item="facebook-llama-7b_lora"
-run_mode="DP1-recompute"
+run_mode="DP1"
 device_num="N1C1"
 num_train_epochs=2
 export CUDA_VISIBLE_DEVICES=0
 cd ./tests
 bash ./test_tipc/dygraph/ft/benchmark_common/prepare.sh
-bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${max_length} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
+bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${base_batch_size} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
diff --git a/tests/test_tipc/dygraph/ft/llama/N1C1/facebook-llama-7b_pt_bs1_fp16_DP1.sh b/tests/test_tipc/dygraph/ft/llama/N1C1/facebook-llama-7b_pt_bs1_fp16_DP1.sh
@@ -14,17 +14,17 @@
 
 model_name_or_path="facebook/llama-7b"
 dataset_name_or_path="llm_benchmark_en"
-max_length=3072
+base_batch_size=1
 learning_rate="3e-02"
-recompute="1"
+recompute="0"
 tensor_parallel_degree="1"
 lora="0"
 prefix_tuning="1"
 model_item="facebook-llama-7b_pt"
-run_mode="DP1-recompute"
+run_mode="DP1"
 device_num="N1C1"
 num_train_epochs=2
 export CUDA_VISIBLE_DEVICES=0
 cd ./tests
 bash ./test_tipc/dygraph/ft/benchmark_common/prepare.sh
-bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${max_length} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
+bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${base_batch_size} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
diff --git a/tests/test_tipc/dygraph/ft/llama/N1C8/facebook-llama-13b_sft_bs2_fp16_MP8-recompute.sh b/tests/test_tipc/dygraph/ft/llama/N1C8/facebook-llama-13b_sft_bs2_fp16_MP8-recompute.sh
@@ -14,7 +14,7 @@
 
 model_name_or_path="facebook/llama-13b"
 dataset_name_or_path="llm_benchmark_en"
-max_length=1024
+base_batch_size=2
 learning_rate="3e-05"
 recompute="1"
 tensor_parallel_degree="8"
@@ -24,8 +24,7 @@ model_item="facebook-llama-13b_sft"
 run_mode="MP8-recompute"
 device_num="N1C8"
 num_train_epochs=5
-export CUDA_VISIBLE_DEVICES=0
 export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
 cd ./tests
 bash ./test_tipc/dygraph/ft/benchmark_common/prepare.sh
-bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${max_length} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
+bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${base_batch_size} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
diff --git a/tests/test_tipc/dygraph/ft/llama/N1C8/facebook-llama-7b_sft_bs2_fp16_MP8.sh b/tests/test_tipc/dygraph/ft/llama/N1C8/facebook-llama-7b_sft_bs2_fp16_MP8.sh
@@ -14,17 +14,17 @@
 
 model_name_or_path="facebook/llama-7b"
 dataset_name_or_path="llm_benchmark_en"
-max_length=3072
+base_batch_size=2
 learning_rate="3e-05"
-recompute="1"
+recompute="0"
 tensor_parallel_degree="8"
 lora="0"
 prefix_tuning="0"
 model_item="facebook-llama-7b_sft"
-run_mode="MP8-recompute"
+run_mode="MP8"
 device_num="N1C8"
 num_train_epochs=5
 export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
 cd ./tests
 bash ./test_tipc/dygraph/ft/benchmark_common/prepare.sh
-bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${max_length} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}
+bash ./test_tipc/dygraph/ft/benchmark_common/run_benchmark.sh ${model_name_or_path} ${dataset_name_or_path} ${base_batch_size} ${learning_rate} ${recompute} ${tensor_parallel_degree} ${lora} ${prefix_tuning} ${model_item} ${run_mode} ${device_num} ${num_train_epochs}