mT5模型数据分布式训练 #42

Promise-Lv · 2023-07-06T10:43:31Z

把text2sql.py中的模型训练部分，变成数据并行，配合sh文件，指定多GPU，可加快训练速度。

lihaoyang-ruc · 2023-07-06T13:58:16Z

感谢你的PR！由于时间关系，我大概看了一下，有几个小问题最好能修复一下：

注释最好写成英文的，因为项目里其他所有注释都是英文。
最好提交一个新的文件，而不是直接修改text2sql.py，你可以让新文件命名为text2sql_ distributed_version.py，然后在这个文件的一开始注释上“This is the distributed version of text2sql.py.”。这是因为之前所有的脚本都在默认单卡上训练和推理，你如果直接在text2sql.py上进行修改，很可能会影响这些脚本的运行。
我看你提交的sh脚本是在mt5-large上训练的，因此train_model_multi_gpu.sh最好改名为train_text2sql_mt5_large_multi_gpu.sh，这样更直观，易读。
除此之外，train_model_multi_gpu.sh中传递的参数（比如save_path，dev_filepath等），我看目前是按照你本地的路径进行的设置。最好按照train_text2sql_mt5_large.sh中提到的路径设置，这样方便其他人准备完数据后直接能跑起来。

kanseaveg · 2023-09-23T10:53:07Z

很感谢两位大佬的配合~ @Promise-Lv 您的PR对我很有帮助。

mT5模型数据分布式训练

636ab8f

lihaoyang-ruc mentioned this pull request Jun 25, 2024

请问模型训练有多gpu并行支持吗 #75

Open

Provide feedback