-
Notifications
You must be signed in to change notification settings - Fork 3.1k
Open
Labels
questionFurther information is requestedFurther information is requested
Description
请提出你的问题
https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/inference.md 在这个文档中提到可以多个推理
比如下面这里有个备注:
单卡,可以使用 paddle.distributed.launch 启动多卡推理
python ./predict/flask_server.py
--model_name_or_path Qwen/Qwen2.5-0.5B-Instruct
--port 8010
--flask_port 8011
--dtype "float16"
但是没有给出对应的多卡推理的示例:修改后的命令为:
单卡,可以使用 paddle.distributed.launch 启动多卡推理
python -m paddle.distributed.launch ./predict/flask_server.py
--model_name_or_path Qwen/Qwen2.5-0.5B-Instruct
--port 8010
--flask_port 8011
--dtype "float16" 启动之后, 程序一直是卡死状态, 没有预测结果, 请问是怎么回事.
Metadata
Metadata
Assignees
Labels
questionFurther information is requestedFurther information is requested