Replies: 7 comments
-
建议尝试使用fastdeploy进行推理部署哈,效果更好 |
Beta Was this translation helpful? Give feedback.
-
@changdazhou 大大好。 这边尝试过用 fastdeploy 部署,使用 http 请求。数据上看速度没有什么明显的变化,而且发现在完成 rec 推理后返回到返回请求响应之间有几秒钟时间的间隔。尝试过换引擎跟调整一些参数,基本没有什么变化。可以解答一下吗? 或者如果用 c++ 进行部署的话,理论上会不会有显著的速度提升呢?(这个我还没有尝试,因为我觉的可能不会有太多改变) |
Beta Was this translation helpful? Give feedback.
-
使用的开源fastdeploy部署的吗,建议尝试一下使用paddlex中的本地化部署哈。fastdploy为了保证速度,python的API最后也是c++推理的哈 |
Beta Was this translation helpful? Give feedback.
-
是的,使用的是 fastdeploy 的 fastdeploy_serving。也尝试过调整推理后端,效果也不太理想。在使用 Paddle Inference 时经常出现爆显存的情况(用的测试机器显卡是t4,16g显存) |
Beta Was this translation helpful? Give feedback.
-
看来之前的速度慢更可能的原因在于机器的性能瓶颈,爆显存可能是因为fastdploy的默认配置都是为了32G显卡准备的,这个需要我去问相关方向的同事给您确定一下哈 |
Beta Was this translation helpful? Give feedback.
-
建议看一下GPU利用率,如果GPU利用率已经比较高,那就是机器瓶颈。否则的话,建议重写推理代码,使用多进程、组流水线等方式提高GPU利用率。 |
Beta Was this translation helpful? Give feedback.
-
使用Fastdeploy的QPS大概能到什么层度? |
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
-
大大们好。
这边用 gpu 服务器按照 基于Python引擎的PP-OCR模型库推理 尝试单进程跑了一批串联推理的图片数据,发现识别这一步速度有点慢,例如:
目前尝试过:
请教一下还有什么提速的思路呢?
Beta Was this translation helpful? Give feedback.
All reactions