paddleocr转onnx使用onnxruntime cuda第一次执行慢 #14831
-
一张图片第一次执行慢,第二次就很快,就好像缓存一样。但我事先并不知道这张图片来自哪里,也就是说这张图片大概率是第一次识别,那是不是意味着都很慢,这是什么原因 |
Beta Was this translation helpful? Give feedback.
Answered by
GreatV
Mar 9, 2025
Replies: 1 comment 2 replies
-
你的问题是 PaddleOCR 转 ONNX 并使用 ONNX Runtime CUDA 时,第一次执行推理较慢,而后续执行变快。这可能由以下几个原因造成: 1. CUDA 初始化开销
2. ONNX Runtime GPU 模型优化
3. 缓存机制(CUDNN 或 ONNX Runtime 缓存)
4. 动态尺寸 Tensor 造成的计算图重建
如何优化首次推理速度
总结
如果你的问题仍然存在,可以参考相似 Issue:paddleocr在昇腾910b上非常缓慢,但该 Issue 讨论的是 Huawei Ascend NPU,可能部分方法有所不同。 Response generated by 🤖 feifei-bot | chatgpt-4o-latest |
Beta Was this translation helpful? Give feedback.
2 replies
Answer selected by
wangsssjjj
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
你的问题是 PaddleOCR 转 ONNX 并使用 ONNX Runtime CUDA 时,第一次执行推理较慢,而后续执行变快。这可能由以下几个原因造成:
1. CUDA 初始化开销
2. ONNX Runtime GPU 模型优化
3. 缓存机制(CUDNN 或 ONNX Runtime 缓存)
TensorRT
也有类似的优化策略,即 第一次推理时编译高效的推理代码 并保存下来,以加快后续推理过程。4. 动态尺寸 Tensor 造成的计算图重建
如何优化首次推理速度
提前 warm-up(预热)