paddleocr转onnx使用onnxruntime cuda第一次执行慢 #14831

wangsssjjj · 2025-03-09T01:35:20Z

wangsssjjj
Mar 9, 2025

一张图片第一次执行慢，第二次就很快，就好像缓存一样。但我事先并不知道这张图片来自哪里，也就是说这张图片大概率是第一次识别，那是不是意味着都很慢，这是什么原因

Answered by GreatV

Mar 9, 2025

你的问题是 PaddleOCR 转 ONNX 并使用 ONNX Runtime CUDA 时，第一次执行推理较慢，而后续执行变快。这可能由以下几个原因造成：

1. CUDA 初始化开销

第一次运行时，CUDA 需要加载相关的库并初始化 GPU 计算环境，比如 CUDA 上下文的创建、内存分配等。这些操作通常较耗时，但只在首次执行时发生，后续推理则会跳过这一步，因此变快。

2. ONNX Runtime GPU 模型优化

ONNX Runtime 在 GPU 上执行时，可能会花费时间进行 优化器处理（比如 Kernel 融合、TensorRT 加速优化等），这些优化结果会缓存在显存或共享内存中，供后续推理使用。

3. 缓存机制（CUDNN 或 ONNX Runtime 缓存）

ONNX Runtime 会利用 CUDNN 缓存，针对前一次执行相同输入尺寸的操作进行缓存，这样在第二次运行时可以 复用已优化的计算图，自然速度更快。
TensorRT 也有类似的优化策略，即 第一次推理时编译高效的推理代码 并保存下来，以加快后续推理过程。

4. 动态尺寸 Tensor 造成的计算图重建

如果输入图片尺寸不同，ONNX Runtime 可能会 重新构建计算图，这会导致第一次推理时间变长。建议使用 固定尺寸的输入，从而让 ONNX 运行时 只编译一次推理图，避免重复开销。

如何优化首次推理速度

提前 warm-up（预热）
- 在使用 ONNX Runtime 进行推理前，可以先用一个 随机图片 预跑一次，提前触发 CUDA 初始化和模型优化：
```
import n…
```

View full answer

GreatV · 2025-03-09T01:40:45Z

GreatV
Mar 9, 2025
Maintainer

你的问题是 PaddleOCR 转 ONNX 并使用 ONNX Runtime CUDA 时，第一次执行推理较慢，而后续执行变快。这可能由以下几个原因造成：

1. CUDA 初始化开销

第一次运行时，CUDA 需要加载相关的库并初始化 GPU 计算环境，比如 CUDA 上下文的创建、内存分配等。这些操作通常较耗时，但只在首次执行时发生，后续推理则会跳过这一步，因此变快。

2. ONNX Runtime GPU 模型优化

ONNX Runtime 在 GPU 上执行时，可能会花费时间进行 优化器处理（比如 Kernel 融合、TensorRT 加速优化等），这些优化结果会缓存在显存或共享内存中，供后续推理使用。

3. 缓存机制（CUDNN 或 ONNX Runtime 缓存）

ONNX Runtime 会利用 CUDNN 缓存，针对前一次执行相同输入尺寸的操作进行缓存，这样在第二次运行时可以 复用已优化的计算图，自然速度更快。
TensorRT 也有类似的优化策略，即 第一次推理时编译高效的推理代码 并保存下来，以加快后续推理过程。

4. 动态尺寸 Tensor 造成的计算图重建

如果输入图片尺寸不同，ONNX Runtime 可能会 重新构建计算图，这会导致第一次推理时间变长。建议使用 固定尺寸的输入，从而让 ONNX 运行时 只编译一次推理图，避免重复开销。

如何优化首次推理速度

提前 warm-up（预热）

在使用 ONNX Runtime 进行推理前，可以先用一个 随机图片 预跑一次，提前触发 CUDA 初始化和模型优化：

import numpy as np
import onnxruntime as ort

session = ort.InferenceSession("your_model.onnx", providers=["CUDAExecutionProvider"])

# 假设输入 shape 为 (1, 3, 640, 640)
dummy_input = np.random.rand(1, 3, 640, 640).astype(np.float32)
session.run(None, {"input_name": dummy_input})

这样在真正推理时就不会再触发初始化，从而加快第一次推理。

固定输入尺寸
- 如果你的输入图像尺寸不同，ONNX 可能会重新编译计算图，影响首次推理速度。因此，建议在导出 ONNX 模型时，使用 固定大小的 ONNX 输入：
```
torch.onnx.export(model, dummy_input, "model.onnx", dynamic_axes=None)
```
使用 TensorRT 进行优化
- 你可以尝试 ONNX-TensorRT（onnx2trt），生成优化后的 TensorRT 版本模型，提高推理速度：
```
trtexec --onnx=model.onnx --saveEngine=model.trt
```
减少 CUDA 设备的上下文切换
- 确保 CUDAExecutionProvider 已正确设置，并避免在多个进程或线程中重复初始化 CUDA 设备。

总结

第一次推理慢主要是由于 CUDA 初始化、ONNX Runtime 计算图优化、缓存机制及动态输入尺寸处理 造成的。
你可以 预热模型 或 使用固定尺寸输入 来优化首帧推理时间。
如果需求更高，可以 转换为 TensorRT 进行推理，进一步加速。

如果你的问题仍然存在，可以参考相似 Issue：paddleocr在昇腾910b上非常缓慢，但该 Issue 讨论的是 Huawei Ascend NPU，可能部分方法有所不同。

Response generated by 🤖 feifei-bot | chatgpt-4o-latest

⚠️ This is an AI-generated response. Please verify any critical information.

2 replies

wangsssjjj Mar 9, 2025
Author

好像尺寸的问题，det相同的尺寸速度就很快，但是rec的裁剪后的尺寸大概率不一样吧

weirman Mar 20, 2025

识别的时间的确会和尺寸有关系，如果你设置了rec_image_shape, 图像就会按照最小宽度进行填充，如3, 48, 320,则图像最小将被填充为48,320。如果你设置了batch_size，paddle会自动对这些图像进行分批次，将尺寸接近的放做同一批次，从而减少推理时间。如果第一次执行慢的话，大概率是初始化显存、内存导致的。可以预热模型，通常预热个5-10张图像，就可以保证后续时间接近了。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

paddleocr转onnx使用onnxruntime cuda第一次执行慢 #14831

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment 2 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

paddleocr转onnx使用onnxruntime cuda第一次执行慢 #14831

Uh oh!

wangsssjjj Mar 9, 2025

1. CUDA 初始化开销

2. ONNX Runtime GPU 模型优化

3. 缓存机制（CUDNN 或 ONNX Runtime 缓存）

4. 动态尺寸 Tensor 造成的计算图重建

如何优化首次推理速度

Replies: 1 comment · 2 replies

Uh oh!

GreatV Mar 9, 2025 Maintainer

1. CUDA 初始化开销

2. ONNX Runtime GPU 模型优化

3. 缓存机制（CUDNN 或 ONNX Runtime 缓存）

4. 动态尺寸 Tensor 造成的计算图重建

如何优化首次推理速度

总结

Uh oh!

wangsssjjj Mar 9, 2025 Author

Uh oh!

weirman Mar 20, 2025

wangsssjjj
Mar 9, 2025

Replies: 1 comment 2 replies

GreatV
Mar 9, 2025
Maintainer

wangsssjjj Mar 9, 2025
Author