PaddleOCR提供服务化接口，单张图片内存能稳定，但是切换多张图片内存只增不减 #14943

burth-1 · 2025-03-26T08:27:35Z

burth-1
Mar 26, 2025

paddleocr==2.7
paddlepaddle==2.6.2、3.0.0rc1、3.0.0b2
具体效果就是切换调用两个接口，test2解析图片，test3解析pdf，memory_profiler打印的内存直增不减，3.0.0b2能缓解，但是解析速度差太多了，还有别的解决办法吗
测试代码如下：

`from memory_profiler import profile
from paddleocr import PaddleOCR

import uvicorn
from fastapi import FastAPI

app = FastAPI()

ocr = PaddleOCR(use_angle_cls=True, use_gpu=False,
det_model_dir="./ch_PP-OCRv3_det_infer",
rec_model_dir="./ch_PP-OCRv3_rec_infer",
cls_model_dir="./ch_ppocr_mobile_v2.0_cls_infer",
rec_char_dict_path="./ppocr_keys_v1.txt") # need to run only once to download and load model into memory
img_path2 = 'img_12.jpg'
img_path3 = "12.pdf"

@Profile
def profile_test(path: str):
result = ocr.ocr(path)
temp = 1==1
return result

@app.get("/test2")
async def ocr_test2():
result = profile_test(img_path2)
return result

@app.get("/test3")
async def ocr_test3():
result = profile_test(img_path3)
return result

if name == "main":
uvicorn.run(app, port=8080, host="0.0.0.0", log_level="info")
`

GreatV · 2025-03-26T08:32:22Z

GreatV
Mar 26, 2025
Maintainer

你的问题涉及 PaddleOCR 内存占用不断增长，即解析不同图片时内存只增不减的问题。这通常与 Python的垃圾回收机制、模型加载方式、FastAPI的异步调用 有关。以下是一些可能的解决方案：

🔍 问题分析

OCR 实例未释放:
- 你的 PaddleOCR 对象 ocr 是全局变量，一旦初始化，它会 一直驻留在内存中，不会被 Python 的垃圾回收机制回收。
- 每次调用 ocr.ocr() 处理新图片时，可能会分配额外缓存但未释放，导致内存持续增长。
Paddle 可能的缓存机制
- PaddlePaddle 可能会在推理时缓存一些计算结果和 GPU/CPU 资源，有时候手动调用 垃圾回收(gc) 可能有助于回收部分内存。
PDF 处理导致额外内存占用
- 你传入的是 "12.pdf"，这可能涉及 pdf解析预处理（如 pdf2image），而解析 PDF 可能会消耗额外 RAM，建议检查是否缓存了 PDF 解析后的图片数据。

✅ 解决方案

1️⃣ 避免使用全局 OCR 实例

可以在每次请求时 初始化和销毁模型实例，避免全局缓存：

from memory_profiler import profile
from paddleocr import PaddleOCR
import uvicorn
from fastapi import FastAPI
import gc

app = FastAPI()

img_path2 = 'img_12.jpg'
img_path3 = "12.pdf"

@profile
def profile_test(path: str):
    ocr = PaddleOCR(use_angle_cls=True, use_gpu=False,
                    det_model_dir="./ch_PP-OCRv3_det_infer",
                    rec_model_dir="./ch_PP-OCRv3_rec_infer",
                    cls_model_dir="./ch_ppocr_mobile_v2.0_cls_infer",
                    rec_char_dict_path="./ppocr_keys_v1.txt" ) 

    result = ocr.ocr(path)
    del ocr  # 手动删除 OCR 实例
    gc.collect()  # 强制垃圾回收
    return result

@app.get("/test2")
async def ocr_test2():
    result = profile_test(img_path2)
    return result

@app.get("/test3")
async def ocr_test3():
    result = profile_test(img_path3)
    return result

if __name__ == "__main__":
    uvicorn.run(app, port=8080, host="0.0.0.0", log_level="info")

📌 优化点：

不再使用全局 OCR 对象，每次请求生成一个新实例，并在处理完毕后 del ocr & gc.collect() 释放内存。
适用于 CPU 部署，如果是 GPU 部署，这可能影响性能（需要频繁加载模型）。

2️⃣ 手动清除 Paddle 缓存

如果你仍然观察到内存增加，可以在 OCR 处理后 尝试清理 Paddle 的 GPU/CPU 资源：

import paddle
paddle.device.cuda.empty_cache()  # 释放 GPU 内存（如果用 GPU）

也可以结合 gc.collect() 一起使用：

import gc
gc.collect()
paddle.device.cuda.empty_cache()

3️⃣ 检查 PDF 解析是否缓存数据

如果 test3 处理 12.pdf 时增长更多的内存，可能是 pdf 解析导致的：

如果使用 pdf2image 解析 PDF，可以在处理完后 手动删除转换后的图片，避免缓存数据：

from pdf2image import convert_from_path
def process_pdf(pdf_path):
    images = convert_from_path(pdf_path)
    results = []
    for img in images:
        result = ocr.ocr(img)
        results.append(result)
    del images  # 释放图片对象
    gc.collect()
    return results

🚀 总结

方法	适用场景	影响
每次请求初始化 `PaddleOCR`	避免内存泄漏，适用于 CPU	适用于 CPU，GPU 可能影响性能
手动释放 Paddle 缓存	GPU 部署的情况	减少显存占用
检查 PDF 解析占用问题	`test3` 内存增加快	避免 PDF 转图片时缓存数据

如果仍然遇到问题，可以尝试 更新 PaddleOCR 版本，例如 3.0.0b2 可能对内存管理有优化，但你提到它的速度变慢，这可能与 新版本的模型优化策略 相关，可以尝试 手动调整 batch size 或 降级回 2.7。

希望这些建议能帮助你优化 PaddleOCR 内存使用 🚀，如果问题仍然存在，建议打开一个新的 Issue 反馈给 PaddleOCR 团队！

Response generated by 🤖 feifei-bot | chatgpt-4o-latest

⚠️ This is an AI-generated response. Please verify any critical information.

0 replies

burth-1 · 2025-03-26T08:42:53Z

burth-1
Mar 26, 2025
Author

关于 '不再使用全局 OCR 对象，每次请求生成一个新实例，并在处理完毕后 del ocr & gc.collect() 释放内存。'这种方式以尝试，占用内存涨的更快。

0 replies

burth-1 · 2025-03-26T08:46:17Z

burth-1
Mar 26, 2025
Author

这个问题应该不是python使用的问题，是不是可能是paddlepaddle依赖里c++相关功能的问题，因为切换paddlepaddle版本到3.0.0b2看起来是能解决的，只是推理速度慢了很多

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

PaddleOCR提供服务化接口，单张图片内存能稳定，但是切换多张图片内存只增不减 #14943

Uh oh!

{{title}}

Uh oh!

Replies: 3 comments

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

PaddleOCR提供服务化接口，单张图片内存能稳定，但是切换多张图片内存只增不减 #14943

Uh oh!

burth-1 Mar 26, 2025

Replies: 3 comments

Uh oh!

GreatV Mar 26, 2025 Maintainer

🔍 问题分析

✅ 解决方案

1️⃣ 避免使用全局 OCR 实例

2️⃣ 手动清除 Paddle 缓存

3️⃣ 检查 PDF 解析是否缓存数据

🚀 总结

Uh oh!

burth-1 Mar 26, 2025 Author

Uh oh!

burth-1 Mar 26, 2025 Author

burth-1
Mar 26, 2025

GreatV
Mar 26, 2025
Maintainer

burth-1
Mar 26, 2025
Author

burth-1
Mar 26, 2025
Author