对于宽高比较大的图片数据集的检测模型问题 #14611

custom09 · 2025-02-02T04:32:06Z

custom09
Feb 2, 2025

🔎 Search before asking

I have searched the PaddleOCR Docs and found no similar bug report.
I have searched the PaddleOCR Issues and found no similar bug report.
I have searched the PaddleOCR Discussions and found no similar bug report.

🐛 Bug (问题描述)

数据集的所有图片为1600*20左右（宽1600，高20）200多张。使用ppocrv3原始检测模型（student）预测无法正常检测。但是导出的模型在C++ DEMO上可以检测出来。
使用该数据集进行训练，训练的过程中损失可以下降，但EVAL的ACC一直是0（编辑距离ACC也是0）。训练100个EPOCH后的模型可以检测出部分文字，但是其ACC低于原始模型。
个人认为paddleocr对宽高比很大的图片的检测模型存在漏洞，能否查一下问题在哪里？

🏃‍♂️ Environment (运行环境)

windows11
paddleocr2.6.1和paddleocr-main(目前最新)
paddlepaddle 2.5.2/2.4.2/2.6 post116
python 3.9
硬件配置：
32G内存/GTX4060

🌰 Minimal Reproducible Example (最小可复现问题的Demo)

如复现应该可以建立数据集的图片为1600*20左右（宽1600，高20）若干张标注后训练

GreatV · 2025-02-03T02:03:36Z

GreatV
Feb 3, 2025
Maintainer

针对宽高比非常大的图片数据集（如1600x20），在使用PaddleOCR的检测模型时，出现的问题以及可能的解决方案如下：

问题分析

预测无法正常检测：
- PaddleOCR的默认模型通常针对常见比例的图片进行了优化，而宽高比极端的图片可能导致模型的特征提取能力下降。
- PaddleOCR在预测时对图片进行了缩放处理（如将长边限制为960），在宽高比极大的情况下，缩放可能导致文字高度过小，影响特征提取和检测效果。
训练时Eval ACC始终为0：
- Eval ACC为0表明检测模型在验证集上完全无法正确匹配标注框。
- 可能是因为宽高比极大的特性未被模型学习到，导致模型在训练时的特征提取或后处理（如DB的后处理）无法适应这种特殊场景。
训练后检测部分文字但ACC仍较低：
- 训练过程中虽然损失下降，但可能由于数据量不足或特征提取不充分，导致模型无法全面学习到宽高比极大的特性。
- PaddleOCR默认的后处理参数（如det_db_box_thresh或unclip_ratio）可能不适用于宽高比极端的图片。

可能的解决方案

1. 数据预处理优化

调整图片缩放策略：
- 默认情况下，PaddleOCR将图片等比例缩放到长边960（det_limit_side_len参数）。对于宽高比极大的图片，缩放后高度可能变得过小，导致检测性能下降。
- 建议修改det_limit_side_len和det_limit_type参数，例如：
```
det_limit_side_len = 1600  # 保持宽度不缩放
det_limit_type = "max"    # 根据最长边进行限制
```
- 或者自定义缩放逻辑，将高度固定为较大的值（如32），确保宽度保持完整。
数据增强：
- 对训练数据进行适当的数据增强，如随机裁剪、缩放、旋转等，增加模型对宽高比极端样本的鲁棒性。
- 在配置文件中使用iaa模块添加增强策略。

2. 模型结构调整

修改检测模型的输入尺寸：

在训练配置文件中，将det_train_crop_size的宽度调整到更接近数据集的特性（如[1600, 32]）。

Train:
  dataset:
    transforms:
      DecodeImage:
        img_mode: "RGB"
      DetLabelEncode: null
      DetResizeForTest:
        image_shape: [1600, 32]  # 根据图片宽高比调整

尝试更适合宽高比极端场景的模型结构：
- 当前的PaddleOCR检测模型（如DB）可能对宽高比极端的图片支持有限。可以尝试使用更灵活的模型，如PSENet或基于分割的检测算法。

3. 调整后处理参数

修改unclip_ratio参数：
- 检测框可能过于贴近文本区域，导致部分文字被截断，进而影响Eval ACC。
- 在训练配置或预测脚本中调整det_db_unclip_ratio为更大的值（如2.0~2.5）。
降低box_thresh：
- 默认阈值可能过高，导致部分低置信度的检测框被过滤掉。
- 在预测时尝试将det_db_box_thresh从默认的0.5调整为0.3。

4. 数据集扩展

如果当前数据集样本较少（仅200多张），可以通过数据合成工具（如StyleText）生成更多宽高比极大的文本图片，扩充训练数据。
在合成数据时，确保生成的样本具有多样性（包括不同字体、背景、干扰等）。

5. 模型训练技巧

迁移学习：
- 使用PaddleOCR提供的预训练模型（如PP-OCRv3）作为初始化权重，并在宽高比极大的数据集上微调模型。
- 在配置文件中设置pretrain_weights路径。
增加训练轮次：
- 宽高比极端的图片特性较难学习，可以尝试增加训练的epoch数（如从100提升至200）。

6. 可视化与调试

对训练和验证过程中的检测结果进行可视化，分析模型在不同阶段的表现，找出可能的错误模式（如漏检、误检等）。
使用PaddleOCR的预测脚本，验证训练模型的中间输出（如特征图、检测框）是否符合预期。

总结

针对宽高比极大的图片数据集，建议从数据预处理、模型结构、后处理参数和训练技巧四个方面进行优化。同时，结合可视化分析和调试，逐步解决问题，提高模型在此类极端场景下的表现。如果问题持续存在，可考虑向PaddleOCR社区提交Issue，反馈具体问题并寻求进一步支持。

Response generated by feifei-bot | chatgpt-4o-latest

1 reply

custom09 Feb 3, 2025
Author

长边限制已经改为2560,C++ API可以预测并且预测有结果（C++与python参数基本保持一致），而infer_dec同样的检测模型预测不出来,threshold已经设置为0.1,0.3。上述参数改动以后PPOCR的预训练模型预测查全查准仍然是0。下面是C++预测的情况

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

对于宽高比较大的图片数据集的检测模型问题 #14611

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

对于宽高比较大的图片数据集的检测模型问题 #14611

Uh oh!

custom09 Feb 2, 2025

🔎 Search before asking

🐛 Bug (问题描述)

🏃‍♂️ Environment (运行环境)

🌰 Minimal Reproducible Example (最小可复现问题的Demo)

Replies: 1 comment · 1 reply

Uh oh!

GreatV Feb 3, 2025 Maintainer

问题分析

可能的解决方案

1. 数据预处理优化

2. 模型结构调整

3. 调整后处理参数

4. 数据集扩展

5. 模型训练技巧

6. 可视化与调试

相关参考

总结

Uh oh!

custom09 Feb 3, 2025 Author

custom09
Feb 2, 2025

Replies: 1 comment 1 reply

GreatV
Feb 3, 2025
Maintainer

custom09 Feb 3, 2025
Author