文本检测标点符号 #14692

Kyo1234567 · 2025-02-15T13:08:17Z

Kyo1234567
Feb 15, 2025

🔎 Search before asking

I have searched the PaddleOCR Docs and found no similar bug report.
I have searched the PaddleOCR Issues and found no similar bug report.
I have searched the PaddleOCR Discussions and found no similar bug report.

🐛 Bug (问题描述)

我在fine-tune ch-PP-OCRv4_det模型后，测试发现检测框经常会漏检文本行末尾的标点符号，比如：逗号，句号；文本行中间的符号不会漏检。我在标注的时候已经刻意让标注框完全包含住标点符号。
我想请问一下，如何改善这种问题？不知道修改配置文件中的min_text_size有没有效果？

🏃‍♂️ Environment (运行环境)

windows 10, paddleocr 2.7，paddlepaddle-gpu 3.0.0b1, cuda 11.8

🌰 Minimal Reproducible Example (最小可复现问题的Demo)

无

GreatV · 2025-02-15T13:16:40Z

GreatV
Feb 15, 2025
Maintainer

在fine-tune ch-PP-OCRv4_det模型后，出现检测框漏检文本行末尾标点符号的问题，可能是由于以下几个原因导致的：

标注框大小问题：虽然你已经确保标注框完全包含标点符号，但标点符号通常较小，可能在模型训练时被忽略。可以尝试适当增大标注框的大小，确保标点符号在训练时被充分考虑到。
模型参数调整：修改配置文件中的min_text_size参数可能会有一定效果。min_text_size参数用于控制模型检测的最小文本大小，适当减小该值可能会帮助模型更好地检测到较小的标点符号。你可以尝试将该值设置为更小的数值，观察是否有所改善。
数据增强：在训练数据中加入更多的标点符号样本，或者对标点符号进行数据增强（如旋转、缩放等），以增强模型对标点符号的识别能力。
后处理优化：在模型的后处理阶段，可以尝试调整det_db_box_thresh和det_db_unclip_ratio等参数。这些参数控制检测框的生成和调整，适当调整这些参数可能会帮助模型更好地捕捉到标点符号。
模型结构优化：如果以上方法效果不明显，可以考虑对模型结构进行优化，例如增加对小目标的检测能力，或者使用更先进的检测算法。

具体操作建议：

调整min_text_size：在配置文件中找到min_text_size参数，尝试将其设置为更小的值（例如5或更小），然后重新训练模型。
调整det_db_box_thresh和det_db_unclip_ratio：在推理时，尝试调整这些参数，观察是否能够改善标点符号的检测效果。

参考链接：

通过这些调整和优化，应该能够改善模型在检测文本行末尾标点符号时的漏检问题。

Response generated by 🤖 feifei-bot | deepseek-chat

⚠️ This is an AI-generated response. Please verify any critical information.

0 replies

Kyo1234567 · 2025-02-15T13:46:27Z

Kyo1234567
Feb 15, 2025
Author

非常感谢你的及时回复。
说到标注框的大小问题，我一直有一个困惑，我标注的时候一般都是比相应文字范围大一点点，尽量不让文本框重叠，怕带来不好的结果。如果文字行比较密集的时候，如果标注框比较大的话，上下两个框就会有重叠，会不会导致一些奇怪的问题，比如，部分文字在两个框中都被检测到，进而导致识别出重复的文字？
所以，在此我想请教一下，标注框的大小如何选择比较好？

0 replies

GreatV · 2025-02-15T14:33:30Z

GreatV
Feb 15, 2025
Maintainer

关于文本检测标注框的大小选择，我来分享一些建议：

标注框大小的基本原则：

要完整包含目标文本（包括字母的上下延伸部分和标点符号）
留有适当的边距（padding），一般建议在文字周围留 2-3 像素的边距

关于文本行密集时的处理：

轻微重叠（10-20%左右）是可以接受的，模型在训练时会学习处理这种情况
但过度重叠（>30%）确实可能导致：
- 检测时产生重复框
- 识别阶段可能产生文本重复识别

实际标注建议：

对于正常行间距的文本：
- 上下留出字体高度 10-15% 的边距
- 左右留出 2-3 像素的边距
对于密集文本：
- 可以适当减小边距，但确保完整包含文字
- 尽量让标注框紧贴文字边缘，仅保留 1-2 像素的必要边距
- 优先保证文字的完整性，而不是刻意避免重叠

特殊情况处理：

对于有下划线的文本：建议包含下划线
对于带音标或注音的文字：要完整包含这些附加符号
对于标点符号：建议与相邻文本在同一个框内

示例参考尺寸：

正常文本：
高度 = 文字高度 * (1 + 0.2)  // 上下各留 10% 边距
宽度 = 文字宽度 + (4~6)像素  // 左右各留 2-3 像素

密集文本：
高度 = 文字高度 * (1 + 0.1)  // 上下各留 5% 边距
宽度 = 文字宽度 + (2~4)像素  // 左右各留 1-2 像素

一个实用的检验方法是：当你标完数据后，可以先用基础模型在你的标注数据上做检测测试。如果出现明显的重复检测问题，再适当调整标注策略。记住，标注的最终目的是帮助模型更好地学习，适当的重叠有时反而能提高模型的鲁棒性。

Response generated by 🤖 feifei-bot | deepseek-chat

⚠️ This is an AI-generated response. Please verify any critical information.

1 reply

Kyo1234567 Feb 15, 2025
Author

为什么有时候检测框把文字切割了一部分，还是能识别到完整的文字。但检测框把文字切割得太多，识别就会不准？

Kyo1234567 · 2025-02-16T07:02:34Z

Kyo1234567
Feb 16, 2025
Author

为什么有时候检测框把文字切割了一部分，还是能识别到完整的文字。但检测框把文字切割得太多，识别就会不准？

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

文本检测标点符号 #14692

Uh oh!

{{title}}

Uh oh!

Replies: 4 comments 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

文本检测标点符号 #14692

Uh oh!

Kyo1234567 Feb 15, 2025

🔎 Search before asking

🐛 Bug (问题描述)

🏃‍♂️ Environment (运行环境)

🌰 Minimal Reproducible Example (最小可复现问题的Demo)

Replies: 4 comments · 1 reply

Uh oh!

GreatV Feb 15, 2025 Maintainer

具体操作建议：

参考链接：

Uh oh!

Kyo1234567 Feb 15, 2025 Author

Uh oh!

GreatV Feb 15, 2025 Maintainer

Uh oh!

Kyo1234567 Feb 15, 2025 Author

Uh oh!

Kyo1234567 Feb 16, 2025 Author

Kyo1234567
Feb 15, 2025

Replies: 4 comments 1 reply

GreatV
Feb 15, 2025
Maintainer

Kyo1234567
Feb 15, 2025
Author

GreatV
Feb 15, 2025
Maintainer

Kyo1234567 Feb 15, 2025
Author

Kyo1234567
Feb 16, 2025
Author