ch_PP-ocrv4模型训练数据是不是不平衡 #14918

L-lei · 2025-03-21T03:54:59Z

L-lei
Mar 21, 2025

我使用ch_PP-ocrv4模型识别一些拍照图像,发现有部分文字很容易识别错误,模型训练数据是不是每个标签字典不平衡,部分字数据量很少导致识别错误的,如.

;还有就是中文识别字典能否补全区县到村级地址所涉及的字,如"官垱村"中"垱"字不在字典中

GreatV · 2025-03-21T03:57:02Z

GreatV
Mar 21, 2025
Maintainer

ch_PP-OCRv4 训练数据可能存在不均衡的情况，因此在某些特定字符上的识别效果可能较差。例如，如果训练数据中某些汉字的样本较少，模型在实际识别这些字时可能会产生错误或无法识别。

关于字典的覆盖范围，PaddleOCR 自带的中文识别字典可能并未包含所有区县级或村级的地名，因此对于一些特殊的汉字（如 "垱"），可能无法正确识别。解决方案包括：

自定义字典：你可以手动扩展 PaddleOCR 的字典，增加缺失的字符。
微调（Fine-tuning）模型：基于带有目标字集的数据集进行模型微调，增强对这些字的识别能力。
数据增强：加入更多包含这些字的训练样本，以提高模型的识别能力。

如果你希望提高对特定字符的识别效果，可以考虑使用 PaddleOCR 提供的自定义字典和训练接口，来增强模型的适用性。

Response generated by 🤖 feifei-bot | chatgpt-4o-latest

⚠️ This is an AI-generated response. Please verify any critical information.

0 replies

L-lei · 2025-03-21T05:46:08Z

L-lei
Mar 21, 2025
Author

多谢了

0 replies

L-lei · 2025-03-21T05:46:17Z

L-lei
Mar 21, 2025
Author

多谢了

0 replies

L-lei · 2025-03-21T05:46:25Z

L-lei
Mar 21, 2025
Author

后续会考虑更新ch_PP-OCRv4吗,优化这方面识别问题

1 reply

cuicheng01 Mar 22, 2025
Maintainer

其实更新了一个ch_PP-OCRv4的doc模型，使用paddleocr 2.10版本，paddleocr --image_dir xxx.png --lang ch_doc即可体验，精度应该是更高的，内部的数据集高很多。另外，PP-OCRv5会在今年和大家见面，会解决很多问题，敬请期待。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

ch_PP-ocrv4模型训练数据是不是不平衡 #14918

Uh oh!

{{title}}

Uh oh!

Replies: 4 comments 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

ch_PP-ocrv4模型训练数据是不是不平衡 #14918

Uh oh!

L-lei Mar 21, 2025

Replies: 4 comments · 1 reply

Uh oh!

GreatV Mar 21, 2025 Maintainer

Uh oh!

L-lei Mar 21, 2025 Author

Uh oh!

L-lei Mar 21, 2025 Author

Uh oh!

L-lei Mar 21, 2025 Author

Uh oh!

cuicheng01 Mar 22, 2025 Maintainer

L-lei
Mar 21, 2025

Replies: 4 comments 1 reply

GreatV
Mar 21, 2025
Maintainer

L-lei
Mar 21, 2025
Author

L-lei
Mar 21, 2025
Author

L-lei
Mar 21, 2025
Author

cuicheng01 Mar 22, 2025
Maintainer