商榷识别为商榨 #15040

DHclly · 2025-04-15T02:27:00Z

DHclly
Apr 15, 2025

🔎 Search before asking

I have searched the PaddleOCR Docs and found no similar bug report.
I have searched the PaddleOCR Issues and found no similar bug report.
I have searched the PaddleOCR Discussions and found no similar bug report.

🐛 Bug (问题描述)

ocr的文字不对：

上图ocr后的结果

这个环境也可以复现：
飞桨AI Studio星河社区-人工智能学习与实训社区(https://aistudio.baidu.com/community/app/91660/webUI)

🏃‍♂️ Environment (运行环境)

paddle version: 2.6.2

🌰 Minimal Reproducible Example (最小可复现问题的Demo)

from paddleocr import PaddleOCR, draw_ocr

# Paddleocr supports Chinese, English, French, German, Korean and Japanese
# You can set the parameter `lang` as `ch`, `en`, `french`, `german`, `korean`, `japan`
# to switch the language model in order
ocr = PaddleOCR(use_angle_cls=True, lang='en') # need to run only once to download and load model into memory
img_path = 'PaddleOCR/doc/imgs_en/img_12.jpg'
result = ocr.ocr(img_path, cls=True)
for idx in range(len(result)):
    res = result[idx]
    for line in res:
        print(line)

# draw result
from PIL import Image
result = result[0]
image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='/path/to/PaddleOCR/doc/fonts/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

Answered by jingsongliujing

Apr 18, 2025

那就是相关数据不够，需要一些相关的数据进行微调训练

View full answer

jingsongliujing · 2025-04-15T02:37:03Z

jingsongliujing
Apr 15, 2025
Collaborator

用的哪个版本？是paddleocrv4吗

0 replies

DHclly · 2025-04-16T08:20:01Z

DHclly
Apr 16, 2025
Author

用的哪个版本？是paddleocrv4吗

是的，版本信息：

paddleocr==2.10.0
paddlepaddle-gpu==2.6.2.post120

我用的官方默认示例进行测试的，这是启动时候的调试信息

[2025/04/16 16:13:50] ppocr DEBUG: Namespace(alpha=1.0, alphacolor=(255, 255, 255), benchmark=False, beta=1.0, binarize=False, cls_batch_num=6, cls_image_shape='3, 48, 192', 
cls_model_dir='C:\\Users\\Administrator/.paddleocr/whl\\cls\\ch_ppocr_mobile_v2.0_cls_infer', cls_thresh=0.9, cpu_threads=10, crop_res_save_dir='./output', det=True, det_algorithm='DB', det_box_type='quad', det_db_box_thresh=0.6, det_db_score_mode='fast', det_db_thresh=0.3, det_db_unclip_ratio=1.5, det_east_cover_thresh=0.1, det_east_nms_thresh=0.2, det_east_score_thresh=0.8, det_limit_side_len=960, det_limit_type='max', det_model_dir='C:\\Users\\Administrator/.paddleocr/whl\\det\\ch\\ch_PP-OCRv4_det_infer', det_pse_box_thresh=0.85, det_pse_min_area=16, det_pse_scale=1, det_pse_thresh=0, det_sast_nms_thresh=0.2, det_sast_score_thresh=0.5, draw_img_save_dir='./inference_results', drop_score=0.5, e2e_algorithm='PGNet', e2e_char_dict_path='./ppocr/utils/ic15_dict.txt', e2e_limit_side_len=768, e2e_limit_type='max', e2e_model_dir=None, e2e_pgnet_mode='fast', e2e_pgnet_score_thresh=0.5, e2e_pgnet_valid_set='totaltext', enable_mkldnn=False, formula=False, formula_algorithm='LaTeXOCR', formula_batch_num=1, formula_char_dict_path=None, formula_model_dir=None, fourier_degree=5, gpu_id=0, gpu_mem=500, help='==SUPPRESS==', image_dir=None, image_orientation=False, invert=False, ir_optim=True, kie_algorithm='LayoutXLM', label_list=['0', '180'], lang='ch', layout=True, layout_dict_path=None, layout_model_dir=None, layout_nms_threshold=0.5, layout_score_threshold=0.5, max_batch_size=10, max_text_length=25, merge_no_span_structure=True, min_subgraph_size=15, mode='structure', ocr=True, ocr_order_method=None, ocr_version='PP-OCRv4', onnx_providers=False, onnx_sess_options=False, output='./output', page_num=0, precision='fp32', process_id=0, re_model_dir=None, rec=True, rec_algorithm='SVTR_LCNet', rec_batch_num=6, rec_char_dict_path='d:\\app-install\\anaconda3\\envs\\python-pdfplumber-learn\\lib\\site-packages\\paddleocr\\ppocr\\utils\\ppocr_keys_v1.txt', rec_image_inverse=True, rec_image_shape='3, 48, 320', rec_model_dir='C:\\Users\\Administrator/.paddleocr/whl\\rec\\ch\\ch_PP-OCRv4_rec_infer', recovery=False, recovery_to_markdown=False, return_word_box=False, save_crop_res=False, save_log_path='./log_output/', savefile=False, scales=[8, 16, 32], ser_dict_path='../train_data/XFUND/class_list_xfun.txt', ser_model_dir=None, show_log=True, sr_batch_num=1, sr_image_shape='3, 32, 128', sr_model_dir=None, structure_version='PP-StructureV2', table=True, table_algorithm='TableAttn', table_char_dict_path=None, table_max_len=488, table_model_dir=None, total_process_num=1, type='ocr', use_angle_cls=True, use_dilation=False, use_gcu=False, use_gpu=True, use_mlu=False, use_mp=False, use_npu=False, use_onnx=False, use_pdf2docx_api=False, use_pdserving=False, use_space_char=True, use_tensorrt=False, use_visual_backbone=True, use_xpu=False, vis_font_path='./doc/fonts/simfang.ttf', warmup=False)

另外我看引用的字典文件有这个字

0 replies

jingsongliujing · 2025-04-18T01:18:26Z

jingsongliujing
Apr 18, 2025
Collaborator

那就是相关数据不够，需要一些相关的数据进行微调训练

1 reply

DHclly Apr 18, 2025
Author

好的

GreatV · 2025-04-18T01:28:11Z

GreatV
Apr 18, 2025
Maintainer

你遇到的问题是 OCR 模型将“商榷”错误识别为“商榨”，这是 PaddleOCR 的文字识别阶段存在字符形近误差的一例。

根据你提供的截图以及代码环境：

你使用的是 lang='en' 的英文模型来识别中文文字；
出错内容为中文，错误识别结果中存在一些结构相似但含义完全不同的字（“榷”→“榨”）。

📌 原因分析：

使用语言模型错误：
你在初始化 PaddleOCR 实例时使用了 lang='en'，而正确的语种参数应该是 lang='ch'。英文模型不适用于中文识别，使用错误的模型会导致识别结果非常不准确。

错误示例：
```
ocr = PaddleOCR(use_angle_cls=True, lang='en')  # ❌ 英文模型
```
正确示例：
```
ocr = PaddleOCR(use_angle_cls=True, lang='ch')  # ✅ 中文模型
```
字形相似导致的误识别：
即便使用了中文模型，对于字形相似的“榷”与“榨”仍可能发生误识，尤其是在图像质量差、字体模糊或结构紧凑时。

📘 解决方案建议：

使用正确语种模型：
将代码中的 lang='en' 更换为 lang='ch'，这是解决字符错误识别的首要步骤。
增加字符分类器（use_angle_cls=True 可继续保留）和识别置信度判断（score）以过滤不可靠结果。
如果误识别仍然频繁发生，可以尝试以下高级优化方式：
- 替换或训练更精细的模型，例如在中文场景可以使用 PP-OCRv3。
- 对低置信度字符开发自定义后处理逻辑（例如语言模型修正）。
- 增强输入图像质量，提升拍摄分辨率、确保字体清晰。

🔗 如果确认模型无法精确区分一些形近字，也可以考虑在字符级上做二次校正的后处理步骤，本质上是加入语言模型（类似拼写检查）的方式。

参考文档：

快速开始指南：https://paddlepaddle.github.io/PaddleOCR/latest/quick_start.html
语言支持说明：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/doc/doc_ch/multi_languages.md

如需要精调模型识别更罕见或容易混淆的字形，可考虑训练自定义识别模型，具体步骤见官方文档“模型训练与微调”。

Response generated by 🤖 feifei-bot | chatgpt-4o-latest

⚠️ This is an AI-generated response. Please verify any critical information.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

商榷识别为商榨 #15040

Uh oh!

{{title}}

Uh oh!

Replies: 4 comments 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

商榷识别为商榨 #15040

Uh oh!

DHclly Apr 15, 2025

🔎 Search before asking

🐛 Bug (问题描述)

🏃‍♂️ Environment (运行环境)

🌰 Minimal Reproducible Example (最小可复现问题的Demo)

Replies: 4 comments · 1 reply

Uh oh!

jingsongliujing Apr 15, 2025 Collaborator

Uh oh!

DHclly Apr 16, 2025 Author

Uh oh!

jingsongliujing Apr 18, 2025 Collaborator

Uh oh!

DHclly Apr 18, 2025 Author

Uh oh!

GreatV Apr 18, 2025 Maintainer

DHclly
Apr 15, 2025

Replies: 4 comments 1 reply

jingsongliujing
Apr 15, 2025
Collaborator

DHclly
Apr 16, 2025
Author

jingsongliujing
Apr 18, 2025
Collaborator

DHclly Apr 18, 2025
Author

GreatV
Apr 18, 2025
Maintainer