det和rec的模型都是OCRv4，分别用ppocr，ppstructure识别扫描版pdf，ppstructure识别错误，什么原因 #12559

Huanuanx · 2023-12-13T02:28:13Z

Huanuanx
Dec 13, 2023

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

系统环境/System Environment：
版本号/Version：Paddle： PaddleOCR：问题相关组件/Related components：
运行指令/Command Code：
完整报错/Complete Error Message：

我们提供了AceIssueSolver来帮助你解答问题，你是否想要它来解答(请填写yes/no)?/We provide AceIssueSolver to solve issues, do you want it? (Please write yes/no):

请尽量不要包含图片在问题中/Please try to not include the image in the issue.

ppocr DEBUG: Namespace(help='==SUPPRESS==', use_gpu=True, use_xpu=False, use_npu=False, ir_optim=True, use_tensorrt=False, min_subgraph_size=15, precision='fp32', gpu_mem=500, gpu_id=0, image_dir=None, page_num=3, det_algorithm='DB', det_model_dir='/root/.paddleocr/whl/det/ch/ch_PP-OCRv4_det_infer', det_limit_side_len=960, det_limit_type='max', det_box_type='quad', det_db_thresh=0.3, det_db_box_thresh=0.6, det_db_unclip_ratio=1.5, max_batch_size=10, use_dilation=False, det_db_score_mode='fast', det_east_score_thresh=0.8, det_east_cover_thresh=0.1, det_east_nms_thresh=0.2, det_sast_score_thresh=0.5, det_sast_nms_thresh=0.2, det_pse_thresh=0, det_pse_box_thresh=0.85, det_pse_min_area=16, det_pse_scale=1, scales=[8, 16, 32], alpha=1.0, beta=1.0, fourier_degree=5, rec_algorithm='SVTR_LCNet', rec_model_dir='/root/.paddleocr/whl/rec/ch/ch_PP-OCRv4_rec_infer', rec_image_inverse=True, rec_image_shape='3, 48, 320', rec_batch_num=6, max_text_length=25, rec_char_dict_path='/opt/miniconda3/envs/lhx_ocr/lib/python3.9/site-packages/paddleocr/ppocr/utils/ppocr_keys_v1.txt', use_space_char=True, vis_font_path='./doc/fonts/simfang.ttf', drop_score=0.5, e2e_algorithm='PGNet', e2e_model_dir=None, e2e_limit_side_len=768, e2e_limit_type='max', e2e_pgnet_score_thresh=0.5, e2e_char_dict_path='./ppocr/utils/ic15_dict.txt', e2e_pgnet_valid_set='totaltext', e2e_pgnet_mode='fast', use_angle_cls=False, cls_model_dir='/root/.paddleocr/whl/cls/ch_ppocr_mobile_v2.0_cls_infer', cls_image_shape='3, 48, 192', label_list=['0', '180'], cls_batch_num=6, cls_thresh=0.9, enable_mkldnn=False, cpu_threads=10, use_pdserving=False, warmup=False, sr_model_dir=None, sr_image_shape='3, 32, 128', sr_batch_num=1, draw_img_save_dir='./inference_results', save_crop_res=False, crop_res_save_dir='./output', use_mp=False, total_process_num=1, process_id=0, benchmark=False, save_log_path='./log_output/', show_log=True, use_onnx=False, output='./output', table_max_len=488, table_algorithm='TableAttn', table_model_dir=None, merge_no_span_structure=True, table_char_dict_path=None, layout_model_dir=None, layout_dict_path=None, layout_score_threshold=0.5, layout_nms_threshold=0.5, kie_algorithm='LayoutXLM', ser_model_dir=None, re_model_dir=None, use_visual_backbone=True, ser_dict_path='../train_data/XFUND/class_list_xfun.txt', ocr_order_method=None, mode='structure', image_orientation=False, layout=True, table=True, ocr=True, recovery=False, use_pdf2docx_api=False, invert=False, binarize=False, alphacolor=(255, 255, 255), lang='ch', det=True, rec=True, type='ocr', ocr_version='PP-OCRv4', structure_version='PP-StructureV2')

ppstructure设置的版面恢复的这些：
python3 predict_system.py
--image_dir=./docs/table/1.png
--det_model_dir=ch_PP-OCRv4_det_infer
--rec_model_dir=ch_PP-OCRv4_rec_infer
--rec_char_dict_path=python3.9/site-packages/paddleocr/ppocr/utils/ppocr_keys_v1.txt
--table_model_dir=inference/en_ppstructure_mobile_v2.0_SLANet_infer
--table_char_dict_path=../ppocr/utils/dict/table_structure_dict.txt
--layout_model_dir=inference/picodet_lcnet_x1_0_fgd_layout_infer
--layout_dict_path=../ppocr/utils/dict/layout_dict/layout_publaynet_dict.txt
--vis_font_path=../doc/fonts/simfang.ttf
--recovery=True
--output=../output/

Huanuanx · 2023-12-13T09:09:22Z

Huanuanx
Dec 13, 2023
Author

里面都是图片的pdf也无法识别

0 replies

Huanuanx · 2023-12-13T10:17:03Z

Huanuanx
Dec 13, 2023
Author

使用pp-ocr可以识别，使用ppstructure识别不了

0 replies

jyyang621 · 2024-03-04T01:27:10Z

jyyang621
Mar 4, 2024

我也遇到这个问题了，请问解决了吗

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

det和rec的模型都是OCRv4，分别用ppocr，ppstructure识别扫描版pdf，ppstructure识别错误，什么原因 #12559

Uh oh!

{{title}}

Uh oh!

Replies: 3 comments

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

det和rec的模型都是OCRv4，分别用ppocr，ppstructure识别扫描版pdf，ppstructure识别错误，什么原因 #12559

Uh oh!

Huanuanx Dec 13, 2023

Replies: 3 comments

Uh oh!

Huanuanx Dec 13, 2023 Author

Uh oh!

Huanuanx Dec 13, 2023 Author

Uh oh!

jyyang621 Mar 4, 2024

Huanuanx
Dec 13, 2023

Huanuanx
Dec 13, 2023
Author

Huanuanx
Dec 13, 2023
Author

jyyang621
Mar 4, 2024