pdf表格识别不准确 #4551

Closed Unanswered

whwususu asked this question in Q&A

whwususu
Feb 26, 2026

我用官方的例子，用python命令直接调用是正确的：
if backend.startswith("vlm-"):
backend = backend[4:]

    f_draw_span_bbox = False
    parse_method = "vlm"
    for idx, pdf_bytes in enumerate(pdf_bytes_list):
        pdf_file_name = pdf_file_names[idx]
        pdf_bytes = convert_pdf_bytes_to_bytes_by_pypdfium2(pdf_bytes, start_page_id, end_page_id)
        local_image_dir, local_md_dir = prepare_env(output_dir, pdf_file_name, parse_method) 
        image_writer, md_writer = FileBasedDataWriter(local_image_dir), FileBasedDataWriter(local_md_dir) 
        middle_json, infer_result = vlm_doc_analyze(pdf_bytes, image_writer=image_writer, backend=backend, server_url=server_url)

        pdf_info = middle_json["pdf_info"]

        _process_output(
            pdf_info, pdf_bytes, pdf_file_name, local_md_dir, local_image_dir,
            md_writer, f_draw_layout_bbox, f_draw_span_bbox, f_dump_orig_pdf,
            f_dump_md, f_dump_content_list, f_dump_middle_json, f_dump_model_output,
            f_make_md_mode, middle_json, infer_result, is_pipeline=False
        )

然后我自己在程序里面精简并集成了用的是这个程序：
file_name = str(Path(path).stem)
pdf_bytes = read_fn(path)
new_pdf_bytes = convert_pdf_bytes_to_bytes_by_pypdfium2(pdf_bytes, start_page_id, end_page_id)
backend = backend[4:]

    middle_json, infer_result = vlm_doc_analyze(
        new_pdf_bytes, 
        image_writer=None, 
        backend=backend, 
        server_url=server_url,
        callback_func=bound_callback
    )

结果发现用命令执行的那个,表格解析是正确的，而我程序里面集成的代码，却解析的结构是错误的，同样的模型镜像

Replies: 1 comment 14 replies

dosubot[bot]
bot Feb 26, 2026

你好！根据代码分析，image_writer=None 不会影响表格识别的准确性。image_writer 参数只控制图像资产的保存（将提取的图片写入磁盘），表格识别在 VLM 推理阶段已经完成。

建议你检查以下几点可能导致结果差异的因素：

backend 值是否一致 - 确保两边使用的 backend 参数完全相同
PDF 字节内容 - 确认 new_pdf_bytes 和原始 pdf_bytes 处理后内容一致
callback_func 参数 - 检查你的回调函数是否影响了处理流程
server_url 配置 - 确保两种方式连接的是同一个模型服务

另外，如果你的表格比较复杂（如含有合并单元格、复杂表头），VLM backend 存在一些已知的空间校正限制。可以考虑使用 pipeline backend 替代，它对复杂表格的支持更好。

能否提供具体的表格解析错误示例（比如两种方式的输出对比）？这样更容易定位问题。

To reply, just mention @dosu.

^{How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other}

14 replies

whwususu Feb 26, 2026
Author

如何更换vlm模式下的模型

whwususu Feb 26, 2026
Author

识别表格的时候，表格外面左、右上角有文字的时候，会把左右上角文字和表格都会识别成表格导致识别错误

dosubot[bot] bot Feb 26, 2026

这个问题是 VLM 后端的一个已知局限性——VLM 后端完全依赖模型输出的 HTML 顺序，缺少空间校正机制，容易将表格附近的文字误识别为表格内容。

可以尝试以下解决方案：

切换到 Pipeline 后端：--backend pipeline，Pipeline 使用空间排序，对复杂表格边界的处理更稳健
图像预处理：在表格边框周围添加白色填充，增强对比度，裁剪掉干扰内容
使用 OCR 模式：-m ocr 或 --method ocr，可能改善边界识别
升级版本：MinerU 2.5.3+ 或 2.7.3+ 包含表格合并和列跨度处理的优化

回答你之前的问题：

VLM 模式使用的模型：默认是 opendatalab/MinerU2.5-2509-1.2B（基于 Qwen2VL）

如何更换 VLM 模型：

环境变量：设置 MINERU_MODEL_SOURCE=local
配置文件 mineru.json 中修改 models-dir.vlm 路径
Python API：在 doc_analyze() 中传入 model_path 参数

表格识别 VLM vs Pipeline：

VLM：整体准确率约 90%，擅长复杂布局和嵌入图片/公式的表格，但缺少空间校正
Pipeline：整体准确率约 82%，对跨页表格和需要单元格级追踪的场景更稳健

你遇到的表格边界问题，Pipeline 后端可能会处理得更好。

To reply, just mention @dosu.

^{How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other}

whwususu Feb 26, 2026
Author

识别表格的时候，表格外面左、右上角有文字的时候，会把左右上角文字和表格都会识别成表格导致识别错误。这个有什么办法解决

dosubot[bot] bot Feb 26, 2026

这个问题是 VLM 后端的一个已知局限性——VLM 后端缺少空间校正机制，容易将表格附近的文字误识别为表格内容。

建议尝试以下解决方案：

切换到 Pipeline 后端：使用 --backend pipeline，Pipeline 使用空间排序算法，对表格边界的处理更稳健
图像预处理：在表格边框周围添加白色填充，裁剪掉表格外的干扰文字
使用 OCR 模式：添加 -m ocr 或 --method ocr 参数，可能改善边界识别
升级 MinerU 版本：2.5.3+ 或 2.7.3+ 版本包含表格处理的优化

如果你主要处理的文档表格周围经常有这类干扰文字，Pipeline 后端可能更适合你的场景。

To reply, just mention @dosu.

^{How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other}

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment