表格内容识别准确率很差，请问如何改进优化？ #14970

Westlife1002 · 2025-04-01T08:22:35Z

Westlife1002
Apr 1, 2025

使用PPstrcture对表格图片进行识别，发现识别的正确率很差，以下是我的代码和尝试的各项参数配置（包括已经注释掉的都试过）：

import os
import cv2
from paddleocr import PPStructure,draw_structure_result,save_structure_res

table_engine = PPStructure(show_log=True)
# table_engine = PPStructure(
#     show_log=True,
#     layout_model_dir="lp://PubLayNet",  # 使用专用表格检测模型
#     table_model_dir="lp://PubTabNet",   # 强化合并单元格识别
#     merge_para=0.8                      # 提升单元格合并阈值
# )
# table_engine = PPStructure(
#     layout_model_dir="lp://TableBank",  # 更专业的表格布局模型
#     table_model_dir="custom_table_model",  # 自定义微调模型
#     merge_para=0.4  # 进一步降低合并敏感度
# )
# table_engine = PPStructure(
#     layout_model_dir="lp://TableBank",  # 使用专业表格布局模型
#     table_model_dir="lp://PubTabNet",   # 保持默认模型但优化参数
#     merge_para=0.3,                     # 显著降低合并阈值
#     ocr=True                            # 确保OCR文本精准定位
# )


save_folder = '/Users/jerry/Downloads/'
img_path = '/Users/jerry/Downloads/table1.png'
img = cv2.imread(img_path)
result = table_engine(img)

for line in result:
    line.pop('img')
    print(line)

print('打印html表格识别结果! ', result[0]['res']['html'])

例子1 的原始图片：

例子1 PPstrcture识别表格的html打印结果：

CTNS 70	Cartion Size (CM)			N.WICTN KGS	G.WICTN KGS 8.05	Total N.W KGS 556.5	Total G.W. KGS 563.5	CBM 0.039	Total CBM 2.712	Carton No. 1-14
CTNS 70	L 53	W 43	H 17	N.WICTN KGS	G.WICTN KGS 8.05	Total N.W KGS 556.5	Total G.W. KGS 563.5	CBM 0.039	Total CBM 2.712	Carton No. 1-14
35	39	37.5	29	7.95 11	12.05	385	421.75	0.042	1.484	15-21
9	53.5 53.5	44 44	40	14.75	15.95	132.75 53	143.55 57.8	0.094 0.094	0.847 0.377	22-28
4			40	13.25	14.45					22-28
119	53.5	44	40	14.15	15.35	14.15	15.35 1202	0.0942	0.0942 5.5	22-28

例子1 PPstrcture识别表格的html的图像效果：

可以看到，识别的表格有错误。例如表格第一列第一行的合并单元格数据是’CTNS‘，而识别的表格中将第一列第三行的单元格数据与上面第一列第一行的合并单元格的’CTNS‘合并在一起了，导致了表格数据错行。同样的单元格数据错位在识别表格的其他位置也有出息。最终导致识别的表格数据混乱。进一步发送给譬如deepseek这样的大模型去解析统计数据就会出现计算错误。

例子2 的原始图片：

例子2 PPstrcture识别表格的html打印结果：

2	外包装尺寸 (长宽高mm)	包材	件数
3	15501230660	木箱
4 5 6	130011301480 13001080800 13001050650	木箱木箱木箱	11	1
7	13001000650	木箱	3
8			17件

例子2 PPstrcture识别表格的html的图像效果：

可以看到，识别的表格明显有错误，好几个单元格数据发生错行了。表格中文也是乱码

PPstrcture是否能够识别处理稍微复杂一点的表格图像数据？这个库介绍里不是说专门针对表格识别优化设计的吗？为什么识别简单的表格都识别不正确，特别是表格中存在单元格合并的情况。通过改进优化模型参数能够识别正确吗？请问上面的识别准确率低的问题原因是什么？如何解决这些问题，优化改进？

GreatV · 2025-04-01T08:23:06Z

GreatV
Apr 1, 2025
Maintainer

您遇到的问题，即表格内容识别错误、单元格错位、合并单元格处理失败，是当前使用 PPStructure 时较常见的挑战，特别是在处理结构稍复杂的表格图像时。以下是对识别准确率低的原因分析以及建议的优化措施，涵盖模型选择、图像预处理、参数调整等多个方面：

一、问题原因分析

从您提供的示例图和识别结果看，主要问题包括：

合并单元格识别失败：
- PPStructure 在处理含有复杂合并单元格（如跨行跨列）时，识别结构可能出现错位，甚至表格行列不对齐。这受限于 PubTabNet 模型结构对于复杂表格的表现。
文本定位 OCR 错误：
- 部分中文乱码和错位表征 OCR 精度不足，可能受分辨率或文本检测模型影响。
表格边框不清晰：
- 部分表格图片不够清晰或单元格边界模糊，影响了 table layout detection 模块的性能。
使用默认模型：
- 默认的 layout_model 和 table_model 可能并非最适合您的实际场景（如三线表、发货清单、报表类表格等）。
参数设置不匹配：
- merge_para 设置未结合具体表格结构调优，容易导致单元格误合并或分裂。

二、优化建议

以下是针对您情况的系统性改进建议：

更换更专业的布局检测模型：
建议尝试使用 TableBank 提供的 layout model（或自训练更贴合自身业务数据的 layout 模型）：
- 使用 layout_model_dir="lp://TableBank"，提高表格区域检测准确度。
使用高质量的 table structure 模型：
默认的 pubtabnet 模型对合并单元格识别能力有限，您可以：
- 使用更大且优化的模型，如 ch_ppstructure_mobile_v2.0_SLANet_infer；
- 或者尝试自训练 SLANet 模型，适配您的数据结构。
调整模型参数：
特别是 merge_para 参数和 table_max_len：
- merge_para 建议逐级从 0.8 降低到 0.4，观察单元格是否减少误合并；
- table_max_len 可尝试设置在 1024 左右，结合图片分辨率，避免识别错乱；
- 增加 use_gpu=True 启用 GPU 加速，有助于模型稳定运行。
图像预处理：
提升图像质量有显著影响：
- 对表格图像进行灰度化、二值化、去噪；
- 确保分辨率适中（推荐最长边不低于1000像素）；
- 对角度倾斜的表格图片进行前置校正（旋转矫正）。
启用OCR验证模式（ocr=True）：
识别结构与文本精准对应，可更好判断表格单元格的位置与内容。
<如能力允许> 自定义微调模型：
如果以上仍不满足需求，可以尝试用您实际示例图片微调结构模型：
- 可通过 PaddleOCR 的 AutoTable 工具自动整理训练数据；
- 用 pubtabnet 数据结构格式训练 SLANet 等表格识别模型；
- 微调后部署到 table_model_dir 自定义路径中使用。
结果后处理中纠错（可选）：
如果目标是最终结构xlsx/csv输出，可在识别后通过规则补正错位（如根据数值列对齐、日期/中文列结构判断）提升输出准确率。

三、总结推荐配置范例

鉴于您识别表格包含合并单元格、中文字符，建议如下代码配置参考：

table_engine = PPStructure(
    layout_model_dir="lp://TableBank",
    table_model_dir="ch_ppstructure_mobile_v2.0_SLANet_infer",
    merge_para=0.4,
    ocr=True
)

并辅以以下图像预处理示例：

# 图像读取与增强预处理
img = cv2.imread(img_path)
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
_, binary = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)

四、相关讨论

PaddleOCR 官方已在 Github 提出类似问题并讨论优化建议，您可以参考讨论：#14122

五、最终建议

PPStructure 对于合并单元格较复杂的表格图，应配合图像预处理+参数优化+自定义模型训练共同使用；
如应用中对精度要求较高，建议使用结构模型微调或寻找更专用于表格结构识别的模型（如 Donut、LayoutLMv3）进行辅助；
如果后续解析由大语言模型（如 deepseek）完成，可先使用较宽容的结构提取，再用 LLM 校正错位行列。

欢迎继续补充更多表格示例，以便进一步分析与优化。

Response generated by 🤖 feifei-bot | chatgpt-4o-latest

⚠️ This is an AI-generated response. Please verify any critical information.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

表格内容识别准确率很差，请问如何改进优化？ #14970

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

表格内容识别准确率很差，请问如何改进优化？ #14970

Uh oh!

Westlife1002 Apr 1, 2025

Replies: 1 comment

Uh oh!

GreatV Apr 1, 2025 Maintainer

Westlife1002
Apr 1, 2025

GreatV
Apr 1, 2025
Maintainer