Skip to content
Open
Show file tree
Hide file tree
Changes from 28 commits
Commits
Show all changes
44 commits
Select commit Hold shift + click to select a range
e2f0130
Disable edit and view actions in mkdocs.yml
inc4dge Nov 11, 2025
f91c806
修改了文档图像方向分类模块的模型表格Revise PP-LCNet_x1_0_doc_ori documentation
inc4dge Nov 11, 2025
745210b
修改了文档类视觉语言模型模块的模型表格Enhance model documentation for PP-DocBee
inc4dge Nov 11, 2025
8572010
[Docs] Polish docs (#16132)
inc4dge Nov 11, 2025
15268bf
[Docs] Polish docs (#16132)
inc4dge Nov 11, 2025
ed7c451
[Docs] Polish docs (#16132)
inc4dge Nov 11, 2025
46564e7
Add chart parsing module (#16111)
inc4dge Nov 12, 2025
9be1048
adapt text det train cmds (#15430)
inc4dge Nov 12, 2025
b57196f
[Docs] Polish docs (#16132)
inc4dge Nov 12, 2025
3b5c65b
[Docs] Polish docs (#16132)
inc4dge Nov 17, 2025
8a5bf97
adapt text det train cmds (#15430)
inc4dge Nov 17, 2025
07ec8da
[Docs] Polish docs (#16132)
inc4dge Nov 17, 2025
82f3511
[Docs] Polish docs (#16132)
inc4dge Nov 17, 2025
b8dc707
[Docs] Polish docs (#16132)
inc4dge Nov 17, 2025
eb466ef
[Docs] Polish docs (#16132)
inc4dge Nov 17, 2025
db0db49
[Docs] Polish docs (#16132)
inc4dge Nov 17, 2025
a7633f9
add ar models (#16636)
inc4dge Nov 17, 2025
997556e
[Docs] Polish docs (#16132)
inc4dge Nov 17, 2025
8ba3ee3
Merge branch 'PaddlePaddle:main' into main
inc4dge Nov 17, 2025
48dee50
Uncomment action edit and view in mkdocs.yml
inc4dge Nov 17, 2025
0925b5f
Add model download links to documentation
inc4dge Nov 18, 2025
b3da89b
Merge pull request #1 from inc4dge/inc4dge-patch-1
inc4dge Nov 18, 2025
75e09d2
Add download links for PP-DocBee models
inc4dge Nov 18, 2025
0fc4379
Merge pull request #2 from inc4dge/inc4dge-patch-1-1
inc4dge Nov 18, 2025
95f0158
Update formula_recognition.md
inc4dge Nov 18, 2025
0db339a
Update layout_analysis.md
inc4dge Nov 18, 2025
4e9a247
Update layout_detection.md
inc4dge Nov 18, 2025
49cb06d
Update seal_text_detection.md
inc4dge Nov 18, 2025
98936e7
Merge branch 'PaddlePaddle:main' into main
inc4dge Nov 25, 2025
264b985
Revise PP-Chart2Table details in chart_parsing.md
inc4dge Nov 25, 2025
67d1155
Update doc_img_orientation_classification.md
inc4dge Nov 25, 2025
b4727e4
Update doc_vlm.md
inc4dge Nov 25, 2025
854f0e5
Update formula_recognition.md
inc4dge Nov 25, 2025
919456a
Update formula_recognition.md
inc4dge Nov 25, 2025
1669727
Update layout_analysis.md
inc4dge Nov 25, 2025
b70a16e
Update layout_detection.md
inc4dge Nov 25, 2025
b4560c6
Update seal_text_detection.md
inc4dge Nov 25, 2025
d90b638
Refactor table cell detection model documentation
inc4dge Nov 25, 2025
b5d5beb
Update table_classification.md
inc4dge Nov 27, 2025
d1c946e
Update model names and download links in documentation
inc4dge Nov 27, 2025
4a0c526
Update model names and download links in documentation
inc4dge Nov 27, 2025
231fb88
Revise UVDoc model details and download links
inc4dge Nov 27, 2025
b282e17
Update text_recognition.md
inc4dge Nov 27, 2025
2b284ad
Merge branch 'main' into main
luotao1 Feb 26, 2026
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
37 changes: 19 additions & 18 deletions docs/version3.x/module_usage/chart_parsing.md
Original file line number Diff line number Diff line change
Expand Up @@ -10,27 +10,28 @@ comments: true

## 二、支持模型列表

> 推理耗时仅包含模型推理耗时,不包含前后处理耗时。

<table>
<tr>
<th>模型</th><th>模型下载链接</th>
<th>模型参数规模(B)</th>
<th>模型存储大小(GB)</th>
<th>模型分数 </th>
<th>介绍</th>
</tr>
<tr>
<td>PP-Chart2Table</td><td><a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-Chart2Table_infer.tar">推理模型</a></td>
<td>0.58</td>
<td>1.4</td>
<th>80.60</th>
<td>PP-Chart2Table是飞桨团队自研的一款专注于图表解析的多模态模型,在中英文图表解析任务中展现出卓越性能。团队专为图表解析设计了Shuffled Chart Data Retrieval训练任务,并结合精心设计的令牌掩码策略,显著提升其在图表转数据表任务上的性能。此外,团队通过精心设计的数据合成流程增强了PP-Chart2Table的能力,该流程利用高质量的种子数据,并结合RAG和大语言模型人格设计,以生成更丰富多样化的数据。为了处理大量未标记的分布外 (OOD) 数据,团队采用了两阶段大模型蒸馏训练过程,确保模型在广泛的真实世界数据集中具有出色的适应性和泛化能力。在内部业务的中英文场景测试中,PP-Chart2Table不仅达到同参数量级模型中的SOTA水平,更在关键场景中实现了与7B参数量级VLM模型相当的精度。</td>
</tr>
</table>
### 📊📊 PP-Chart2Table
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

模型名称前的小图标建议去掉,对于一部分模型图标能代表模型,但是很多模型无法使用合适的图标,所以统一去除

**模型类型:** 推理模型 | **模型存储大小:** 1.4 GB
**模型介绍:**
PP-Chart2Table是飞桨团队自研的一款专注于图表解析的多模态模型,在中英文图表解析任务中展现出卓越性能。团队专为图表解析设计了Shuffled Chart Data Retrieval训练任务,并结合精心设计的令牌掩码策略,显著提升其在图表转数据表任务上的性能。此外,团队通过精心设计的数据合成流程增强了PP-Chart2Table的能力,该流程利用高质量的种子数据,并结合RAG和大语言模型人格设计,以生成更丰富多样化的数据。

**性能指标:**
| 指标名称 | 模型分数 |
| :--- | :--- |
| **内部评估** | 80.60 |

**下载链接:**
[推理模型](https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-Chart2Table_infer.tar)

---

### 📝📝 评估说明
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

这种能统一的可以酌情保留

**注:** 以上模型分数为内部评估集模型测试结果,共1801条数据,包括了各个场景(财报、法律法规、合同等)下的各种图表类型(柱状图、折线图、饼图等)的测试样本,暂时未有计划公开。

<b>注:以上模型分数为内部评估集模型测试结果,共1801条数据,包括了各个场景(财报、法律法规、合同等)下的各种图表类型(柱状图、折线图、饼图等)的测试样本,暂时未有计划公开。</b>
> ❗❗ **注:** PP-Chart2Table模型于 2025.6.27 升级,如需使用升级前的模型权重,请点击[下载链接](https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-Chart2Table_infer.bak.tar)

> ❗ <b>注</b>:PP-Chart2Table模型于 2025.6.27 升级,如需使用升级前的模型权重,请点击<a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-Chart2Table_infer.bak.tar">下载链接</a>

## 三、快速开始

Expand Down
109 changes: 38 additions & 71 deletions docs/version3.x/module_usage/doc_img_orientation_classification.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,7 +2,7 @@
comments: true
---

# 文档图像方向分类模块使用教程
# 文档图像方向分类模块使用教程

## 一、概述

Expand All @@ -12,77 +12,44 @@ comments: true

> 推理耗时仅包含模型推理耗时,不包含前后处理耗时。

<table>
<thead>
<tr>
<th>模型</th><th>模型下载链接</th>
<th>Top-1 Acc(%)</th>
<th>GPU推理耗时(ms)<br>[常规模式 / 高性能模式]</th>
<th>CPU推理耗时(ms)<br>[常规模式 / 高性能模式]</th>
<th>模型存储大小(MB)</th>
<th>介绍</th>
</tr>
</thead>
<tbody>
<tr>
<td>PP-LCNet_x1_0_doc_ori</td>
<td><a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-LCNet_x1_0_doc_ori_infer.tar">推理模型</a>/<a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_pretrained_model/PP-LCNet_x1_0_doc_ori_pretrained.pdparams">训练模型</a></td>
<td>99.06</td>
<td>2.62 / 0.59</td>
<td>3.24 / 1.19</td>
<td>7</td>
<td>基于PP-LCNet_x1_0的文档图像分类模型,含有四个类别,即0度,90度,180度,270度</td>
</tr>
</tbody>
</table>
### 📐📐 PP-LCNet_x1_0_doc_ori
**模型类型:** 推理模型/训练模型 | **模型存储大小:** 7 MB
**模型介绍:**
基于PP-LCNet_x1_0的文档图像分类模型,含有四个类别,即0度,90度,180度,270度。主要用于将文档图像的方向区分出来,并使用后处理将其矫正,提高OCR处理的准确性。

**性能指标:**
| 指标名称 | Top-1 Acc(%) | GPU推理耗时 (ms) | CPU推理耗时 (ms) |
| :--- | :--- | :--- | :--- |
| **常规模式** | 99.06 | 2.62 | 3.24 |
| **高性能模式** | - | 0.59 | 1.19 |

**下载链接:**
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

这部分建议改成表格结构,其他的也都修改成如下格式:

训练模型 推理模型
BOS源 BOS源,AI Studio,Hugging Face ,ModelScope

[推理模型](https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-LCNet_x1_0_doc_ori_infer.tar) | [训练模型](https://paddle-model-ecology.bj.bcebos.com/paddlex/official_pretrained_model/PP-LCNet_x1_0_doc_ori_pretrained.pdparams)

[Hugging Face](https://huggingface.co/PaddlePaddle/PP-LCNet_x1_0_doc_ori)

[ModelScope](https://www.modelscope.cn/models/PaddlePaddle/PP-LCNet_x1_0_doc_ori)

[AI Studio](https://aistudio.baidu.com/modelsdetail/31905)

---

### 🧪🧪🧪 测试环境说明
**性能测试环境:**
- **测试数据集:** 自建多场景数据集(1000张图片,含证件/文档等场景)
- **硬件配置:**
- GPU:NVIDIA Tesla T4
- CPU:Intel Xeon Gold 6271C @ 2.60GHz
- **软件环境:**
- Ubuntu 20.04 / CUDA 11.8 / cuDNN 8.9 / TensorRT 8.6.1.6
- paddlepaddle 3.0.0 / paddleocr 3.0.3

**推理模式说明:**
| 模式 | GPU配置 | CPU配置 | 加速技术组合 |
| :--- | :--- | :--- | :--- |
| **常规模式** | FP32精度 / 无TRT加速 | FP32精度 / 8线程 | PaddleInference |
| **高性能模式** | 选择先验精度类型和加速策略的最优组合 | FP32精度 / 8线程 | 选择先验最优后端(Paddle/OpenVINO/TRT等) |

<strong>测试环境说明:</strong>

<ul>
<li><b>性能测试环境</b>
<ul>
<li><strong>测试数据集:</strong>自建多场景数据集(1000张图片,含证件/文档等场景)</li>
<li><strong>硬件配置:</strong>
<ul>
<li>GPU:NVIDIA Tesla T4</li>
<li>CPU:Intel Xeon Gold 6271C @ 2.60GHz</li>
</ul>
</li>
<li><strong>软件环境:</strong>
<ul>
<li>Ubuntu 20.04 / CUDA 11.8 / cuDNN 8.9 / TensorRT 8.6.1.6</li>
<li>paddlepaddle 3.0.0 / paddleocr 3.0.3</li>
</ul>
</li>
</ul>
</li>
<li><b>推理模式说明</b></li>
</ul>

<table border="1">
<thead>
<tr>
<th>模式</th>
<th>GPU配置</th>
<th>CPU配置</th>
<th>加速技术组合</th>
</tr>
</thead>
<tbody>
<tr>
<td>常规模式</td>
<td>FP32精度 / 无TRT加速</td>
<td>FP32精度 / 8线程</td>
<td>PaddleInference</td>
</tr>
<tr>
<td>高性能模式</td>
<td>选择先验精度类型和加速策略的最优组合</td>
<td>FP32精度 / 8线程</td>
<td>选择先验最优后端(Paddle/OpenVINO/TRT等)</td>
</tr>
</tbody>
</table>

## 三、快速开始

Expand Down
88 changes: 61 additions & 27 deletions docs/version3.x/module_usage/doc_vlm.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,7 +2,7 @@
comments: true
---

# 文档类视觉语言模型模块使用教程
# 文档类视觉语言模型模块使用教程

## 一、概述

Expand All @@ -12,33 +12,67 @@ comments: true

> 推理耗时仅包含模型推理耗时,不包含前后处理耗时。

<table>
<tr>
<th>模型</th><th>模型下载链接</th>
<th>模型存储大小(GB)</th>
<th>模型总分</th>
<th>介绍</th>
</tr>
<tr>
<td>PP-DocBee-2B</td><td><a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-DocBee-2B_infer.tar">推理模型</a></td>
<td>4.2</td>
<td>765</td>
<td rowspan="2">PP-DocBee 是飞桨团队自研的一款专注于文档理解的多模态大模型,在中文文档理解任务上具有卓越表现。该模型通过近 500 万条文档理解类多模态数据集进行微调优化,各种数据集包括了通用VQA类、OCR类、图表类、text-rich文档类、数学和复杂推理类、合成数据类、纯文本数据等,并设置了不同训练数据配比。在学术界权威的几个英文文档理解评测榜单上,PP-DocBee基本都达到了同参数量级别模型的SOTA。在内部业务中文场景类的指标上,PP-DocBee也高于目前的热门开源和闭源模型。</td>
</tr>
<tr>
<td>PP-DocBee-7B</td><td><a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-DocBee-7B_infer.tar">推理模型</a></td>
<td>15.8</td>
<td>-</td>
</tr>
<tr>
<td>PP-DocBee2-3B</td><td><a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-DocBee2-3B_infer.tar">推理模型</a></td>
<td>7.6</td>
<td>852</td>
<td>PP-DocBee2 是飞桨团队自研的一款专注于文档理解的多模态大模型,在PP-DocBee的基础上进一步优化了基础模型,并引入了新的数据优化方案,提高了数据质量,使用自研数据合成策略生成的少量的47万数据便使得PP-DocBee2在中文文档理解任务上表现更佳。在内部业务中文场景类的指标上,PP-DocBee2相较于PP-DocBee提升了约11.4%,同时也高于目前的同规模热门开源和闭源模型。</td>
</tr>
</table>
### 🐝🐝 PP-DocBee-2B
**模型类型:** 推理模型 | **模型存储大小:** 4.2 GB
**模型介绍:**
PP-DocBee 是飞桨团队自研的一款专注于文档理解的多模态大模型,在中文文档理解任务上具有卓越表现。该模型通过近 500 万条文档理解类多模态数据集进行微调优化,各种数据集包括了通用VQA类、OCR类、图表类、text-rich文档类、数学和复杂推理类、合成数据类、纯文本数据等,并设置了不同训练数据配比。在学术界权威的几个英文文档理解评测榜单上,PP-DocBee基本都达到了同参数量级别模型的SOTA。

**性能指标:**
| 指标名称 | 模型总分 |
| :--- | :--- |
| **内部评估** | 765 |

**下载链接:**
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

同上

[推理模型](https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-DocBee-2B_infer.tar)

[Hugging Face](https://huggingface.co/PaddlePaddle/PP-DocBee-2B )

[ModelScope](https://www.modelscope.cn/models/PaddlePaddle/PP-DocBee-2B )

[AI Studio](https://aistudio.baidu.com/modelsdetail/31934 )

---

### 🐝🐝🐝 PP-DocBee-7B
**模型类型:** 推理模型 | **模型存储大小:** 15.8 GB
**模型介绍:**
PP-DocBee 是飞桨团队自研的一款专注于文档理解的多模态大模型,在中文文档理解任务上具有卓越表现。该模型通过近 500 万条文档理解类多模态数据集进行微调优化,各种数据集包括了通用VQA类、OCR类、图表类、text-rich文档类、数学和复杂推理类、合成数据类、纯文本数据等,并设置了不同训练数据配比。在学术界权威的几个英文文档理解评测榜单上,PP-DocBee基本都达到了同参数量级别模型的SOTA。

**下载链接:**
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

同上

[推理模型](https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-DocBee-7B_infer.tar)

[Hugging Face](https://huggingface.co/PaddlePaddle/PP-DocBee-7B )

[ModelScope](https://www.modelscope.cn/models/PaddlePaddle/PP-DocBee-7B )

[AI Studio](https://aistudio.baidu.com/modelsdetail/31868 )


---

### 🐝🐝 PP-DocBee2-3B
**模型类型:** 推理模型 | **模型存储大小:** 7.6 GB
**模型介绍:**
PP-DocBee2 是飞桨团队自研的一款专注于文档理解的多模态大模型,在PP-DocBee的基础上进一步优化了基础模型,并引入了新的数据优化方案,提高了数据质量,使用自研数据合成策略生成的少量的47万数据便使得PP-DocBee2在中文文档理解任务上表现更佳。在内部业务中文场景类的指标上,PP-DocBee2相较于PP-DocBee提升了约11.4%,同时也高于目前的同规模热门开源和闭源模型。

**性能指标:**
| 指标名称 | 模型总分 |
| :--- | :--- |
| **内部评估** | 852 |

**下载链接:**
[推理模型](https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-DocBee2-3B_infer.tar)

[Hugging Face](https://huggingface.co/PaddlePaddle/PP-DocBee2-3B )

[ModelScope](https://www.modelscope.cn/models/PaddlePaddle/PP-DocBee2-3B )

[AI Studio](https://aistudio.baidu.com/modelsdetail/31901 )

---

<b>注:以上模型总分为内部评估集模型测试结果,内部评估集所有图像分辨率 (height, width) 为 (1680,1204),共1196条数据,包括了财报、法律法规、理工科论文、说明书、文科论文、合同、研报等场景,暂时未有计划公开。</b>
### 📝📝 评估说明
**注:** 以上模型总分为内部评估集模型测试结果,内部评估集所有图像分辨率 (height, width) 为 (1680,1204),共1196条数据,包括了财报、法律法规、理工科论文、说明书、文科论文、合同、研报等场景,暂时未有计划公开。



Expand Down
Loading