Skip to content

Commit 1b265d0

Browse files
authored
[Docs] Fix documentation (#15477)
* modify docs0528 * modify docs0529 * modify docs0529-2 * modify docs0529-3 * change 960,max to 64,min * Proofread Chinese, English documents. modify ocr.py and test_ocr.py * modify pipeline to Pipeline * check-code-style * check-code-style-2 * modify doc_preprocessor.md * fix check-code-style * modify dict * modify languages * modify languages * modify docs
1 parent 933e9a5 commit 1b265d0

16 files changed

+617
-400
lines changed

docs/version3.x/pipeline_usage/OCR.en.md

Lines changed: 151 additions & 54 deletions
Large diffs are not rendered by default.

docs/version3.x/pipeline_usage/OCR.md

Lines changed: 146 additions & 49 deletions
Original file line numberDiff line numberDiff line change
@@ -664,25 +664,25 @@ paddleocr ocr -i ./general_ocr_002.png --ocr_version PP-OCRv4
664664
</tr>
665665
<tr>
666666
<td><code>use_doc_orientation_classify</code></td>
667-
<td>是否加载并使用文档方向分类功能。如果不设置,将默认使用产线初始化的该参数值,初始化为<code>True</code>。</td>
667+
<td>是否加载并使用文档方向分类模块。如果不设置,将默认使用产线初始化的该参数值,初始化为<code>True</code>。</td>
668668
<td><code>bool</code></td>
669669
<td></td>
670670
</tr>
671671
<tr>
672672
<td><code>use_doc_unwarping</code></td>
673-
<td>是否加载并使用文本图像矫正功能。如果不设置,将默认使用产线初始化的该参数值,初始化为<code>True</code>。</td>
673+
<td>是否加载并使用文本图像矫正模块。如果不设置,将默认使用产线初始化的该参数值,初始化为<code>True</code>。</td>
674674
<td><code>bool</code></td>
675675
<td></td>
676676
</tr>
677677
<tr>
678678
<td><code>use_textline_orientation</code></td>
679-
<td>是否加载并使用文本行方向功能。如果不设置,将默认使用产线初始化的该参数值,初始化为<code>True</code>。</td>
679+
<td>是否加载并使用文本行方向模块。如果不设置,将默认使用产线初始化的该参数值,初始化为<code>True</code>。</td>
680680
<td><code>bool</code></td>
681681
<td></td>
682682
</tr>
683683
<tr>
684684
<td><code>text_det_limit_side_len</code></td>
685-
<td>文本检测的最大边长度限制
685+
<td>文本检测的图像边长限制
686686
大于 <code>0</code> 的任意整数。如果不设置,将默认使用产线初始化的该参数值,初始化为 <code>64</code>。
687687
</td>
688688
<td><code>int</code></td>
@@ -741,28 +741,18 @@ paddleocr ocr -i ./general_ocr_002.png --ocr_version PP-OCRv4
741741
<tr>
742742
<td><code>lang</code></td>
743743
<td>使用指定语言的 OCR 模型。
744-
<ul>
745-
<li><b>ch</b>:中文;
746-
<li><b>en</b>:英文;
747-
<li><b>korean</b>:韩文;
748-
<li><b>japan</b>:日文;
749-
<li><b>chinese_cht</b>:繁体中文;
750-
<li><b>te</b>:泰卢固文;
751-
<li><b>ka</b>:卡纳达文;
752-
<li><b>ta</b>:泰米尔文;
753-
</ul>如果不设置,将默认使用<code>ch</code>。
744+
请查看下方的详细语言列表。
754745
</td>
755746
<td><code>str</code></td>
756747
<td></td>
757748
</tr>
758749
<tr>
759750
<td><code>ocr_version</code></td>
760-
<td>OCR 版本。
751+
<td>OCR 版本,注意不是每个<code>ocr_version</code>都支持所有的<code>lang</code>
761752
<ul>
762-
<li><b>PP-OCRv5</b>:使用<code>PP-OCRv5</code>系列模型;
763-
<li><b>PP-OCRv4</b>:使用<code>PP-OCRv4</code>系列模型;
764-
<li><b>PP-OCRv3</b>:使用<code>PP-OCRv3</code>系列模型;
765-
</ul>如果不设置,将默认使用<code>PP-OCRv5</code>系列模型。
753+
<li><b>PP-OCRv5</b>:使用PP-OCRv5系列模型;
754+
<li><b>PP-OCRv4</b>:使用PP-OCRv4系列模型;
755+
<li><b>PP-OCRv3</b>:使用PP-OCRv3系列模型。
766756
</td>
767757
<td><code>str</code></td>
768758
<td></td>
@@ -839,7 +829,7 @@ paddleocr ocr -i ./general_ocr_002.png --ocr_version PP-OCRv4
839829
</tr>
840830
<tr>
841831
<td><code>device</code></td>
842-
<td>用于推理的设备。支持指定具体卡号
832+
<td>用于推理的设备。支持指定具体卡号
843833
<ul>
844834
<li><b>CPU</b>:如 <code>cpu</code> 表示使用 CPU 进行推理;</li>
845835
<li><b>GPU</b>:如 <code>gpu:0</code> 表示使用第 1 块 GPU 进行推理;</li>
@@ -927,6 +917,125 @@ paddleocr ocr -i ./general_ocr_002.png --ocr_version PP-OCRv4
927917
若指定了`save_path`,则会保存可视化结果在`save_path`下。可视化结果如下:
928918

929919
<img src="https://raw.githubusercontent.com/cuicheng01/PaddleX_doc_images/main/images/pipelines/ocr/03.png"/>
920+
<details><summary><b>支持的语言列表</b></summary>
921+
<table>
922+
<thead>
923+
<tr>
924+
<th><code>ocr_version</code></th>
925+
<th>语种</th>
926+
</tr>
927+
<tr>
928+
<td>PP-OCRv5</td>
929+
<td>PP-OCRv5支持以下语言:
930+
<ul>
931+
<li><b>ch</b>:简体中文;
932+
<li><b>chinese_cht</b>:繁体中文;
933+
<li><b>en</b>:英文;
934+
<li><b>japan</b>:日文;
935+
<li><b>korean</b>:韩文;
936+
<li><b>te</b>:泰卢固文;
937+
<li><b>ka</b>:卡纳达文;
938+
<li><b>ta</b>:泰米尔文。
939+
</ul></td>
940+
</tr>
941+
<tr>
942+
<td>PP-OCRv4</td>
943+
<td>PP-OCRv4支持以下语言:
944+
<ul>
945+
<li><b>ch</b>:简体中文;
946+
<li><b>en</b>:英文。
947+
</ul></td>
948+
</tr>
949+
<tr>
950+
<td>PP-OCRv3</td>
951+
<td>PP-OCRv3支持以下语言:
952+
<details>
953+
<summary>语言列表</summary>
954+
<ul>
955+
<li><b>af</b>:南非荷兰文;
956+
<li><b>az</b>:阿塞拜疆文;
957+
<li><b>bs</b>:波斯尼亚文;
958+
<li><b>cs</b>:捷克文;
959+
<li><b>cy</b>:威尔士文;
960+
<li><b>da</b>:丹麦文;
961+
<li><b>de</b>:德文;
962+
<li><b>es</b>:西班牙文;
963+
<li><b>et</b>:爱沙尼亚文;
964+
<li><b>fr</b>:法文;
965+
<li><b>ga</b>:爱尔兰文;
966+
<li><b>hr</b>:克罗地亚文;
967+
<li><b>hu</b>:匈牙利文;
968+
<li><b>id</b>:印度尼西亚文;
969+
<li><b>is</b>:冰岛文;
970+
<li><b>it</b>:意大利文;
971+
<li><b>ku</b>:库尔德文;
972+
<li><b>la</b>:拉丁文;
973+
<li><b>lt</b>:立陶宛文;
974+
<li><b>lv</b>:拉脱维亚文;
975+
<li><b>mi</b>:毛利文;
976+
<li><b>ms</b>:马来文;
977+
<li><b>mt</b>:马耳他文;
978+
<li><b>nl</b>:荷兰文;
979+
<li><b>no</b>:挪威文;
980+
<li><b>oc</b>:奥克文;
981+
<li><b>pi</b>:帕利亚文;
982+
<li><b>pl</b>:波兰文;
983+
<li><b>pt</b>:葡萄牙文;
984+
<li><b>ro</b>:罗马尼亚文;
985+
<li><b>rs_latin</b>:塞尔维亚文(latin);
986+
<li><b>sk</b>:斯洛伐克文;
987+
<li><b>sl</b>:斯洛文尼亚文;
988+
<li><b>sq</b>:阿尔巴尼亚文;
989+
<li><b>sv</b>:瑞典文;
990+
<li><b>sw</b>:斯瓦希里文;
991+
<li><b>tl</b>:塔加洛文;
992+
<li><b>tr</b>:土耳其文;
993+
<li><b>uz</b>:乌兹别克文;
994+
<li><b>vi</b>:越南文;
995+
<li><b>french</b>:法文;
996+
<li><b>german</b>:德文;
997+
<li><b>ar</b>:阿拉伯文;
998+
<li><b>fa</b>:波斯文;
999+
<li><b>ug</b>:维吾尔文;
1000+
<li><b>ur</b>:乌尔都文;
1001+
<li><b>ru</b>:俄罗斯文;
1002+
<li><b>rs_cyrillic</b>:塞尔维亚文(cyrillic);
1003+
<li><b>be</b>:白俄罗斯文;
1004+
<li><b>bg</b>:保加利亚文;
1005+
<li><b>uk</b>:乌克兰文;
1006+
<li><b>mn</b>:蒙古文;
1007+
<li><b>abq</b>:阿巴扎文;
1008+
<li><b>ady</b>:阿迪赫文;
1009+
<li><b>kbd</b>:卡巴尔达文;
1010+
<li><b>ava</b>:阿瓦尔文;
1011+
<li><b>dar</b>:达尔金文;
1012+
<li><b>inh</b>:印古什文;
1013+
<li><b>che</b>:车臣文;
1014+
<li><b>lbe</b>:拉克文;
1015+
<li><b>lez</b>:莱兹甘文;
1016+
<li><b>tab</b>:塔巴萨兰文;
1017+
<li><b>hi</b>:印地文;</li>
1018+
<li><b>mr</b>:马拉地文;</li>
1019+
<li><b>ne</b>:尼泊尔文;</li>
1020+
<li><b>bh</b>:比哈尔文;</li>
1021+
<li><b>mai</b>:迈蒂利文;</li>
1022+
<li><b>ang</b>:昂加文;</li>
1023+
<li><b>bho</b>:孟加拉文;</li>
1024+
<li><b>mah</b>:摩揭陀文;</li>
1025+
<li><b>sck</b>:那格浦尔文;</li>
1026+
<li><b>new</b>:尼瓦尔文;</li>
1027+
<li><b>gom</b>:保加利亚文;</li>
1028+
<li><b>sa</b>:梵文;</li>
1029+
<li><b>bgc</b>:哈里亚纳文。</li>
1030+
</ul>
1031+
</details></td>
1032+
</tr>
1033+
</thead>
1034+
<tbody>
1035+
</tbody>
1036+
</table>
1037+
</details>
1038+
<br />
9301039

9311040
### 2.2 Python脚本方式集成
9321041

@@ -1045,28 +1154,28 @@ for res in result:
10451154
</tr>
10461155
<tr>
10471156
<td><code>use_doc_orientation_classify</code></td>
1048-
<td>是否加载并使用文档方向分类功能。如果设置为<code>None</code>,将默认使用产线初始化的该参数值,初始化为<code>True</code>。</td>
1157+
<td>是否加载并使用文档方向分类模块。如果设置为<code>None</code>,将默认使用产线初始化的该参数值,初始化为<code>True</code>。</td>
10491158
<td><code>bool</code></td>
10501159
<td><code>None</code></td>
10511160
</tr>
10521161
<tr>
10531162
<td><code>use_doc_unwarping</code></td>
1054-
<td>是否加载并使用文本图像矫正功能。如果设置为<code>None</code>,将默认使用产线初始化的该参数值,初始化为<code>True</code>。</td>
1163+
<td>是否加载并使用文本图像矫正模块。如果设置为<code>None</code>,将默认使用产线初始化的该参数值,初始化为<code>True</code>。</td>
10551164
<td><code>bool</code></td>
10561165
<td><code>None</code></td>
10571166
</tr>
10581167
<tr>
10591168
<td><code>use_textline_orientation</code></td>
1060-
<td>是否加载并使用文本行方向功能。如果设置为<code>None</code>,将默认使用产线初始化的该参数值,初始化为<code>True</code>。</td>
1169+
<td>是否加载并使用文本行方向模块。如果设置为<code>None</code>,将默认使用产线初始化的该参数值,初始化为<code>True</code>。</td>
10611170
<td><code>bool</code></td>
10621171
<td><code>None</code></td>
10631172
</tr>
10641173
<tr>
10651174
<td><code>text_det_limit_side_len</code></td>
1066-
<td>文本检测的最大边长度限制
1175+
<td>文本检测的图像边长限制
10671176
<ul>
10681177
<li><b>int</b>:大于 <code>0</code> 的任意整数;</li>
1069-
<li><b>None</b>:如果设置为<code>None</code>, 将默认使用产线初始化的该参数值,初始化为 <code>64</code>。</li>
1178+
<li><b>None</b>:如果设置为<code>None</code>,将默认使用产线初始化的该参数值,初始化为 <code>64</code>。</li>
10701179
</ur>
10711180
</td>
10721181
<td><code>int</code></td>
@@ -1077,7 +1186,7 @@ for res in result:
10771186
<td>文本检测的边长度限制类型。
10781187
<ul>
10791188
<li><b>str</b>:支持 <code>min</code> 和 <code>max</code>,<code>min</code> 表示保证图像最短边不小于 <code>det_limit_side_len</code>,<code>max</code> 表示保证图像最长边不大于 <code>limit_side_len</code>;</li>
1080-
<li><b>None</b>:如果设置为<code>None</code>, 将默认使用产线初始化的该参数值,初始化为 <code>min</code>。</li>
1189+
<li><b>None</b>:如果设置为<code>None</code>,将默认使用产线初始化的该参数值,初始化为 <code>min</code>。</li>
10811190
</ur>
10821191
</td>
10831192
<td><code>str</code></td>
@@ -1088,7 +1197,7 @@ for res in result:
10881197
<td>文本检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。
10891198
<ul>
10901199
<li><b>float</b>:大于<code>0</code>的任意浮点数;
1091-
<li><b>None</b>:如果设置为<code>None</code>, 将默认使用产线初始化的该参数值 <code>0.3</code>。</li>
1200+
<li><b>None</b>:如果设置为<code>None</code>,将默认使用产线初始化的该参数值 <code>0.3</code>。</li>
10921201
</td>
10931202
<td><code>float</code></td>
10941203
<td><code>None</code></td>
@@ -1098,7 +1207,7 @@ for res in result:
10981207
<td>文本检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。
10991208
<ul>
11001209
<li><b>float</b>:大于<code>0</code>的任意浮点数;
1101-
<li><b>None</b>:如果设置为<code>None</code>将默认使用产线初始化的该参数值 <code>0.6</code>。
1210+
<li><b>None</b>:如果设置为<code>None</code>将默认使用产线初始化的该参数值 <code>0.6</code>。
11021211
</td>
11031212
<td><code>float</code></td>
11041213
<td><code>None</code></td>
@@ -1139,38 +1248,26 @@ for res in result:
11391248
</tr>
11401249
<tr>
11411250
<td><code>lang</code></td>
1142-
<td>使用指定语言的 OCR 模型。
1143-
<ul>
1144-
<li><b>ch</b>:中文;
1145-
<li><b>en</b>:英文;
1146-
<li><b>korean</b>:韩文;
1147-
<li><b>japan</b>:日文;
1148-
<li><b>chinese_cht</b>:繁体中文;
1149-
<li><b>te</b>:泰卢固文;
1150-
<li><b>ka</b>:卡纳达文;
1151-
<li><b>ta</b>:泰米尔文;
1152-
<li><b>None</b>:如果设置为<code>None</code>,将默认使用<code>ch</code>。
1153-
</ur>
1251+
<td>使用指定语言的 OCR 模型。请查看上方的详细列表。
11541252
</td>
11551253
<td><code>str</code></td>
11561254
<td><code>None</code></td>
11571255
</tr>
11581256
<tr>
11591257
<td><code>ocr_version</code></td>
1160-
<td>OCR 版本。
1258+
<td>OCR 版本,注意不是每个<code>ocr_version</code>都支持所有的<code>lang</code>
11611259
<ul>
1162-
<li><b>PP-OCRv5</b>:使用<code>PP-OCRv5</code>系列模型;
1163-
<li><b>PP-OCRv4</b>:使用<code>PP-OCRv4</code>系列模型;
1164-
<li><b>PP-OCRv3</b>:使用<code>PP-OCRv3</code>系列模型;
1165-
<li><b>None</b>:如果设置为<code>None</code>, 将默认使用<code>PP-OCRv5</code>系列模型。
1260+
<li><b>PP-OCRv5</b>:使用PP-OCRv5系列模型;
1261+
<li><b>PP-OCRv4</b>:使用PP-OCRv4系列模型;
1262+
<li><b>PP-OCRv3</b>:使用PP-OCRv3系列模型;
11661263
</ur>
11671264
</td>
11681265
<td><code>str</code></td>
11691266
<td><code>None</code></td>
11701267
</tr>
11711268
<tr>
11721269
<td><code>device</code></td>
1173-
<td>用于推理的设备。支持指定具体卡号
1270+
<td>用于推理的设备。支持指定具体卡号
11741271
<ul>
11751272
<li><b>CPU</b>:如 <code>cpu</code> 表示使用 CPU 进行推理;</li>
11761273
<li><b>GPU</b>:如 <code>gpu:0</code> 表示使用第 1 块 GPU 进行推理;</li>
@@ -1373,7 +1470,7 @@ for res in result:
13731470
<li><code>model_settings</code>: <code>(Dict[str, bool])</code> 配置产线所需的模型参数
13741471
<ul>
13751472
<li><code>use_doc_preprocessor</code>: <code>(bool)</code> 控制是否启用文档预处理子产线</li>
1376-
<li><code>use_textline_orientation</code>: <code>(bool)</code> 控制是否启用文本行方向分类功能</li>
1473+
<li><code>use_textline_orientation</code>: <code>(bool)</code> 控制是否启用文本行方向分类模块</li>
13771474
</ul>
13781475
</li>
13791476
<li><code>doc_preprocessor_res</code>: <code>(Dict[str, Union[str, Dict[str, bool], int]])</code> 文档预处理子产线的输出结果。仅当<code>use_doc_preprocessor=True</code>时存在
@@ -1433,7 +1530,7 @@ for res in result:
14331530

14341531
<ul>
14351532
<li><code>json</code> 属性获取的预测结果为dict类型的数据,相关内容与调用 <code>save_to_json()</code> 方法保存的内容一致。</li>
1436-
<li><code>img</code> 属性返回的预测结果是一个字典类型的数据。其中,键分别为 <code>ocr_res_img</code> 和 <code>preprocessed_img</code>,对应的值是两个 <code>Image.Image</code> 对象:一个用于显示 OCR 结果的可视化图像,另一个用于展示图像预处理的可视化图像。如果没有使用图像预处理子模块,则字典中只包含 <code>ocr_res_img</code>。</li>
1533+
<li><code>img</code> 属性返回的预测结果是一个dict类型的数据。其中,键分别为 <code>ocr_res_img</code> 和 <code>preprocessed_img</code>,对应的值是两个 <code>Image.Image</code> 对象:一个用于显示 OCR 结果的可视化图像,另一个用于展示图像预处理的可视化图像。如果没有使用图像预处理子模块,则dict中只包含 <code>ocr_res_img</code>。</li>
14371534
</ul>
14381535

14391536
</details>
@@ -1834,7 +1931,7 @@ paddleocr ocr --paddlex_config PaddleOCR.yaml ...
18341931

18351932
4.在 Python API 中加载产线配置文件
18361933

1837-
初始化产线对象时,可通过 paddlex_config 参数传入 PaddleX 产线配置文件路径或配置字典,PaddleOCR 会读取其中的内容作为产线配置。示例如下:
1934+
初始化产线对象时,可通过 paddlex_config 参数传入 PaddleX 产线配置文件路径或配置dict,PaddleOCR 会读取其中的内容作为产线配置。示例如下:
18381935

18391936
```python
18401937
from paddleocr import PaddleOCR

0 commit comments

Comments
 (0)