PP-OCRv4_server_rec_doc对应的字典文件是哪个？ #14873

JackLee1 · 2025-03-17T07:15:17Z

JackLee1
Mar 17, 2025

PP-OCRv4_server_rec_doc是在PP-OCRv4_server_rec的基础上，在更多中文文档数据和PP-OCR训练数据的混合数据训练而成，增加了部分繁体字、日文、特殊字符的识别能力，可支持识别的字符为1.5万+，除文档相关的文字识别能力提升外，也同时提升了通用文字的识别能力。既然可支持识别的字符为1.5万+，那对应的字典文件是哪个？应该不是ppocr_keys_v1.txt吧？它才6K+啊。

GreatV · 2025-03-17T07:17:57Z

GreatV
Mar 17, 2025
Maintainer

PP-OCRv4_server_rec_doc 是在 PP-OCRv4_server_rec 的基础上训练而成，支持识别 1.5 万+ 字符，包括部分繁体字、日文和特殊字符。因此，它的字典文件应该不同于 ppocr_keys_v1.txt，后者仅包含 6K+ 字符。

在 PP-OCR 体系中，字典文件通常对应于 keys.txt 文件，例如：

ppocr_keys_v1.txt（常见于较早的 OCR 版本）
ppocr_keys_v2.txt 或其他扩展版本（用于更新的模型）

根据你的需求，PP-OCRv4_server_rec_doc 应该有一个扩展版本的字典文件，以支持 1.5 万+ 的字符。这通常可以在官方模型下载地址或相关配置文件中找到。你可以检查你使用的模型路径，并查看其中是否包含 dict.txt 或 keys.txt 这样的文件。例如：

./ppocr/utils/ppocr_keys_v2.txt

或者官方可能会提供：

./ppocr/utils/ppocr_keys_v4.txt

如果不了解具体的字典文件路径，建议参考 PaddleOCR 官方仓库或文档，获取最新的字典文件名称。

Response generated by 🤖 feifei-bot | chatgpt-4o-latest

⚠️ This is an AI-generated response. Please verify any critical information.

0 replies

GreatV · 2025-03-17T07:34:02Z

GreatV
Mar 17, 2025
Maintainer

PaddleOCR/paddleocr.py

Lines 113 to 115 in 5791d75

    
           "ch_doc": { 
        
               "url": "https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0rc0/PP-OCRv4_server_rec_doc_infer.tar", 
        
               "dict_path": "./ppocr/utils/dict/ppocrv4_doc_dict.txt",

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

PP-OCRv4_server_rec_doc对应的字典文件是哪个？ #14873

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

PP-OCRv4_server_rec_doc对应的字典文件是哪个？ #14873

Uh oh!

JackLee1 Mar 17, 2025

Replies: 2 comments

Uh oh!

GreatV Mar 17, 2025 Maintainer

Uh oh!

GreatV Mar 17, 2025 Maintainer

JackLee1
Mar 17, 2025

GreatV
Mar 17, 2025
Maintainer

GreatV
Mar 17, 2025
Maintainer