Skip to content
Discussion options

You must be logged in to vote

Hi @yinghao-xue! I'm Dosu and I’m helping the MinerU team.

是的,MinerU 的输出中有标识可以区分原生 PDF 文字和 OCR 识别的文字。

主要通过 category_id 字段来区分:

  • category_id: 15 - 表示 OCR 识别出来的文字(OcrText
  • category_id: 16 - 表示低置信度的 OCR 文字(LowScoreText,当置信度低于 0.5 时)
  • 其他 category_id 值(0-14) - 代表原生 PDF 文字和其他内容类型(如 0=标题,1=普通文本等)

此外,OCR 识别的文字还包含 score 字段表示置信度分数

注意:这些标识在 model.json 输出文件中最完整。最终的 Markdown 和简化的 content_list.json 输出可能会合并所有文字来源,不再明确区分。如果需要区分文字来源,建议使用 model.json 文件。

To reply, just mention @dosu.


How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other

Chat with Dosu  Join Discord Share on X

Replies: 1 comment 1 reply

Comment options

You must be logged in to vote
1 reply
@yinghao-xue
Comment options

Answer selected by yinghao-xue
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Category
Q&A
Labels
None yet
1 participant