Skip to content

Latest commit

 

History

History

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 

README.md

Coze MinerU

文档解析工具

本项目提供两个文档解析工具,用于解析PDF、Word等文档文件:

1. parse_file_local.py - 本地同步解析

输入参数 (Input)

参数名 类型 必填 默认值 说明
url string - MinerU API服务的基础URL
token string - API认证令牌
doc_url string - 要解析的文档URL
is_ocr boolean true 是否启用OCR识别
enable_formula boolean true 是否启用公式识别
enable_table boolean true 是否启用表格识别
language string "ch" 文档语言(ch=中文,en=英文)

输出参数 (Output)

参数名 类型 说明
text string 解析后的Markdown格式文本内容
full_zip_url string 完整解析结果的ZIP下载链接(同步接口为空)
content_list array 文档内容的结构化列表
code number 状态码(0=成功,其他=失败)
error_msg string 错误信息(成功时为空)

2. parse_file.py - 在线异步任务解析

输入参数 (Input)

参数名 类型 必填 默认值 说明
url string - MinerU API服务的基础URL
token string - API认证令牌
doc_url string - 要解析的文档URL
is_ocr boolean true 是否启用OCR识别
enable_formula boolean false 是否启用公式识别
enable_table boolean true 是否启用表格识别
language string "ch" 文档语言(ch=中文,en=英文)
model_version string "v1" 模型版本

输出参数 (Output)

参数名 类型 说明
text string 解析后的Markdown格式文本内容
full_zip_url string 完整解析结果的ZIP下载链接
content_list array 文档内容的结构化列表(从content_list.json解析)
code number 状态码(0=成功,其他=失败)
error_msg string 错误信息(成功时为空)

使用说明

工具选择

  • parse_file_local.py:适用于小文件的快速同步解析,响应速度快
  • parse_file.py:适用于大文件的异步解析,支持进度查询,可获取完整的ZIP结果包

错误处理

两个工具都会返回统一的错误格式:

  • code = 0:解析成功
  • code != 0:解析失败,具体错误信息在error_msg

示例

// 成功响应示例
{
  "text": "# 文档标题\n\n这是解析后的Markdown内容...",
  "full_zip_url": "https://example.com/result.zip",
  "content_list": [
    {
      "type": "text",
      "content": "文档内容",
      "page": 1
    }
  ],
  "code": 0,
  "error_msg": ""
}

// 失败响应示例
{
  "text": "",
  "full_zip_url": "",
  "content_list": [],
  "code": 400,
  "error_msg": "文档格式不支持"
}

注意事项

  1. 异步解析工具会轮询任务状态,最长等待10分钟
  2. 同步解析工具直接返回结果,但不提供ZIP下载链接
  3. 建议根据文档大小选择合适的解析工具
  4. 确保提供的doc_url可以正常访问