Coze MinerU
本项目提供两个文档解析工具,用于解析PDF、Word等文档文件:
1. parse_file_local.py - 本地同步解析
参数名
类型
必填
默认值
说明
url
string
是
-
MinerU API服务的基础URL
token
string
否
-
API认证令牌
doc_url
string
是
-
要解析的文档URL
is_ocr
boolean
否
true
是否启用OCR识别
enable_formula
boolean
否
true
是否启用公式识别
enable_table
boolean
否
true
是否启用表格识别
language
string
否
"ch"
文档语言(ch=中文,en=英文)
参数名
类型
说明
text
string
解析后的Markdown格式文本内容
full_zip_url
string
完整解析结果的ZIP下载链接(同步接口为空)
content_list
array
文档内容的结构化列表
code
number
状态码(0=成功,其他=失败)
error_msg
string
错误信息(成功时为空)
2. parse_file.py - 在线异步任务解析
参数名
类型
必填
默认值
说明
url
string
是
-
MinerU API服务的基础URL
token
string
是
-
API认证令牌
doc_url
string
是
-
要解析的文档URL
is_ocr
boolean
否
true
是否启用OCR识别
enable_formula
boolean
否
false
是否启用公式识别
enable_table
boolean
否
true
是否启用表格识别
language
string
否
"ch"
文档语言(ch=中文,en=英文)
model_version
string
否
"v1"
模型版本
参数名
类型
说明
text
string
解析后的Markdown格式文本内容
full_zip_url
string
完整解析结果的ZIP下载链接
content_list
array
文档内容的结构化列表(从content_list.json解析)
code
number
状态码(0=成功,其他=失败)
error_msg
string
错误信息(成功时为空)
parse_file_local.py :适用于小文件的快速同步解析,响应速度快
parse_file.py :适用于大文件的异步解析,支持进度查询,可获取完整的ZIP结果包
两个工具都会返回统一的错误格式:
code = 0:解析成功
code != 0:解析失败,具体错误信息在error_msg中
// 成功响应示例
{
"text" : " # 文档标题\n\n 这是解析后的Markdown内容..." ,
"full_zip_url" : " https://example.com/result.zip" ,
"content_list" : [
{
"type" : " text" ,
"content" : " 文档内容" ,
"page" : 1
}
],
"code" : 0 ,
"error_msg" : " "
}
// 失败响应示例
{
"text" : " " ,
"full_zip_url" : " " ,
"content_list" : [],
"code" : 400 ,
"error_msg" : " 文档格式不支持"
}
异步解析工具会轮询任务状态,最长等待10分钟
同步解析工具直接返回结果,但不提供ZIP下载链接
建议根据文档大小选择合适的解析工具
确保提供的doc_url可以正常访问