1111
1212### 常规文档格式
1313- ** 文本文档** : ` .txt ` , ` .md ` , ` .html ` , ` .htm `
14- - ** Word 文档** : ` .doc ` , ` . docx`
14+ - ** Word 文档** : ` .docx `
1515- ** PDF 文档** : ` .pdf `
1616- ** 电子表格** : ` .csv ` , ` .xls ` , ` .xlsx `
1717- ** JSON 数据** : ` .json `
2222### ZIP 压缩包
2323- ** ZIP 文档** : ` .zip ` - 支持包含 Markdown 文件和图片的压缩包
2424 - 自动提取和处理 ZIP 包中的 ` .md ` 文件
25- - 自动处理 ZIP 包中的图片文件并上传到对象存储
25+ - 自动处理 ZIP 包中的图片文件并上传到对象存储(MINIO)
2626 - 图片链接会自动替换为可访问的 URL
2727 - 优先处理名为 ` full.md ` 的文件,否则使用第一个 ` .md ` 文件
2828 - 支持图片目录的智能识别(` images/ ` 、` ../images/ ` 等)
@@ -43,6 +43,8 @@ hf download SWHL/RapidOCR --local-dir ./models/SWHL/RapidOCR
4343docker compose up -d api
4444```
4545
46+ 需要确保 ` MODEL_DIR ` 环境变量指向 RapidOCR 上层目录,例如 ` ./models ` 。
47+
4648### 2. 高精度 OCR (MinerU)
4749
4850需要在 ` .env ` 文件中配置:
@@ -62,6 +64,11 @@ docker compose up mineru-vllm-server mineru-api -d
6264docker compose up api -d
6365```
6466
67+ ::: tip 处理超时
68+ 文档解析超时时间默认 600 秒,可通过 ` MINERU_TIMEOUT ` 环境变量调整。
69+ :::
70+
71+
6572### 3. 官方云服务 (MinerU Official)
6673
6774API 密钥可以从 [ MinerU 官网] ( https://mineru.net ) 申请。
@@ -97,6 +104,9 @@ docker compose up -d api
97104## 参数说明
98105
99106### enable_ocr 选项
107+
108+ 对应网页中的 ` 使用 OCR ` 选项
109+
100110- ` disable ` : 不启用 OCR(PDF 按文本提取,图片** 必须选择 OCR 方式** )
101111- ` onnx_rapid_ocr ` : RapidOCR 处理
102112- ` mineru_ocr ` : MinerU HTTP API 处理
@@ -108,69 +118,3 @@ docker compose up -d api
108118- MinerU 和 PaddleX 需要 GPU 支持
109119- MinerU Official 需要设置 ` MINERU_API_KEY ` 环境变量
110120- RapidOCR 适合 CPU 环境和基础识别需求
111-
112- ## 故障排除
113-
114- ### 常见问题
115-
116- 1 . ** RapidOCR 模型不存在**
117- ``` bash
118- # 下载模型
119- huggingface-cli download SWHL/RapidOCR --local-dir ./models/SWHL/RapidOCR
120- ```
121-
122- 2 . ** GPU 服务连接失败**
123- ``` bash
124- # 检查服务状态
125- docker compose ps
126-
127- # 查看日志
128- docker compose logs mineru
129- ```
130-
131- 3 . ** 健康检查**
132- ``` bash
133- # 检查所有 OCR 服务状态
134- curl http://localhost:5050/system/health/ocr-services
135- ```
136-
137- ## 批量处理脚本
138-
139- 系统提供便捷的批量处理脚本,用于高效批量上传文档。
140-
141- ### 文件上传脚本
142-
143- 使用 ` scripts/batch_upload.py ` 批量上传文件到知识库:
144-
145- ``` bash
146- # 批量上传文档(多种格式)
147- uv run scripts/batch_upload.py \
148- --db-id kb_b2730ad6801b149694021106c7eddd38 \
149- --directory data.nogit/农业农村局 \
150- --pattern " *.docx" --pattern " *.txt" --pattern " *.html" \
151- --base-url http://172.19.13.6:5050/api \
152- --username admin \
153- --password admin123 \
154- --batch-size 20 \
155- --wait-for-completion \
156- --poll-interval 5 \
157- --recursive \
158- --enable-ocr mineru_ocr \ # mineru_official, paddlex_ocr, onnx_rapid_ocr
159- --record-file scripts/tmp/batch_processed_files_1029.txt
160- ```
161-
162- ** 参数说明** :
163- - ` --db-id ` : 目标知识库 ID
164- - ` --directory ` : 文件目录路径
165- - ` --pattern ` : 文件匹配模式,可以多次指定以支持多种格式(例如:` --pattern "*.docx" --pattern "*.pdf" --pattern "*.html" ` )
166- - ` --batch-size ` : 每批处理的文件数量(默认20)
167- - ` --wait-for-completion ` : 是否等待任务完成再处理下一批(默认开启)
168- - ` --poll-interval ` : 任务状态检查间隔,单位秒(默认5秒)
169- - ` --recursive ` : 递归处理子目录
170- - ` --record-file ` : 处理记录文件路径
171-
172- ** 注意事项** :
173- - 系统按"内容哈希"进行去重;同一知识库已存在相同内容的文件会被拒绝(409)
174- - 建议根据系统性能调整批次大小
175- - 大量文件处理时建议开启分批等待功能
176- - 先上传后处理的机制更稳定,适合大批量文档导入
0 commit comments