labring
diff --git a/‎plugins/model/pdf-mineru/.dockerignore‎
Lines changed: 21 additions & 0 deletions b/‎plugins/model/pdf-mineru/.dockerignore‎
Lines changed: 21 additions & 0 deletions
diff --git a/‎plugins/model/pdf-mineru/.env‎
Lines changed: 1 addition & 0 deletions b/‎plugins/model/pdf-mineru/.env‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎plugins/model/pdf-mineru/Dockerfile‎
Lines changed: 21 additions & 0 deletions b/‎plugins/model/pdf-mineru/Dockerfile‎
Lines changed: 21 additions & 0 deletions
diff --git a/‎plugins/model/pdf-mineru/README.md‎
Lines changed: 152 additions & 43 deletions b/‎plugins/model/pdf-mineru/README.md‎
Lines changed: 152 additions & 43 deletions
diff --git a/‎plugins/model/pdf-mineru/docker-compose.yml‎
Lines changed: 32 additions & 0 deletions b/‎plugins/model/pdf-mineru/docker-compose.yml‎
Lines changed: 32 additions & 0 deletions
@@ -0,0 +1,21 @@
+__pycache__
+.pyc
+.pyo
+.pyd
+.Python
+env
+venv
+.venv
+pip-log.txt
+pip-delete-this-directory.txt
+.tox
+.coverage
+.coverage.
+.cache
+nosetests.xml
+coverage.xml
+.cover
+.log
+.git
+.mypy_cache
+.pytest_cache
@@ -0,0 +1 @@
+MINERU_TOKEN=官网申请的API 密钥
@@ -0,0 +1,21 @@
+# ---- 基础镜像 ----
+FROM python:3.12-slim
+
+# ---- 工作目录 ----
+WORKDIR /app
+
+# ---- 复制代码 ----
+COPY mineru_saas_api.py .
+COPY requirements.txt .
+
+# ---- 安装依赖 ----
+RUN pip install --no-cache-dir -r requirements.txt
+
+# ---- 环境变量（运行时注入）----
+ENV MINERU_TOKEN="YOUR_TOKEN_WILL_BE_INJECTED"
+
+# ---- 暴露端口 ----
+EXPOSE 1234
+
+# ---- 启动命令 ----
+CMD ["uvicorn", "mineru_saas_api:app", "--host", "0.0.0.0", "--port", "1234"]
@@ -1,85 +1,194 @@
-# Readme
+# **MinerU SaaS Wrapper For Fastgpt 详细部署文档**  
+**—— 为 FastGPT 提供稳定、高效、开箱即用的纯白嫖文档解析服务，转接服务用grok写的，文档也是，有不明白出问题了，`docker logs -f mineru-saas-wrapper` 查看日志，问他~**
 
-# 项目介绍
 ---
-本项目参照官方插件**pdf-marker，**基于MinertU实现了一个高效的 **PDF 转 Markdown 接口服务**，通过高性能的接口设计，快速将 PDF 文档转换为 Markdown 格式文本。
 
-- **简洁性：**项目无需修改代码，仅需调整文件路径即可使用，简单易用
-- **易用性：**通过提供简洁的 API，开发者只需发送 HTTP 请求即可完成 PDF 转换
-- **灵活性：**支持本地部署，便于快速上手和灵活集成
+> **适用人群**：FastGPT 开发者、后端工程师、DevOps、AI 应用集成者  
+> **目标**：在 **5 分钟内**完成从零到生产可用的 MinerU saas服务api的文档解析服务部署
 
-# 配置推荐
+---
+
+## 一、项目概述
 
-配置及速率请参照[MinerU项目](https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md)官方介绍。
+| 项目 | 说明 |
+|------|------|
+| **名称** | MinerU SaaS Wrapper for FastGPT |
+| **框架** | FastAPI + Uvicorn |
+| **核心功能** | 接收文件 → 调用 MinerU 官方 SaaS API → 轮询结果 → 返回内嵌图片的 Markdown → fasgpt读取解析内容转为知识库 |
+| **部署方式** | Docker（推荐） / docker-compose |
+| **接口路径** | `POST /v2/parse/file` |
 
-# 本地开发
+---
 
-## 基本流程
+## 二、前置条件
+| **MinerU Token** | 在 [https://mineru.net](https://mineru.net) 注册并获取 SaaS Token |
 
-1、安装基本环境，主要参照官方文档[使用CPU及GPU](https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md#%E4%BD%BF%E7%94%A8GPU)运行MinerU的方式进行。具体如下，首先使用anaconda安装基础运行环境
+> **获取 Token 步骤**：
+> 1. 登录 MinerU 官网
+> 2. 进入 **控制台 → API 密钥**
+> 3. 创建新密钥（建议命名 `fastgpt-wrapper`）
+> 4. 复制完整 Token（以 `eyJ...` 开头）
+
+---
+
+## 三、目录结构说明
 
 ```bash
-conda create -n mineru python=3.10
-conda activate mineru
-pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple
+mineru-saas-wrapper/
+├── .dockerignore
+├── Dockerfile
+├── docker-compose.yml
+├── mineru_saas_api.py          # 主服务逻辑
+├── requirements.txt            # 依赖包
+├── .env                        # （可选）环境变量文件
+└── README.md
 ```
 
-2、[下载模型权重文件](https://github.com/opendatalab/MinerU/blob/master/docs/how_to_download_models_zh_cn.md)
+---
+
+## 四、部署方式一：使用 `docker-compose`（推荐）
+
+### 步骤 1：克隆项目
 
 ```bash
-pip install modelscope
-wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py
-python download_models.py
+mkdir mineru-saas-wrapper
+cd mineru-saas-wrapper
 ```
 
-python脚本会自动下载模型文件并配置好配置文件中的模型目录
+### 步骤 2：创建 `.env` 文件（推荐，防止 Token 泄露）
 
-配置文件可以在用户目录中找到，文件名为`magic-pdf.json`
+```bash
+touch .env
+```
 
-> windows的用户目录为 "C:\\Users\\用户名", linux用户目录为 "/home/用户名", macOS用户目录为 "/Users/用户名"
+编辑 `.env`：
 
-3、如果您的显卡显存大于等于 **8GB** ，可以进行以下流程，测试CUDA解析加速效果。默认为cpu模式，使用显卡的话需修改【用户目录】中配置文件magic-pdf.json中"device-mode"的值。
+```env
+MINERU_TOKEN=官网申请的API 密钥
+POLL_INTERVAL=3
+POLL_TIMEOUT=600
+PORT=1234
+```
 
-```bash
-{
-  "device-mode":"cuda"
-}
+### 步骤 3：修改 `docker-compose.yml`
+
+```yaml
+services:
+  mineru-saas-wrapper:
+    build:
+      context: .
+      dockerfile: Dockerfile
+    container_name: mineru-saas-wrapper
+    restart: unless-stopped
+    ports:
+      - "1234:1234"
+    env_file:
+      - .env                     # 改为读取 .env 文件
+    healthcheck:
+      test: ["CMD", "curl", "-f", "http://localhost:1234/health"]
+      interval: 30s
+      timeout: 10s
+      retries: 3
+      start_period: 10s
+    logging:
+      driver: "json-file"
+      options:
+        max-size: "10m"
+        max-file: "3"
 ```
 
-4、如需使用GPU加速，需额外再安装依赖。
+### 步骤 4：启动服务
 
 ```bash
-pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 "numpy<2.0.0" --index-url https://download.pytorch.org/whl/cu118
+docker-compose up -d --build
 ```
 
+### 步骤 5：验证服务状态
+
 ```bash
-pip install paddlepaddle-gpu==2.6.1
+# 查看容器状态
+docker ps | grep mineru-saas-wrapper
+
+# 查看健康检查
+curl http://localhost:1234/health
+# 预期输出：
+{"status":"healthy"}
 ```
 
-5、克隆一个FastGPT的项目文件
 
-```
-git clone https://github.com/labring/FastGPT.git
-```
+## 五、接口测试
 
-6、将主目录设置为 plugins/model 下的pdf-mineru文件夹
+### 1. 使用 `curl` 测试
 
+```bash
+curl -X POST "http://localhost:1234/v2/parse/file" \
+  -F "file=@./sample.pdf" | jq
 ```
-cd /plugins/model/pdf-mineru/
+
+### 2. 预期成功响应
+
+```json
+{
+  "success": true,
+  "message": "",
+  "markdown": "# 标题\n\n![](data:image/png;base64,iVBORw0KGgoAAA...) ...",
+  "pages": 8
+}
 ```
 
-7、执行文件pdf_parser_mineru.py，启动服务
+### 查看详细日志
 
 ```bash
-python pdf_parser_mineru.py
+docker logs -f mineru-saas-wrapper
 ```
 
-# 访问示例
+关键日志关键词：
+- `Got upload url` → 上传成功
+- `Polling ... -> done` → 解析完成
+- `Parse finished, X pages` → 成功返回
+
+---
 
-仿照了**pdf-marker**的方式。
+## 九、FastGPT 集成指南
 
-```bash
-curl --location --request POST "http://localhost:7231/v1/parse/file" \
---header "Authorization: Bearer your_access_token" \
---form "file=@./file/chinese_test.pdf"
+### 1. 在 FastGPT 中配置「文档解析」节点
+
+| 字段 | 值 |
+|------|---- |
+| **解析服务地址** | `http://your-server-ip:1234/v2/parse/file` |
+| **请求方式** | POST |
+| **文件字段名** | `file` |
+| **响应字段映射** | `markdown` → 内容，`pages` → 页数 |
+
+### 2. FastGPT 示例配置（JSON）
+
+```json
+// 已使用 json5 进行解析，会自动去掉注释，无需手动去除
+{
+  "feConfigs": {
+    "lafEnv": "https://laf.dev", // laf环境。 https://laf.run （杭州阿里云） ,或者私有化的laf环境。如果使用 Laf openapi 功能，需要最新版的 laf 。
+    "mcpServerProxyEndpoint": "" // mcp server 代理地址，例如： http://localhost:3005
+  },
+  "systemEnv": {
+    "datasetParseMaxProcess": 10, // 知识库文件解析最大线程数量
+    "vectorMaxProcess": 10, // 向量处理线程数量
+    "qaMaxProcess": 10, // 问答拆分线程数量
+    "vlmMaxProcess": 10, // 图片理解模型最大处理进程
+    "tokenWorkers": 30, // Token 计算线程保持数，会持续占用内存，不能设置太大。
+    "hnswEfSearch": 100, // 向量搜索参数，仅对 PG 和 OB 生效。越大，搜索越精确，但是速度越慢。设置为100，有99%+精度。
+    "hnswMaxScanTuples": 100000, // 向量搜索最大扫描数据量，仅对 PG生效。
+    "customPdfParse": {
+      "url": "http://your-server-ip:1234/v2/parse/file", // 自定义 PDF 解析服务地址
+      "key": "", // 自定义 PDF 解析服务密钥
+      "doc2xKey": "", // doc2x 服务密钥
+      "price": 0 // PDF 解析服务价格
+    }
+  }
+}
 ```
+---
+
+**部署完成！**  
+现在你的 FastGPT 已拥有强大的 **MinerU 文档解析能力**，支持 PDF + 图片 → 完美 Markdown 内嵌渲染。
+
+> 如有问题，欢迎提交 Issue 或查看日志排查。祝你解析愉快！
@@ -0,0 +1,32 @@
+services:
+  mineru-saas-wrapper:
+    build:
+      context: .
+      dockerfile: Dockerfile
+    container_name: mineru-saas-wrapper
+    restart: unless-stopped
+    ports:
+      - "1234:1234"
+    environment:
+      # 你的 MinerU SaaS API Token（必须）
+      - MINERU_TOKEN=eyJ0eXBlIjoiSldUIiwiYWxnIjoiSFM1MTIifQ.eyJqdGkiOiIzODcwOTM0MyIsInJvbCI6IlJPTEVfUkVHSVNURVIiLCJpc3MiOiJPcGVuWExhYiIsImlhdCI6MTc2Mjc2MTEzMywiY2xpZW50SWQiOiJsa3pkeDU3bnZ5MjJqa3BxOXgydyIsInBob25lIjoiMTg1MjEzMzQ1MDEiLCJvcGVuSWQiOm51bGwsInV1aWQiOiI4OTI5YjgzNC05ZTY4LTRhOTctOTNiMi1hMGVkNDk5N2YzYmYiLCJlbWFpbCI6IiIsImV4cCI6MTc2Mzk3MDczM30.CadUrEtAc_B_04opSk4b5ykK60m-CbrXArZuhNGV35MKsX_SaWTbrMHd3ND309f9fgM10QTWHAszjP2Duamzwg
+      
+      # 可选：自定义轮询间隔（秒）
+      - POLL_INTERVAL=3
+      
+      # 可选：最大等待时间（秒）
+      - POLL_TIMEOUT=600
+      
+      # 可选：如果你的网络在国外，可改为国内加速镜像源（可选）
+      # - MINERU_BASE=https://mineru.net
+    healthcheck:
+      test: ["CMD", "curl", "-f", "http://localhost:1234/health"]
+      interval: 30s
+      timeout: 10s
+      retries: 3
+      start_period: 10s
+    logging:
+      driver: "json-file"
+      options:
+        max-size: "10m"
+        max-file: "3"