Skip to content

Commit 7c40d6c

Browse files
committed
docs: 更新智能体和文档处理相关文档,添加内置工具说明及支持的文件类型**
1 parent e4d5bc6 commit 7c40d6c

File tree

7 files changed

+110
-63
lines changed

7 files changed

+110
-63
lines changed

docs/advanced/agents.md

Lines changed: 19 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -51,10 +51,24 @@ agent_manager.init_all_agents()
5151

5252
## 内置工具与 MCP 集成
5353

54-
55-
::: warning
56-
文档待完善
57-
:::
54+
系统默认会为对话/推理智能体注册一组“内置工具”,并根据配置动态启用:
55+
56+
- 知识图谱查询:`query_knowledge_graph`
57+
- 依赖 Neo4j 服务(见 docker-compose 中 `graph`
58+
- 返回包含三元组的结果,适合图谱关系类问题
59+
- 网页搜索:`TavilySearch`
60+
- 需要设置 `TAVILY_API_KEY` 才会启用
61+
- LLM 在需要时自动调用,提供实时网页信息
62+
- 知识库检索工具:按知识库动态生成
63+
- 工具名称形如 `query_<db_id前缀>`;描述来自知识库名称与说明
64+
- 在工具选择阶段,用描述帮助模型做针对性检索
65+
- MySQL 工具包:只读查询
66+
- `mysql_list_tables``mysql_describe_table``mysql_query`
67+
- 环境变量见下,具备超时/行数限制与注入防护
68+
69+
MCP(Model Context Protocol)可接入外部可视化或其他工具能力:
70+
-`src/agents/common/mcp.py``MCP_SERVERS` 添加配置;`transport` 字段名必须正确
71+
- 常见问题:无法列出工具多因服务不可达或配置错误;优先检查可达性与字段名
5872

5973

6074
### 1. MySQL 数据库集成
@@ -115,5 +129,5 @@ MCP_SERVERS = {
115129
```
116130

117131
::: warning 配置注意
118-
记得将 `type` 字段修改为 `transport`
132+
记得将 `type` 字段修改为 `transport`,并确保服务可达
119133
:::

docs/advanced/document-processing.md

Lines changed: 11 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -51,6 +51,13 @@ docker compose up paddlex --build
5151
- **结构化文档**: PP-Structure-V3
5252
- **生产环境**: 根据硬件条件选择
5353

54+
### `enable_ocr` 取值说明(入库参数)
55+
56+
- `disable`:不启用 OCR(PDF 将按纯文本提取,图片会自动转为 `onnx_rapid_ocr` 提示)
57+
- `onnx_rapid_ocr`:CPU 友好,安装简单
58+
- `mineru_ocr`:GPU 加速,复杂文档效果好
59+
- `paddlex_ocr`:结构化表格/票据等场景
60+
5461
## 批量处理脚本
5562

5663
系统提供便捷的批量处理脚本,支持文件上传和解析操作。
@@ -81,6 +88,8 @@ uv run scripts/batch_upload.py upload \
8188
- `--recursive`: 递归处理子目录
8289
- `--record-file`: 处理记录文件路径
8390

91+
提示:系统按“内容哈希”进行去重;同一知识库已存在相同内容的文件会被拒绝(409)。
92+
8493
### 文件解析脚本
8594

8695
使用 `scripts/batch_upload.py trans` 将文件解析为 Markdown:
@@ -108,3 +117,5 @@ uv run scripts/batch_upload.py trans \
108117
- **断点续传**: 支持中断后继续处理
109118
- **日志记录**: 详细记录处理过程
110119
- **结果统计**: 处理完成后显示统计信息
120+
121+
更多关于“入库参数、导出数据、支持类型”等,请参阅:介绍 → 知识库与知识图谱 → 文档管理。

docs/changelog/faq.md

Lines changed: 40 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -1,2 +1,42 @@
11
# 常见问题
22

3+
以下为最常见的安装与使用问题,更多细节请参阅相应章节链接。
4+
5+
- 首次运行如何创建管理员?
6+
- Web 首次启动会引导初始化;也可调用 API:
7+
- `GET /api/auth/check-first-run``first_run=true`
8+
- `POST /api/auth/initialize` 提交 `user_id``password`
9+
- 无默认账号,初始化后使用创建的超级管理员登录
10+
11+
- 镜像拉取/构建失败?
12+
- 可使用 `docker/pull_image.sh` 辅助拉取,或配置代理环境变量 `HTTP_PROXY/HTTPS_PROXY`
13+
- 若已配置代理仍失败,可临时取消代理后重试
14+
- 参考:介绍 → 快速开始 → 故障排除
15+
16+
- 服务端口与访问地址?
17+
- Web: `http://localhost:5173`;API 文档: `http://localhost:5050/docs`
18+
- 端口一览与说明见:高级配置 → 其他配置 → 服务端口
19+
20+
- Milvus/Neo4j 启动或连接失败?
21+
- 重启:`docker compose up milvus -d && docker restart api-dev`
22+
- Neo4j 默认:用户名 `neo4j`、密码 `0123456789`、管理界面 `http://localhost:7474`
23+
24+
- OCR 模型或服务不可用?
25+
- RapidOCR 本地模型:确保 `MODEL_DIR/SWHL/RapidOCR` 下存在 `PP-OCRv4` 模型
26+
- MinerU/PaddleX:检查健康检查接口与 GPU/CUDA 版本
27+
- 参考:高级配置 → 文档解析
28+
29+
- 支持的文件类型与常见入库失败?
30+
- 查询:`GET /api/knowledge/files/supported-types`
31+
- 常见失败:不支持的扩展名、内容哈希重复(去重)、OCR 服务未就绪
32+
33+
- 批量上传与转换示例?
34+
- 上传入库:`uv run scripts/batch_upload.py upload --db-id <id> --directory <dir> --username <u> --password <p> --base-url http://127.0.0.1:5050/api`
35+
- 转 Markdown:`uv run scripts/batch_upload.py trans --db-id <id> --directory <dir> --username <u> --password <p>`
36+
- 参考:高级配置 → 文档解析
37+
38+
- 登录失败被锁定?
39+
- 多次失败会临时锁定账户,请根据提示等待后重试
40+
41+
- 如何查看日志和状态?
42+
- `docker ps` 查看整体;`docker logs api-dev -f``docker logs web-dev -f` 查看服务日志

docs/changelog/roadmap.md

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -12,6 +12,7 @@
1212

1313
**Next**
1414

15+
- [ ] 修改现有的 ReAct 智能体,并尽量将默认助手的特性兼容到 LangGraph 的 [`create_agent`](https://docs.langchain.com/oss/python/langchain/agents)
1516
- [ ] 添加对于上传文件的支持
1617
- [ ] 知识图谱的上传和可视化,支持属性,标签的展示 <Badge type="info" text="0.4" />
1718
- [ ] 集成智能体评估,首先使用命令行来实现,然后考虑放在 UI 里面展示

docs/index.md

Lines changed: 3 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -38,4 +38,6 @@ features:
3838

3939
```sh
4040
docker compose up --build -d
41-
```
41+
```
42+
43+
查看端口与服务说明:高级配置 → 其他配置 → 服务端口。

docs/intro/knowledge-base.md

Lines changed: 36 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -33,15 +33,45 @@ LightRAG 知识库可在知识库详情中可视化,但不支持在侧边栏
3333

3434
## 文档管理
3535

36-
::: danger
37-
待补充
38-
:::
36+
本系统的“上传 → 解析入库 → 检索/可视化”流程既可通过 Web 界面完成,也可使用 API/脚本批量处理。
37+
38+
**支持的文件类型**
39+
40+
- 文本与文档:`.txt``.md``.doc``.docx``.pdf`
41+
- 网页与数据:`.html``.htm``.json``.csv``.xls``.xlsx`
42+
- 图片:`.jpg``.jpeg``.png``.bmp``.tiff``.tif`
43+
44+
接口查询:`GET /api/knowledge/files/supported-types`
45+
46+
**上传与入库**
47+
48+
1) 上传文件(返回服务端保存路径)
49+
- `POST /api/knowledge/files/upload?db_id=<可选>`
50+
- 成功返回:`file_path`(后续入库使用)、`content_hash`(内容去重)
51+
52+
2) 解析并入库(异步任务)
53+
- `POST /api/knowledge/databases/{db_id}/documents`
54+
- 返回:`status=queued``task_id`,可在任务中心查看进度
55+
56+
去重策略:系统按“内容哈希”判断是否已存在相同文件,避免重复入库。
57+
58+
### 批量脚本
59+
60+
- 上传并入库:参见 `scripts/batch_upload.py upload`
61+
- 转换为 Markdown:参见 `scripts/batch_upload.py trans`
3962

4063
## 知识图谱
4164

42-
::: danger
43-
待补充关于知识图谱在项目中的定位
44-
:::
65+
本项目存在两类“图谱相关”能力:
66+
67+
- 全局知识图谱(Neo4j):用于智能体工具 `query_knowledge_graph` 的图实体查询;统一保存在 Neo4j 中,提供三元组检索和系统级可视化。
68+
- LightRAG 知识库内图谱:针对某个知识库由 LightRAG 自动抽取实体/关系,用于该库内的图增强检索与可视化;与全局图共享同一 Neo4j 实例,但通过特殊 tag 区分,不作为全局图谱使用。
69+
70+
选择建议:
71+
- 更结构化的库内检索/可视化:优先使用 LightRAG(注意构建质量与成本)。
72+
- 统一的图查询/工具调用:依赖全局 Neo4j 图谱与工具 `query_knowledge_graph`
73+
74+
接入已有 Neo4j 实例、三元组导入方式与注意事项见下文说明;LightRAG 构建模型可通过 `.env` 中的 `LIGHTRAG_LLM_*` 变量覆盖。
4575

4676
### 1. 以三元组形式导入
4777

docs/intro/quick-start.md

Lines changed: 0 additions & 51 deletions
Original file line numberDiff line numberDiff line change
@@ -131,54 +131,3 @@ docker restart api-dev
131131
```
132132

133133
</details>
134-
135-
136-
## 常见问题
137-
138-
### 服务管理
139-
140-
**Q: 如何查看后端服务日志?**
141-
142-
```bash
143-
# 查看后端日志
144-
docker logs api-dev -f
145-
146-
# 查看前端日志
147-
docker logs web-dev -f
148-
149-
# 查看所有服务状态
150-
docker ps
151-
```
152-
153-
### OCR 服务
154-
155-
**Q: RapidOCR 模型未找到怎么办?**
156-
157-
确认以下文件存在:
158-
- `MODEL_DIR` 指向的目录存在 `SWHL/RapidOCR`
159-
- 包含 `PP-OCRv4` 下的 `det_infer.onnx``rec_infer.onnx` 文件
160-
161-
**Q: MinerU/PaddleX 健康检查失败?**
162-
163-
分别检查服务状态:
164-
- MinerU: `http://localhost:30000/health`
165-
- PaddleX: `http://localhost:8080/`
166-
167-
确认 GPU/驱动与 CUDA 版本匹配。
168-
169-
### 数据库连接
170-
171-
**Q: Milvus 启动失败?**
172-
173-
```bash
174-
# 重启 Milvus 服务
175-
docker compose up milvus -d
176-
docker restart api-dev
177-
```
178-
179-
**Q: Neo4j 连接问题?**
180-
181-
检查默认账户信息:
182-
- 用户名: `neo4j`
183-
- 密码: `0123456789`
184-
- 管理界面: `http://localhost:7474`

0 commit comments

Comments
 (0)