Skip to content

Commit a9dece9

Browse files
committed
补充如何合理分段
1 parent 84f6a23 commit a9dece9

File tree

6 files changed

+46
-0
lines changed

6 files changed

+46
-0
lines changed

docs/faq/doc_segment.md

Lines changed: 45 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,45 @@
1+
!!! Abstract ""
2+
3+
根据文档结构,如何把内容进行合理分段对于后续的知识库检索匹配十分重要,按照标题进行切分是最常见的方式。
4+
MaxKB 默认按照智能分段以及高级分段这两种规则上传的文档进行切分,这两种规则本质都是根据分段标识以及字符数进行截取,对于样式规范(指的是使用了多级标题的样式)的文档,可以获得预期的效果。
5+
6+
那么对于看起来有规律但又没有采用规范的标题样式的文档,如下图展示的文档,应该如何进行合理地分段?
7+
8+
![doc](../img/FAQ/doc_split.png){width="500px"}
9+
10+
!!! Abstract ""
11+
12+
MaxKB默认的切分规则,本质上是按照特定的正则表达式进行切分,除此之外在高级分段规则中还支持手动输入正则表达式进行切分,这样就可以根据文档规律的表达方式进行合理地分段。
13+
14+
## 1 常见分段标识及其正则表达
15+
16+
!!! Abstract ""
17+
18+
| 场景 | 样例 | 表达式 |
19+
|----------|:--------|:---------|
20+
|章标题 | `第一章 RAG与大模型应用` | `[第][一二三四五六七八九十]+[章]` |
21+
|节标题 | `第一节 大模型应用的方向:RAG` | `[第][一二三四五六七八九十]+[节]` |
22+
|数字标题|`一、 RAG与大模型应用` </br> `1.1 大模型应用的方向:RAG`| `[一二三四五六七八九十|1-9]+[、|.][1-9]*[.]*[1-9]*` |
23+
|条目 | `第一条:本公司员工均应遵守以下规定。` |`[第][一二三四五六七八九十]+[条]`|
24+
25+
## 2 操作及效果
26+
27+
!!! Abstract ""
28+
29+
将上传文档后,如果选择默认的分段规则,无法都无法获得立项的效果。
30+
![doc](../img/FAQ/doc_default_split.png)
31+
![doc](../img/FAQ/doc_advance_split.png)
32+
33+
34+
!!! Abstract ""
35+
36+
为了有效分段,需要在分段标识手动输入分段标识的正则表达式 `[第][一二三四五六七八九十]+[条]`(注意:输入后需要回车才生效),长度设置为单个段落的最大长度,然后点击生成预览。
37+
从预览结果可以看到,每一条都完整地切分为一个段落,保证了语义的完整性。
38+
39+
![doc](../img/FAQ/doc_re_split.png)
40+
41+
42+
43+
44+
45+

docs/img/FAQ/doc_advance_split.png

833 KB
Loading

docs/img/FAQ/doc_default_split.png

922 KB
Loading

docs/img/FAQ/doc_re_split.png

625 KB
Loading

docs/img/FAQ/doc_split.png

259 KB
Loading

mkdocs.yml

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -104,6 +104,7 @@ nav:
104104
- Ollama使用GPU运行LLM模型: faq/GPU_runOllama.md
105105
- 将MaxKB小助手集成到Halo中: faq/maxkb_In_halo.md
106106
- MaxKB和Dify有什么区别: faq/MaxKB VS.Dify.md
107+
- 知识库文档如何合理分段: faq/doc_segment.md
107108
- 更新日志: changelog.md
108109
- 联系我们: contact.md
109110

0 commit comments

Comments
 (0)