Skip to content

[BUG] Web 知识库无法完整同步某些站点 #1563

@saurlax

Description

@saurlax

联系方式

[email protected]

MaxKB 版本

v1.7.0 (build at 2024-10-31T12:49, commit: 44b3aed)

问题描述

使用 Web 知识库同步某些网站时,只能同步到一两个页面,例如下面的链接:

但是下面的网站却可以正常同步:

怀疑有可能是因为链接跟踪的问题,tauri 的文档在页头中有超链接的 /start/concept/blog/release 开头的就都能同步,而 starlight 的没有这样的规律,就导致了只同步的两个文档。

重现步骤

同步 starlight 的参数配置:

image

结果只得到了首页和第一个页面:

image

同步 tauri 的参数配置:

image

结果可以得到所有/start/concept/blog/release 开头的文档:

image

期待的正确结果

能够同步设置中定义的根目录下的所有页面。

相关日志输出

No response

附加信息

此外建议可以增加从 sitemap 导入的功能,这样对于一些现有支持 sitemap 功能的框架导入效果更好。知识库名称也可以设置为选取页面的 title 而不是超链接的文本。

Metadata

Metadata

Assignees

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions