[Idea] 知识库 #863

arvinxx · 2023-12-29T04:59:05Z

arvinxx
Dec 29, 2023
Maintainer

背景

本地化向量检索

使用openai embedding 后存储进本地数据库。

然后采用向量检索引擎实现本地化检索 https://github.com/tantaraio/voy

相关讨论 https://sharegpt.com/c/WS5LsIv

arvinxx · 2023-12-29T05:05:40Z

arvinxx
Dec 29, 2023
Maintainer Author

本地化知识库讨论

https://sharegpt.com/c/2n8D2hD

0 replies

arvinxx · 2024-01-12T12:15:24Z

arvinxx
Jan 12, 2024
Maintainer Author

技术调研报告：构建本地化知识库

摘要

本报告讨论了在浏览器环境中构建本地化知识库的技术选型和设计思路，旨在实现一个能与文件进行对话的能力。此过程包括文件的读取、存储、解析，以及将文本信息向量化以支持后续的大模型会话功能。

1. 文件读取与存储

技术选型

File API: 用于在浏览器中读取用户选择的文件。
IndexedDB: 用于持久化存储文件内容和向量化数据。

设计思路

文件读取采用 File API，它允许应用读取用户选择的文件内容。对于存储，将文件内容存储到 IndexedDB 中，便于后续的检索和向量化处理。

优缺点

优点: File API 和 IndexedDB 均为成熟的浏览器技术，支持大量数据存储。
缺点: IndexedDB 的 API 较为复杂，需要合理设计数据模型以支持高效检索。

2. 文件解析

技术选型

文本和代码文件: 直接使用 FileReader API 或 Blob.text() 方法读取。
富媒体文件: 使用专门的库进行解析，如 PDF.js、mammoth.js（DOCX）、JSZip（ZIP）。

设计思路

使用特定的前端库来解析不同类型的文件内容，并考虑使用 Web Workers 来避免主线程的阻塞，特别是对于较大的文件。

优缺点

优点: 提供了一种处理不同文件类型的统一方法。
缺点: 需要确保所选库支持 Web Workers 环境，并且能够高效处理大型文件。

3. 文本向量化与存储

技术选型

IndexedDB: 作为主要的存储向量化文本信息的数据库。
向量数据库: 考虑使用如 Vector-Storage、Vectra 和 Vexvault 等浏览器内可用的向量数据库。

设计思路

创建一个独立的 IndexedDB 表来存储文本的向量化数据。由于不需要频繁访问原始文本，分离的表结构可以专门针对向量数据进行优化。

优缺点

优点: 分离的表结构便于专门针对向量数据进行优化，便于未来的扩展。
缺点: 需要额外管理一个表并保持数据一致性。

4. 最终方案和选择原因

最终方案选择使用 File API 读取文件、IndexedDB 存储文件内容，并采用独立的表结构来存储文本的向量化数据。选择这个方案的原因是它提供足够的灵活性和性能优化空间，特别是在实现 RAG 大模型会话时，向量化数据的高效检索至关重要。

由于目前缺乏成熟且广泛支持的浏览器内向量数据库解决方案，使用 IndexedDB 加上自定义查询逻辑是一个可行的起点。随着应用的发展和性能需求的提升，可以考虑引入 WebAssembly 或服务工作者（Service Workers）来实现更高级的向量搜索功能。

1 reply

arvinxx Jan 12, 2024
Maintainer Author

会话记录：https://shareg.pt/xhjRISe

nanayashiki1215 · 2024-01-26T06:56:29Z

nanayashiki1215
Jan 26, 2024

我是来自chatchat项目组的成员，我们是做开源、可离线部署的本地检索增强生成(RAG)大模型知识库项目。看是否有意与我们合作接入本地知识库方案，我们可以提供api接口，我们的项目地址：https://github.com/chatchat-space/Langchain-Chatchat

1 reply

arvinxx Jan 26, 2024
Maintainer Author

可以讨论交流下， Discord 聊吧~

arvinxx · 2024-10-27T09:35:07Z

arvinxx
Oct 27, 2024
Maintainer Author

已经发布

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

[Idea] 知识库 #863

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 4 comments 2 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

Uh oh!

[Idea] 知识库 #863

Uh oh!

Uh oh!

arvinxx Dec 29, 2023 Maintainer

背景

Replies: 4 comments · 2 replies

Uh oh!

arvinxx Dec 29, 2023 Maintainer Author

Uh oh!

Uh oh!

arvinxx Jan 12, 2024 Maintainer Author

技术调研报告：构建本地化知识库

摘要

1. 文件读取与存储

技术选型

设计思路

优缺点

2. 文件解析

技术选型

设计思路

优缺点

3. 文本向量化与存储

技术选型

设计思路

优缺点

4. 最终方案和选择原因

Uh oh!

arvinxx Jan 12, 2024 Maintainer Author

Uh oh!

nanayashiki1215 Jan 26, 2024

Uh oh!

arvinxx Jan 26, 2024 Maintainer Author

Uh oh!

arvinxx Oct 27, 2024 Maintainer Author

arvinxx
Dec 29, 2023
Maintainer

Replies: 4 comments 2 replies

arvinxx
Dec 29, 2023
Maintainer Author

arvinxx
Jan 12, 2024
Maintainer Author

arvinxx Jan 12, 2024
Maintainer Author

nanayashiki1215
Jan 26, 2024

arvinxx Jan 26, 2024
Maintainer Author

arvinxx
Oct 27, 2024
Maintainer Author