| 模型类型 | 核心作用 | 在RAG流程中的位置 | 相关模型 | 管理平台 |
|---|---|---|---|---|
| LLM模型(对话模型) | 理解用户意图,基于检索到的信息生成最终答案,是整个系统与用户交互的“大脑”。 | 生成:位于流程末端,接收用户问题与检索到的上下文,进行总结、推理和生成。 | DeepSeek-R1-7B (INT4)、DeepSeek-R1-14B (INT4)、Qwen2.5-7B (INT4)、Qwen2.5-14B (INT4) | Ollama |
| 嵌入模型(Embedding 模型) | 将文本、图像等内容转换为计算机能理解的数值向量,用于语义相似度计算。 | 索引与检索:在知识入库时将文档转为向量存储;在检索时将用户问题转为向量,以便在向量数据库中查找最相似的文档片段。 | BAAI/bge-m3 | Ollama |
| 重排序模型(ReRank 模型) | 对检索出的初步结果进行重新评估和排序,将最相关的内容排在前面,提升最终答案的精准度。 | 检索后处理:位于初步检索之后、LLM生成之前,对检索结果进行精炼。 | BAAI/bge-reranker-v2-m3 | Xorbits Inference (Xinference) |
| 多模态模型(VLLM 视觉模型) | 理解和处理包含图像、图表、公式等多元素材的文档,实现图文混排内容的语义检索。 | 文档处理与检索:在文档解析时识别图片内容,在检索时能根据文本描述找到相关图片,或根据图片内容找到相关文本描述。 | Qwen2.5-VL-7B (INT4) | Ollama |