cheat-sheets/src/AI/LLM/models.md at master · lcp0578/cheat-sheets

模型分类

模型类型	核心作用	在RAG流程中的位置	相关模型	管理平台
LLM模型（对话模型）	理解用户意图，基于检索到的信息生成最终答案，是整个系统与用户交互的“大脑”。	生成：位于流程末端，接收用户问题与检索到的上下文，进行总结、推理和生成。	DeepSeek-R1-7B (INT4)、DeepSeek-R1-14B (INT4)、Qwen2.5-7B (INT4)、Qwen2.5-14B (INT4)	Ollama
嵌入模型（Embedding 模型）	将文本、图像等内容转换为计算机能理解的数值向量，用于语义相似度计算。	索引与检索：在知识入库时将文档转为向量存储；在检索时将用户问题转为向量，以便在向量数据库中查找最相似的文档片段。	BAAI/bge-m3	Ollama
重排序模型（ReRank 模型）	对检索出的初步结果进行重新评估和排序，将最相关的内容排在前面，提升最终答案的精准度。	检索后处理：位于初步检索之后、LLM生成之前，对检索结果进行精炼。	BAAI/bge-reranker-v2-m3	Xorbits Inference (Xinference)
多模态模型（VLLM 视觉模型）	理解和处理包含图像、图表、公式等多元素材的文档，实现图文混排内容的语义检索。	文档处理与检索：在文档解析时识别图片内容，在检索时能根据文本描述找到相关图片，或根据图片内容找到相关文本描述。	Qwen2.5-VL-7B (INT4)	Ollama