Skip to content

Latest commit

 

History

History
76 lines (54 loc) · 5.53 KB

File metadata and controls

76 lines (54 loc) · 5.53 KB

Function calling MCP SKILL 的异同

Function calling

在语言模型的解码阶段,受工具 schema 约束生成结构化 JSON 输出,这是大模型的能力;简单来说就是用自然语言和llm沟通,llm给你范围 function的以及arguments

核心问题:让LLM能够稳定地输出结构化的工具调用请求,实现了"非结构化→结构化"的转换是 mcp 和 skill 能够存在的基础;

MCP

是一种协议:负责 llm 与外部系统数据进行交流;主要分两部分:rpc 与 function注册 如果单纯的使用function call,也可以实现和外部通讯,但是原有系统太过庞大,需要一个批量注册的功能 mcp有个缺点:如果有一个复杂任务,大模型不能很好的编排多个 mcp-tool

SKILL

允许用户更细致的用文字定义指令、脚本和资源 skill产生的原因:解决mcp不能很好编排tool的缺点:提供一个方式,让用户可以用文字定义指令、脚本和资源,形成可复用的任务流程 skill最大的优点:Agent将决策权完全下放给了 Agent 和 Prompt,能够解决原有写程序不能解决的问题——比如处理不确定性、动态调整策略、理解自然语言意图等

skill的缺点:

  1. Skills 的需求描述部分不够结构化;仅仅通过 description 来描述,当任务复杂度增加时,纯文本描述的不确定性会放大,模型可能误解需求,或者遗漏关键信息
  2. Agent 无法与既有的系统接驳,当现有系统功能复杂:比如有多步骤表单,实时数据,ui交互时,使用对话框交互的方式会比较困难

为什么会有以上这些技术的出现:历史上其他系统(数据库、API、文件系统等)只能处理结构化信息,而LLM擅长处理非结构化信息(文本)。 因此,LLM必须想办法在两种信息形式之间架起桥梁:将非结构化的用户需求转换为结构化的函数调用,这样才能与外部系统交互

Agent构建

llm缺点

  1. 调用幻觉: 模型会虚构不存在的商品ID,或在无需调用工具时强行触发
  2. 内容幻觉: 模型会过拟合训练数据中的特定内容,脱离实际知识库,凭空生成答案。

解决方案:放弃多Agent划分,将所有能力沉淀为一系列原子化的工具(Tools),由一个统一的大模型(One-Model)根据上下文进行动态决策和调用

为什么:

  1. 误差级联:多 Agent 是串行决策链,后续 Agent 会基于错误前提继续推理
  2. 多 Agent 系统通常:共享对话上下文,共享 memory,通过自然语言传递中间结果; 如果没有强 schema 约束,后续 Agent 很容易: 使用错误 ID,误读字段,生成不存在参数;这就是“调用幻觉”的典型来源
  3. 多agent 增加了 多个 prompt 风格差异,多个系统指令,多个 tool schema 注入点;模型更容易在决策边界出现偏移
  4. 决策空间越大 -> 错误率越高

One-Model + 原子化 Tools 为什么更优 核心思想: 不再分“智能体”,只分“能力”

  1. 减少中间决策节点。决策次数减少 → 错误率指数下降
  2. 所谓“能力沉淀为原子化工具”,意味着:每个工具做一件极窄的事;参数 schema 严格;不允许语义歧义
  3. 多 Agent 的一个隐形问题是:每个 Agent 都有不同 system prompt。LLM 是概率模型:不同 prompt → 分布不同

以上本质是:减少llm的决策空间

用于降低模型幻觉的方式:(微调) 编写了严格的规则,对模型生成的工具调用语法、参数格式进行校验。例如,如果模型幻觉出商品卡片但并未调用search_db工具(搜索商品的工具),就会得到一个极低的格式分。通过这种方式,模型很快就学会了遵守工具调用的“语法纪律”

回答优化: 目标: 在格式正确的基础上,教会模型生成内容更优质、语义更准确、更具吸引力的回复。 方法: 我们引入了一个轻量级的、4B参数的LLM-as-Judge作为“裁判”。它会综合上下文、人工标准答案以及模型回复,从准确性、完整性、生动性等多个维度进行综合评估,并给出一个0-1之间的奖励分数

记忆系统

会话级记忆

用户和智能体 Agent 在一个会话中的多轮交互(user-query & response)

跨会话级记忆

从用户和智能体 Agent 的多个会话中抽取的通用信息,可以跨会话辅助 Agent 推理

长期记忆的信息从短期记忆中抽取提炼而来,根据短期记忆中的信息实时地更新迭代,而其信息又会参与到短期记忆中辅助模型进行个性化推理

长期记忆与短期记忆形成双向交互:一方面,长期记忆从短期记忆中提取“事实”、“偏好”、“经验”等有效信息进行存储(Record);另一方面,长期记忆中的信息会被检索并注入到短期记忆中,辅助模型进行个性化推理(Retrieve)

使用workflow 和 使用大模型的区别

agent:自然语言即可完成所有业务逻辑 Workflow: 固定路径流转,条件判断有限,无法动态调整策略,复杂流程维护困难

Multi Agent架构: Routing(路由模式):主智能体仅负责任务分发,子智能体直接返回结果,主智能体不参与后续处理 Handoffs(交接模式):当前智能体完成部分任务后,主动将控制权交至下一个智能体,下一级通常将结果逐级返回 Planning(规划模式):主智能体先生成完整行动计划,再调度执行,并通常负责最终汇总与总结