@@ -72,10 +72,11 @@ RAG (Retrieval-Augmented Generation)技术是提升智能体知识准确性
7272“人在回路”(Human-on-the-loop, HoTL)机制是确保企业智能体在关键业务场景中的可靠性、安全性与合规性的必要手段。现有大模型和智能体在处理复杂、高风险或涉及伦理判断的任务时存在局限性,通过将人类专家的判断和监督嵌入到智能体的决策和执行流程中,实现人机协同工作。
7373
7474表格 2 :人在回路的关键应用场景与机制
75+ | 机制类别 | 关键应用场景 | 机制描述 | 技术实现要点 |
76+ | ------------| ----------| ----------------| ------------|
77+ | 高风险操作确认| 涉及敏感数据修改、财务交易、核心系统配置变更等不可逆或高成本操作。| 智能体在生成或确定执行高风险动作(如调用删除数据的API、发送关键邮件)前,暂停执行,并向人类专家发出通知和待执行的动作清单。只有在收到人类专家的明确指令或审批后,智能体才能继续执行。 | 智能体状态管理: 需具备任务挂起、通知触发、超时处理和恢复执行能力。集成审批流: 与企业内部的工单系统或审批流程(如OA系统)集成。 |
78+ | 模糊或低置信度任务| LLM对用户意图或任务分解的置信度低于预设阈值;生成的内容涉及复杂的专业判断、伦理道德或法律合规性。 | ** 结果校验与干预** : 智能体将自身生成的中间结果或最终答案,提交给人类专家进行** 事实核查、专业审查或风格修正** 。这有助于减少“幻觉”和潜在的合规风险。 | 置信度评估模块: 结合LLM的输出概率、领域知识匹配度等指标,评估任务执行的风险等级。 |
7579
76- 机制类别 关键应用场景 机制描述 技术实现要点
77- 高风险操作确认 涉及敏感数据修改、财务交易、核心系统配置变更等不可逆或高成本操作。 前置审批与验证: 智能体在生成或确定执行高风险动作(如调用删除数据的API、发送关键邮件)前,暂停执行,并向人类专家发出通知和待执行的动作清单。只有在收到人类专家的明确指令或审批后,智能体才能继续执行。 智能体状态管理: 需具备任务挂起、通知触发、超时处理和恢复执行能力。集成审批流: 与企业内部的工单系统或审批流程(如OA系统)集成。
78- 模糊或低置信度任务 LLM对用户意图或任务分解的置信度低于预设阈值;生成的内容涉及复杂的专业判断、伦理道德或法律合规性。 结果校验与干预: 智能体将自身生成的中间结果或最终答案,提交给人类专家进行事实核查、专业审查或风格修正。这有助于减少“幻觉”和潜在的合规风险。 置信度评估模块: 结合LLM的输出概率、领域知识匹配度等指标,评估任务执行的风险等级。
7980
8081人在回路的价值
8182- ** 提升可靠性** : 确保在关键业务流程中,智能体不会因模型错误或偏见导致灾难性后果。
@@ -85,14 +86,14 @@ RAG (Retrieval-Augmented Generation)技术是提升智能体知识准确性
8586智能体作为高度集成的 AI 应用,其安全风险是企业建设中不可忽视的核心环节。风险管控应贯穿智能体设计的全生命周期,涵盖 LLM 本身的安全、智能体与外部系统的交互安全以及数据隐私保护。
8687
8788表格 3 :核心安全风险与管控措施
88-
89- 风险类别 风险描述 管控措施
90- 模型内容安全 幻觉(Hallucination): LLM生成虚假、不准确或带有偏见的内容,影响结果和决策。 RAG技术增强: 强制LLM优先引用可信的外部知识库信息。内容过滤: 在输出层进行二次校验和敏感词过滤。事实核查: 引入可信数据源进行事实比对。
91- 提示词注入攻击 (Prompt Injection): 恶意用户通过巧妙构造的输入,绕过系统预设的指令,迫使智能体执行非预期行为或泄露系统信息。 系统提示词隔离: 严格分离系统指令与用户输入。输入校验与过滤: 对用户输入进行安全检查,识别并中和攻击性提示。特权限制: 限制智能体在无特殊认证下的操作权限。
92- 数据安全与隐私 训练数据泄露: LLM 在训练或微调过程中,记忆并泄露敏感的内部数据。 数据脱敏/匿名化: 对训练和微调数据进行严格的隐私处理。差分隐私技术: 在模型训练中引入噪声,防止个体数据被模型“记住”。本地化部署: 将 LLM 部署在私有环境中,严格控制数据流出。
93- 敏感数据访问与泄露: 智能体通过 RAG 或工具调用,非法访问或在输出中暴露敏感信息。 权限最小化原则: 智能体及工具的访问权限应仅限于完成任务所需。数据护栏 (Data Guardrails): 建立严格的数据访问和输出安全策略,实时监控和阻断对敏感数据的非授权访问和输出。
94- 工具调用安全 恶意工具调用: LLM在推理过程中误判或被诱导,调用外部恶意API或执行高风险操作(如删除、修改核心数据)。 工具白名单与验证: 仅允许调用经过安全审计和白名单认证的工具。操作确认机制: 对于涉及修改或删除等高风险操作,引入人在回路 (Human-on-the-loop) 机制进行二次确认。API参数校验: 严格限制和校验传递给工具的参数。
95- 合规性与可解释性 智能体的决策过程不透明,难以满足行业监管的合规性要求。 可解释性 (XAI) 机制: 记录LLM的推理路径(如思考链Chain-of-Thought、工具调用记录),确保决策过程可追溯、可审计。日志审计: 记录所有关键交互、工具调用和数据访问行为。
89+ | 风险类别 | 风险描述 | 管控措施 |
90+ | ---------- | ---------- | ---------------- |
91+ | 模型内容安全| 幻觉(Hallucination): LLM生成虚假、不准确或带有偏见的内容,影响结果和决策。| ** RAG技术增强** : 强制LLM优先引用可信的外部知识库信息。** 内容过滤** : 在输出层进行二次校验和敏感词过滤。** 事实核查** : 引入可信数据源进行事实比对。 |
92+ | 模型内容安全 | 提示词注入攻击 (Prompt Injection): 恶意用户通过巧妙构造的输入,绕过系统预设的指令,迫使智能体执行非预期行为或泄露系统信息。| ** 系统提示词隔离** : 严格分离系统指令与用户输入。** 输入校验与过滤** : 对用户输入进行安全检查,识别并中和攻击性提示。** 特权限制** : 限制智能体在无特殊认证下的操作权限。|
93+ | 数据安全与隐私| 训练数据泄露: LLM 在训练或微调过程中,记忆并泄露敏感的内部数据。| ** 数据脱敏/匿名化** : 对训练和微调数据进行严格的隐私处理。** 差分隐私技术** : 在模型训练中引入噪声,防止个体数据被模型“记住”。** 本地化部署** : 将 LLM 部署在私有环境中,严格控制数据流出。|
94+ | 数据安全与隐私 | LLM对用户意图或任务分解的置信度低于预设阈值;生成的内容涉及复杂的专业判断、伦理道德或法律合规性。 | ** 权限最小化原则** : 智能体及工具的访问权限应仅限于完成任务所需。** 数据护栏 (Data Guardrails)** : 建立严格的数据访问和输出安全策略,实时监控和阻断对敏感数据的非授权访问和输出。|
95+ | 工具调用安全| 敏感数据访问与泄露: 智能体通过 RAG 或工具调用,非法访问或在输出中暴露敏感信息。 | ** 工具白名单与验证** : 仅允许调用经过安全审计和白名单认证的工具。** 操作确认机制** : 对于涉及修改或删除等高风险操作,引入人在回路 (Human-on-the-loop) 机制进行二次确认。** API参数校验** : 严格限制和校验传递给工具的参数。|
96+ | 合规性与可解释性| 智能体的决策过程不透明,难以满足行业监管的合规性要求。| ** 可解释性 (XAI) 机制** : 记录LLM的推理路径(如思考链Chain-of-Thought、工具调用记录),确保决策过程可追溯、可审计。** 日志审计** : 记录所有关键交互、工具调用和数据访问行为。|
9697
9798总之,企业需要建立持续的风险监测和应急响应机制,对智能体进行定期的安全评估和渗透测试,以应对不断变化的安全威胁。
9899
0 commit comments