Skip to content

Commit f411478

Browse files
authored
Update 10、Key Technologies.mdx
1 parent a15cc6d commit f411478

File tree

1 file changed

+12
-11
lines changed

1 file changed

+12
-11
lines changed

docs/pages/10、Key Technologies.mdx

Lines changed: 12 additions & 11 deletions
Original file line numberDiff line numberDiff line change
@@ -72,10 +72,11 @@ RAG (Retrieval-Augmented Generation)技术是提升智能体知识准确性
7272
“人在回路”(Human-on-the-loop, HoTL)机制是确保企业智能体在关键业务场景中的可靠性、安全性与合规性的必要手段。现有大模型和智能体在处理复杂、高风险或涉及伦理判断的任务时存在局限性,通过将人类专家的判断和监督嵌入到智能体的决策和执行流程中,实现人机协同工作。
7373

7474
表格 2 :人在回路的关键应用场景与机制
75+
| 机制类别 | 关键应用场景 | 机制描述 | 技术实现要点 |
76+
|------------|----------|----------------|------------|
77+
| 高风险操作确认| 涉及敏感数据修改、财务交易、核心系统配置变更等不可逆或高成本操作。| 智能体在生成或确定执行高风险动作(如调用删除数据的API、发送关键邮件)前,暂停执行,并向人类专家发出通知和待执行的动作清单。只有在收到人类专家的明确指令或审批后,智能体才能继续执行。 | 智能体状态管理: 需具备任务挂起、通知触发、超时处理和恢复执行能力。集成审批流: 与企业内部的工单系统或审批流程(如OA系统)集成。 |
78+
| 模糊或低置信度任务| LLM对用户意图或任务分解的置信度低于预设阈值;生成的内容涉及复杂的专业判断、伦理道德或法律合规性。 | **结果校验与干预**: 智能体将自身生成的中间结果或最终答案,提交给人类专家进行**事实核查、专业审查或风格修正**。这有助于减少“幻觉”和潜在的合规风险。 | 置信度评估模块: 结合LLM的输出概率、领域知识匹配度等指标,评估任务执行的风险等级。 |
7579

76-
机制类别 关键应用场景 机制描述 技术实现要点
77-
高风险操作确认 涉及敏感数据修改、财务交易、核心系统配置变更等不可逆或高成本操作。 前置审批与验证: 智能体在生成或确定执行高风险动作(如调用删除数据的API、发送关键邮件)前,暂停执行,并向人类专家发出通知和待执行的动作清单。只有在收到人类专家的明确指令或审批后,智能体才能继续执行。 智能体状态管理: 需具备任务挂起、通知触发、超时处理和恢复执行能力。集成审批流: 与企业内部的工单系统或审批流程(如OA系统)集成。
78-
模糊或低置信度任务 LLM对用户意图或任务分解的置信度低于预设阈值;生成的内容涉及复杂的专业判断、伦理道德或法律合规性。 结果校验与干预: 智能体将自身生成的中间结果或最终答案,提交给人类专家进行事实核查、专业审查或风格修正。这有助于减少“幻觉”和潜在的合规风险。 置信度评估模块: 结合LLM的输出概率、领域知识匹配度等指标,评估任务执行的风险等级。
7980

8081
人在回路的价值
8182
- **提升可靠性**: 确保在关键业务流程中,智能体不会因模型错误或偏见导致灾难性后果。
@@ -85,14 +86,14 @@ RAG (Retrieval-Augmented Generation)技术是提升智能体知识准确性
8586
智能体作为高度集成的 AI 应用,其安全风险是企业建设中不可忽视的核心环节。风险管控应贯穿智能体设计的全生命周期,涵盖 LLM 本身的安全、智能体与外部系统的交互安全以及数据隐私保护。
8687

8788
表格 3 :核心安全风险与管控措施
88-
89-
风险类别 风险描述 管控措施
90-
模型内容安全 幻觉(Hallucination): LLM生成虚假、不准确或带有偏见的内容,影响结果和决策。 RAG技术增强: 强制LLM优先引用可信的外部知识库信息。内容过滤: 在输出层进行二次校验和敏感词过滤。事实核查: 引入可信数据源进行事实比对。
91-
提示词注入攻击 (Prompt Injection): 恶意用户通过巧妙构造的输入,绕过系统预设的指令,迫使智能体执行非预期行为或泄露系统信息。 系统提示词隔离: 严格分离系统指令与用户输入。输入校验与过滤: 对用户输入进行安全检查,识别并中和攻击性提示。特权限制: 限制智能体在无特殊认证下的操作权限。
92-
数据安全与隐私 训练数据泄露: LLM 在训练或微调过程中,记忆并泄露敏感的内部数据。 数据脱敏/匿名化: 对训练和微调数据进行严格的隐私处理。差分隐私技术: 在模型训练中引入噪声,防止个体数据被模型“记住”。本地化部署: 将 LLM 部署在私有环境中,严格控制数据流出。
93-
敏感数据访问与泄露: 智能体通过 RAG 或工具调用,非法访问或在输出中暴露敏感信息。 权限最小化原则: 智能体及工具的访问权限应仅限于完成任务所需。数据护栏 (Data Guardrails): 建立严格的数据访问和输出安全策略,实时监控和阻断对敏感数据的非授权访问和输出。
94-
工具调用安全 恶意工具调用: LLM在推理过程中误判或被诱导,调用外部恶意API或执行高风险操作(如删除、修改核心数据)。 工具白名单与验证: 仅允许调用经过安全审计和白名单认证的工具。操作确认机制: 对于涉及修改或删除等高风险操作,引入人在回路 (Human-on-the-loop) 机制进行二次确认。API参数校验: 严格限制和校验传递给工具的参数。
95-
合规性与可解释性 智能体的决策过程不透明,难以满足行业监管的合规性要求。 可解释性 (XAI) 机制: 记录LLM的推理路径(如思考链Chain-of-Thought、工具调用记录),确保决策过程可追溯、可审计。日志审计: 记录所有关键交互、工具调用和数据访问行为。
89+
| 风险类别 | 风险描述 | 管控措施 |
90+
|----------|----------|----------------|
91+
|模型内容安全|幻觉(Hallucination): LLM生成虚假、不准确或带有偏见的内容,影响结果和决策。| **RAG技术增强**: 强制LLM优先引用可信的外部知识库信息。**内容过滤**: 在输出层进行二次校验和敏感词过滤。**事实核查**: 引入可信数据源进行事实比对。 |
92+
|模型内容安全| 提示词注入攻击 (Prompt Injection): 恶意用户通过巧妙构造的输入,绕过系统预设的指令,迫使智能体执行非预期行为或泄露系统信息。| **系统提示词隔离**: 严格分离系统指令与用户输入。**输入校验与过滤**: 对用户输入进行安全检查,识别并中和攻击性提示。**特权限制**: 限制智能体在无特殊认证下的操作权限。|
93+
|数据安全与隐私| 训练数据泄露: LLM 在训练或微调过程中,记忆并泄露敏感的内部数据。| **数据脱敏/匿名化**: 对训练和微调数据进行严格的隐私处理。**差分隐私技术**: 在模型训练中引入噪声,防止个体数据被模型“记住”。**本地化部署**: 将 LLM 部署在私有环境中,严格控制数据流出。|
94+
|数据安全与隐私| LLM对用户意图或任务分解的置信度低于预设阈值;生成的内容涉及复杂的专业判断、伦理道德或法律合规性。 | **权限最小化原则**: 智能体及工具的访问权限应仅限于完成任务所需。**数据护栏 (Data Guardrails)**: 建立严格的数据访问和输出安全策略,实时监控和阻断对敏感数据的非授权访问和输出。|
95+
|工具调用安全|敏感数据访问与泄露: 智能体通过 RAG 或工具调用,非法访问或在输出中暴露敏感信息。| **工具白名单与验证**: 仅允许调用经过安全审计和白名单认证的工具。**操作确认机制**: 对于涉及修改或删除等高风险操作,引入人在回路 (Human-on-the-loop) 机制进行二次确认。**API参数校验**: 严格限制和校验传递给工具的参数。|
96+
|合规性与可解释性|智能体的决策过程不透明,难以满足行业监管的合规性要求。| **可解释性 (XAI) 机制**: 记录LLM的推理路径(如思考链Chain-of-Thought、工具调用记录),确保决策过程可追溯、可审计。**日志审计**: 记录所有关键交互、工具调用和数据访问行为。|
9697

9798
总之,企业需要建立持续的风险监测和应急响应机制,对智能体进行定期的安全评估和渗透测试,以应对不断变化的安全威胁。
9899

0 commit comments

Comments
 (0)