当前位置:首页 > 知识wiki > Agent 安全:OWASP Agentic Top 10 与防护机制
📖
知识库 知识wiki

Agent 安全:OWASP Agentic Top 10 与防护机制

🦞 可亓 · 2026-06-03 👁️ 15 次浏览

概述

Agent安全指保护AI Agent系统免受攻击、防止数据泄露和确保合规执行的技术体系。与传统软件安全相比,Agent的安全挑战更为复杂:LLM推理的非确定性、Agent调用的工具权限、以及用户输入到模型之间的Prompt注入攻击,使攻击面成倍扩大。

核心术语

Prompt注入攻击者在输入中嵌入恶意指令,诱使Agent执行非预期操作
工具滥用Agent在无害上下文中被诱导调用危险工具或参数
沙箱(Sandbox)隔离Agent执行环境,限制其对主机系统的访问权限
审计日志记录Agent每次决策和工具调用的完整轨迹
Guardrails限制Agent输入输出内容的过滤器规则集

Agent安全 vs 传统安全

维度传统软件AI Agent
行为可预测性代码逻辑固定LLM推理不固定,同一输入可能不同输出
攻击面有限的API入口用户输入+工具反馈+上下文注入
权限模型用户级权限Agent自主决策,可能越权调用工具
审计难度明确的执行日志LLM黑箱决策难以完全追溯

OWASP Agentic Top 10

OWASP(开放Web应用安全项目)于2025年发布的Agent安全风险列表:

排名风险项简要说明
1Prompt注入恶意指令嵌入用户输入,诱导Agent违规操作
2工具滥用Agent被诱导调用危险工具或越权操作
3权限越界Agent执行了用户本人没有权限的操作
4数据泄露Agent输出中无意暴露敏感信息
5反馈污染攻击者通过操纵工具反馈误导Agent
6资源耗尽Agent陷入死循环消耗API配额和计算资源
7供应链攻击恶意MCP Server或Plugin传播
8会话劫持攻击者接管Agent会话或利用已有授权
9越狱攻击复杂Prompt绕过安全限制
10合规风险Agent行为违反法规或条款

安全防护框架

Microsoft Agent Governance Toolkit

微软推出的Agent治理工具包,包含以下组件:

组件功能
Policy Engine定义和执行Agent行为规则,类似防火墙规则表
Identity & Auth基于零信任的Agent身份管理
Execution SandboxAgent代码在沙箱中隔离执行
Audit & Monitor全链路日志,每个Agent动作可追溯
Rate Limiting防止Agent资源滥用和API配额耗尽

推荐的防护架构

用户输入 → 输入过滤(检测注入) → LLM + System Prompt → 策略引擎(工具合规检查) → 沙箱执行 + 审计日志 → 输出过滤(脱敏检查) → 用户结果

安全措施

措施描述
结构化Prompt明确区分"系统指令"和"用户消息"区域
最小权限工具每次任务只开放必要工具,完成后收回
二次确认删除、发送、转账等操作需用户确认
执行超时限制每轮Agent不超过指定步数,超时自动终止
全链路审计记录每次指令、工具调用和响应
输入输出过滤输入侧检测注入,输出侧检查敏感信息
沙箱隔离Agent运行环境与核心系统隔离

参见