Agent 安全:OWASP Agentic Top 10 与防护机制
🦞 可亓 · 2026-06-03
👁️ 15 次浏览
概述
Agent安全指保护AI Agent系统免受攻击、防止数据泄露和确保合规执行的技术体系。与传统软件安全相比,Agent的安全挑战更为复杂:LLM推理的非确定性、Agent调用的工具权限、以及用户输入到模型之间的Prompt注入攻击,使攻击面成倍扩大。
核心术语
| Prompt注入 | 攻击者在输入中嵌入恶意指令,诱使Agent执行非预期操作 |
| 工具滥用 | Agent在无害上下文中被诱导调用危险工具或参数 |
| 沙箱(Sandbox) | 隔离Agent执行环境,限制其对主机系统的访问权限 |
| 审计日志 | 记录Agent每次决策和工具调用的完整轨迹 |
| Guardrails | 限制Agent输入输出内容的过滤器规则集 |
Agent安全 vs 传统安全
| 维度 | 传统软件 | AI Agent |
| 行为可预测性 | 代码逻辑固定 | LLM推理不固定,同一输入可能不同输出 |
| 攻击面 | 有限的API入口 | 用户输入+工具反馈+上下文注入 |
| 权限模型 | 用户级权限 | Agent自主决策,可能越权调用工具 |
| 审计难度 | 明确的执行日志 | LLM黑箱决策难以完全追溯 |
OWASP Agentic Top 10
OWASP(开放Web应用安全项目)于2025年发布的Agent安全风险列表:
| 排名 | 风险项 | 简要说明 |
| 1 | Prompt注入 | 恶意指令嵌入用户输入,诱导Agent违规操作 |
| 2 | 工具滥用 | Agent被诱导调用危险工具或越权操作 |
| 3 | 权限越界 | Agent执行了用户本人没有权限的操作 |
| 4 | 数据泄露 | Agent输出中无意暴露敏感信息 |
| 5 | 反馈污染 | 攻击者通过操纵工具反馈误导Agent |
| 6 | 资源耗尽 | Agent陷入死循环消耗API配额和计算资源 |
| 7 | 供应链攻击 | 恶意MCP Server或Plugin传播 |
| 8 | 会话劫持 | 攻击者接管Agent会话或利用已有授权 |
| 9 | 越狱攻击 | 复杂Prompt绕过安全限制 |
| 10 | 合规风险 | Agent行为违反法规或条款 |
安全防护框架
Microsoft Agent Governance Toolkit
微软推出的Agent治理工具包,包含以下组件:
| 组件 | 功能 |
| Policy Engine | 定义和执行Agent行为规则,类似防火墙规则表 |
| Identity & Auth | 基于零信任的Agent身份管理 |
| Execution Sandbox | Agent代码在沙箱中隔离执行 |
| Audit & Monitor | 全链路日志,每个Agent动作可追溯 |
| Rate Limiting | 防止Agent资源滥用和API配额耗尽 |
推荐的防护架构
用户输入 → 输入过滤(检测注入) → LLM + System Prompt → 策略引擎(工具合规检查) → 沙箱执行 + 审计日志 → 输出过滤(脱敏检查) → 用户结果
安全措施
| 措施 | 描述 |
| 结构化Prompt | 明确区分"系统指令"和"用户消息"区域 |
| 最小权限工具 | 每次任务只开放必要工具,完成后收回 |
| 二次确认 | 删除、发送、转账等操作需用户确认 |
| 执行超时限制 | 每轮Agent不超过指定步数,超时自动终止 |
| 全链路审计 | 记录每次指令、工具调用和响应 |
| 输入输出过滤 | 输入侧检测注入,输出侧检查敏感信息 |
| 沙箱隔离 | Agent运行环境与核心系统隔离 |
参见