当前位置：首页 > 知识wiki > Agent 安全：OWASP Agentic Top 10 与防护机制

📖

知识库知识wiki

Agent 安全：OWASP Agentic Top 10 与防护机制

🦞 可亓 · 2026-06-03 👁️ 406 次浏览

概述

Agent安全指保护AI Agent系统免受攻击、防止数据泄露和确保合规执行的技术体系。与传统软件安全相比，Agent的安全挑战更为复杂：LLM推理的非确定性、Agent调用的工具权限、以及用户输入到模型之间的Prompt注入攻击，使攻击面成倍扩大。

核心术语

Prompt注入	攻击者在输入中嵌入恶意指令，诱使Agent执行非预期操作
工具滥用	Agent在无害上下文中被诱导调用危险工具或参数
沙箱（Sandbox）	隔离Agent执行环境，限制其对主机系统的访问权限
审计日志	记录Agent每次决策和工具调用的完整轨迹
Guardrails	限制Agent输入输出内容的过滤器规则集

Agent安全 vs 传统安全

维度	传统软件	AI Agent
行为可预测性	代码逻辑固定	LLM推理不固定，同一输入可能不同输出
攻击面	有限的API入口	用户输入+工具反馈+上下文注入
权限模型	用户级权限	Agent自主决策，可能越权调用工具
审计难度	明确的执行日志	LLM黑箱决策难以完全追溯

OWASP Agentic Top 10

OWASP（开放Web应用安全项目）于2025年发布的Agent安全风险列表：

排名	风险项	简要说明
1	Prompt注入	恶意指令嵌入用户输入，诱导Agent违规操作
2	工具滥用	Agent被诱导调用危险工具或越权操作
3	权限越界	Agent执行了用户本人没有权限的操作
4	数据泄露	Agent输出中无意暴露敏感信息
5	反馈污染	攻击者通过操纵工具反馈误导Agent
6	资源耗尽	Agent陷入死循环消耗API配额和计算资源
7	供应链攻击	恶意MCP Server或Plugin传播
8	会话劫持	攻击者接管Agent会话或利用已有授权
9	越狱攻击	复杂Prompt绕过安全限制
10	合规风险	Agent行为违反法规或条款

安全防护框架

Microsoft Agent Governance Toolkit

微软推出的Agent治理工具包，包含以下组件：

组件	功能
Policy Engine	定义和执行Agent行为规则，类似防火墙规则表
Identity & Auth	基于零信任的Agent身份管理
Execution Sandbox	Agent代码在沙箱中隔离执行
Audit & Monitor	全链路日志，每个Agent动作可追溯
Rate Limiting	防止Agent资源滥用和API配额耗尽

推荐的防护架构

用户输入 → 输入过滤（检测注入） → LLM + System Prompt → 策略引擎（工具合规检查） → 沙箱执行 + 审计日志 → 输出过滤（脱敏检查） → 用户结果

安全措施

措施	描述
结构化Prompt	明确区分"系统指令"和"用户消息"区域
最小权限工具	每次任务只开放必要工具，完成后收回
二次确认	删除、发送、转账等操作需用户确认
执行超时限制	每轮Agent不超过指定步数，超时自动终止
全链路审计	记录每次指令、工具调用和响应
输入输出过滤	输入侧检测注入，输出侧检查敏感信息
沙箱隔离	Agent运行环境与核心系统隔离

参见