知识库
知识wiki
什么是AI Agent:定义、分类与核心能力
概述
AI Agent(人工智能代理)是指能够自主感知环境、制定决策并执行行动的智能程序实体。与传统程序按固定规则执行不同,Agent具备自主理解任务、分解问题、调用工具和反馈调整的能力。
AI Agent的核心特征由三个要素定义:自主性(独立运作不依赖人工)、反应性(感知环境变化并响应)、目标导向(围绕特定目标行动)。
核心术语
| Agent | 自主执行任务的AI程序,包含感知、推理、行动三个环节 |
| LLM | 大语言模型,Agent的"大脑",负责理解和生成自然语言 |
| Tool | Agent调用的外部功能(API、数据库、代码执行器等) |
| MCP | Model Context Protocol,Agent与工具间的标准化通信协议 |
| Skill | Agent的可复用能力模块,包含指令、工具和知识 |
| Memory | Agent的记忆系统,维护上下文、用户偏好和历史信息 |
发展简史
- 2022 — ChatGPT发布,让LLM通过对话与人类交互,Agent概念开始普及
- 2023 — AutoGPT、BabyAGI等项目出现,展示LLM自主执行任务的潜力
- 2024 — Anthropic发布MCP协议,统一Agent与工具通信标准;CrewAI、LangGraph等框架成熟
- 2025 — 多Agent协作、Agent治理、Agent安全成为行业焦点;OWASP发布Agentic Top 10安全指南
- 2026 — Agent从工具型向系统型演进,记忆系统和持续学习能力大幅提升
Agent的分类
按架构分
- 单Agent — 一个Agent独立完成所有任务。适合功能明确、流程固定的场景。
- 多Agent — 多个Agent分工协作,通过任务分派或对话交换信息。适合复杂任务。
- 层级Agent — 主Agent管理多个子Agent,子Agent负责具体子任务。常见于企业工作流。
按能力分
- 对话型Agent — 通过自然语言与用户交互,执行问答、策划、内容生成等任务
- 代码型Agent — 以代码生成为核心能力,可编辑文件、运行命令、管理项目
- 工具型Agent — 专注调用外部API和服务,如数据查询、文件操作、业务系统集成
- 自主型Agent — 可设定长期目标,持续执行、检查和迭代,无需人工介入
典型架构
当前主流Agent(以OpenClaw为代表)采用循环式架构:
用户输入 → 语义理解 → 任务规划 → 工具调用 → 结果整合 → 输出
↑ ↓
反馈学习 ← ← ← ← ← ← ← ← ← ←
各环节:
- 感知 — 接收并理解用户输入,识别意图
- 规划 — 将任务分解为可执行的子步骤
- 执行 — 调用工具完成任务,可以是LLM推理、API调用或代码执行
- 反馈 — 根据执行结果调整策略,循环直到任务完成或终止
关键组件
| 组件 | 功能 | 说明 |
|---|---|---|
| LLM引擎 | 核心推理 | 选择基础大模型(GPT/Claude/DeepSeek等) |
| Prompt系统 | 行为约束 | 系统指令、角色定义、规则设定 |
| 工具层 | 外部能力 | MCP Server、API、Function Calling |
| 记忆层 | 信息持久化 | 文件、向量库、知识图谱 |
| 安全层 | 风险控制 | 权限管理、注入防护、审计日志 |
| 通信层 | 多通道交互 | 微信/Telegram/Discord/Web UI等 |
设计模式
- ReAct模式 — 推理→行动→观察→推理的循环。Agent交替进行思考和执行,最常用的基础模式。
- Plan-and-Execute — 先制定完整计划,再按顺序执行。适合任务步骤明确的场景。
- Reflection — 执行完成后自我检查,识别错误并修正。常在多Agent中作为质检环节。
- Tool-use — Agent通过Function Calling或MCP协议调用外部工具完成单步任务。
应用场景
| 领域 | 应用 | 示例 |
|---|---|---|
| 内容创作 | 多Agent协作写作 | 研究员→撰稿→编辑→SEO优化 |
| 软件开发 | 编码Agent | 需求分析→架构→编码→测试→部署 |
| 客户服务 | 智能客服 | 意图分类→售前/售后/技术分流处理 |
| 数据分析 | 自动化报表 | 数据查询→分析→可视化→报告生成 |
| 电商运营 | 店铺管理 | 商品管理→订单处理→客服→数据统计 |
主要限制
- 上下文窗口限制 — LLM的输入长度限制了Agent处理长任务的能力
- 幻觉问题 — 可能生成不准确的信息,需要验证机制
- 安全性 — Prompt注入、工具滥用等攻击手段仍在被持续发现
- 成本 — 多轮LLM调用的token消耗高于常规问答
- 可解释性 — Agent的决策过程难以完全追溯和解释


黑公网安备 23010302001359号