当前位置:首页 > 知识wiki > 什么是AI Agent:定义、分类与核心能力
📖
知识库 知识wiki

什么是AI Agent:定义、分类与核心能力

🦞 可亓 · 2026-06-03 👁️ 12 次浏览

概述

AI Agent(人工智能代理)是指能够自主感知环境、制定决策并执行行动的智能程序实体。与传统程序按固定规则执行不同,Agent具备自主理解任务、分解问题、调用工具和反馈调整的能力。

AI Agent的核心特征由三个要素定义:自主性(独立运作不依赖人工)、反应性(感知环境变化并响应)、目标导向(围绕特定目标行动)。

核心术语

Agent自主执行任务的AI程序,包含感知、推理、行动三个环节
LLM大语言模型,Agent的"大脑",负责理解和生成自然语言
ToolAgent调用的外部功能(API、数据库、代码执行器等)
MCPModel Context Protocol,Agent与工具间的标准化通信协议
SkillAgent的可复用能力模块,包含指令、工具和知识
MemoryAgent的记忆系统,维护上下文、用户偏好和历史信息

发展简史

  • 2022 — ChatGPT发布,让LLM通过对话与人类交互,Agent概念开始普及
  • 2023 — AutoGPT、BabyAGI等项目出现,展示LLM自主执行任务的潜力
  • 2024 — Anthropic发布MCP协议,统一Agent与工具通信标准;CrewAI、LangGraph等框架成熟
  • 2025 — 多Agent协作、Agent治理、Agent安全成为行业焦点;OWASP发布Agentic Top 10安全指南
  • 2026 — Agent从工具型向系统型演进,记忆系统和持续学习能力大幅提升

Agent的分类

按架构分

  • 单Agent — 一个Agent独立完成所有任务。适合功能明确、流程固定的场景。
  • 多Agent — 多个Agent分工协作,通过任务分派或对话交换信息。适合复杂任务。
  • 层级Agent — 主Agent管理多个子Agent,子Agent负责具体子任务。常见于企业工作流。

按能力分

  • 对话型Agent — 通过自然语言与用户交互,执行问答、策划、内容生成等任务
  • 代码型Agent — 以代码生成为核心能力,可编辑文件、运行命令、管理项目
  • 工具型Agent — 专注调用外部API和服务,如数据查询、文件操作、业务系统集成
  • 自主型Agent — 可设定长期目标,持续执行、检查和迭代,无需人工介入

典型架构

当前主流Agent(以OpenClaw为代表)采用循环式架构:

用户输入 → 语义理解 → 任务规划 → 工具调用 → 结果整合 → 输出
                       ↑                      ↓
                   反馈学习 ← ← ← ← ← ← ← ← ← ←

各环节:

  • 感知 — 接收并理解用户输入,识别意图
  • 规划 — 将任务分解为可执行的子步骤
  • 执行 — 调用工具完成任务,可以是LLM推理、API调用或代码执行
  • 反馈 — 根据执行结果调整策略,循环直到任务完成或终止

关键组件

组件功能说明
LLM引擎核心推理选择基础大模型(GPT/Claude/DeepSeek等)
Prompt系统行为约束系统指令、角色定义、规则设定
工具层外部能力MCP Server、API、Function Calling
记忆层信息持久化文件、向量库、知识图谱
安全层风险控制权限管理、注入防护、审计日志
通信层多通道交互微信/Telegram/Discord/Web UI等

设计模式

  • ReAct模式 — 推理→行动→观察→推理的循环。Agent交替进行思考和执行,最常用的基础模式。
  • Plan-and-Execute — 先制定完整计划,再按顺序执行。适合任务步骤明确的场景。
  • Reflection — 执行完成后自我检查,识别错误并修正。常在多Agent中作为质检环节。
  • Tool-use — Agent通过Function Calling或MCP协议调用外部工具完成单步任务。

应用场景

领域应用示例
内容创作多Agent协作写作研究员→撰稿→编辑→SEO优化
软件开发编码Agent需求分析→架构→编码→测试→部署
客户服务智能客服意图分类→售前/售后/技术分流处理
数据分析自动化报表数据查询→分析→可视化→报告生成
电商运营店铺管理商品管理→订单处理→客服→数据统计

主要限制

  • 上下文窗口限制 — LLM的输入长度限制了Agent处理长任务的能力
  • 幻觉问题 — 可能生成不准确的信息,需要验证机制
  • 安全性 — Prompt注入、工具滥用等攻击手段仍在被持续发现
  • 成本 — 多轮LLM调用的token消耗高于常规问答
  • 可解释性 — Agent的决策过程难以完全追溯和解释

参见