知识库
知识wiki
Agent与RAG:检索增强生成驱动的智能体架构
定义
Agent与RAG(Retrieval-Augmented Generation,检索增强生成)融合架构是指将检索增强生成系统与智能体框架深度整合,使Agent在推理过程中能够主动检索外部知识库、动态整合信息并进行多步决策的架构范式。核心特征是将RAG从被动问答组件升级为Agent的长期记忆与知识行动模块。
架构组成
| 组件 | 功能 | 交互方式 |
|---|---|---|
| 知识库索引层 | 文档分块(chunking)、向量嵌入(embedding)、索引存储 | Agent主动调用写入/更新接口 |
| 检索器 | 语义搜索、混合检索(稠密+稀疏)、重排序 | Agent决策触发查询,返回候选文档块 |
| 推理引擎 | LLM推理、上下文组装、工具调用 | 接收检索结果,推理后决定下一步行动 |
| 行动规划器 | 任务分解、子目标管理、多步检索路由 | 维护任务栈,调度检索/推理/执行循环 |
| 记忆管理器 | 短时对话记忆、长时知识记忆、工作记忆 | RAG检索作为长期记忆的具体实现 |
检索策略级别
| 级别 | 策略名称 | 描述 | 适用场景 |
|---|---|---|---|
| L1 | 单次检索 | 用户查询→一次检索→生成回答 | 简单问答、事实性查询 |
| L2 | 多轮检索(Rewrite-Retrieve) | Agent改写查询→多次检索→合并结果 | 复杂多角度问题 |
| L3 | 迭代检索(Iterative Retrieval) | 逐步推理、每次检索获取信息后继续推理 | 多步推理、研究报告撰写 |
| L4 | 自适应路由检索 | Agent判断查询类型,路由到不同知识库或API | 企业知识管理、多数据源系统 |
| L5 | 工具增强检索(Tool-Augmented) | Agent通过工具调用检索外部数据源(数据库/WebAPI/文档) | 需要实时数据的复杂任务 |
Agent-RAG 交互模式
模式一:Plan-Then-Retrieve(先规划后检索)
Agent先对任务进行分解,生成检索计划,再按计划依次执行检索。
用户问题 → Agent分解子问题 → 子问题1: 检索知识库A → 子问题2: 检索知识库B → 子问题3: 调用API查询实时数据 → 合并检索结果 → 综合推理 → 最终输出
模式二:Retrieve-Then-Plan(先检索后规划)
Agent先检索获取上下文信息,再基于检索结果制定行动方案。
用户问题 → 初步检索获取背景知识 → Agent基于背景知识分解任务 → 执行子任务(可能触发更多检索) → 动态调整计划 → 输出结果
模式三:Interleaved Retrieval(交织检索)
Agent在推理过程中随时触发检索,检索与推理交替进行。
Agent: "需要逐步分析。先检索第一步的信息..." → 检索结果A Agent: "基于A,下一步需要查具体的法律条文..." → 检索结果B Agent: "结合A和B,还需要对比2024年的数据..." → 检索结果C Agent: "综合以上所有信息,最终结论是..."
关键实现技术
| 技术 | 说明 | 代表实现 |
|---|---|---|
| 分块策略优化 | 语义分块、滑动窗口、分层分块 | LangChain RecursiveCharacterTextSplitter |
| 混合检索 | 稠密向量检索+稀疏关键词检索融合 | BM25 + Embedding 加权融合 |
| 重排序(Rerank) | 对候选结果进行相关性二次排序 | Cohere Rerank, BGE-Reranker |
| 上下文窗口管理 | 动态控制检索结果量,防止超长上下文 | Token计数+截断策略 |
| 查询改写 | LLM将模糊/复杂查询转为精确检索语句 | LangGraph Query Rewriter Node |
| 知识图谱融合 | 将RAG检索结果映射到知识图谱中的实体关系 | GraphRAG (Microsoft) |
典型应用场景
- 企业知识助手:Agent检索内部文档库、规章制度、产品手册,回答员工查询
- 研究报告生成:Agent多步检索多源信息,自动撰写综合性研究报告
- 法律辅助系统:Agent检索法律法规库、判例库,辅助法律分析与合同审查
- 医疗诊断支持:Agent检索医学文献、药品说明书、病例库,辅助临床决策
- 客服智能体:Agent检索FAQ、产品文档、历史工单,提供精确客户服务
- 编程辅助:Agent检索API文档、代码库、Stack Overflow,辅助代码生成
性能关键指标
| 指标 | 说明 | 优化方向 |
|---|---|---|
| 检索召回率 | 检索结果覆盖相关文档的比例 | 混合索引、多路检索融合 |
| 检索延迟 | 从查询发出到结果返回的时间 | 缓存机制、索引优化、批量检索 |
| 回答准确率 | 最终输出对检索信息的利用正确性 | 幻觉检测、溯源验证、多轮交叉验证 |
| 知识覆盖广度 | Agent能触达的知识源范围 | 工具接入、多数据源路由、知识图谱补全 |
局限与挑战
- 检索精度瓶颈:语义相似度不总能匹配真实意图,低质量检索导致推理偏差
- 上下文长度限制:LLM上下文窗口有限,多轮检索结果可能超出窗口容量
- 知识时效性:静态索引无法反映实时变化,需要定期或触发式更新
- 检索决策开销:Agent频繁调用检索器增加端到端延迟和Token消耗
- 幻觉放大风险:错误的检索结果经Agent推理后可能产生更加真实的幻觉
参见
- 什么是AI Agent(ID: 1332)
- 多Agent协作(ID: 1366)
- Agent记忆系统(ID: 1377)
- LangGraph深度:有向图驱动的Agent编排框架(ID: 2345)
- OpenAI RAG指导:https://platform.openai.com/docs/guides/rag
- Microsoft GraphRAG: https://github.com/microsoft/graphrag


黑公网安备 23010302001359号