1939 字
10 分钟
AI-Agent学习记录

Agent是什么#

AI大模型擅长回答问题,但无法感知或改变外界环境。

那有没有办法弥补大模型的这个缺陷呢?有的,那就是mcp工具。

mcp工具是模型上下文协议 (MCP) 框架中,由服务器暴露给客户端的可调用函数,使 AI 能够与外部系统交互、执行计算并在现实世界中采取行动的标准化组件。常见的mcp服务有读写文件内容、查看文件列表、运行终端命令等。

这里有一个很形象的比喻:如果把大模型比作大脑,那么工具就像大模型的四肢,来协助大模型完成感知并改变外界环境。

而把大模型和一堆mcp工具组装起来,变成一个能感知和改变外界环境的只能程序,我们就称它为Agent

Agent有很多类型,擅长的领域也各不相同。如开发程序、制作PPT、深度搜索等。

Agent也有很多成功的案例,如CursorCopilotManus等。在这些案例中,用户基本只需要给Agent提出一个问题,Agent会通过大模型自主决策并调用工具,自主解决用户提出的问题。

Agent的运行模式#

常见的Agent有这两种模式:ReAct模式(Reasoning and Acting)和Plan-and-Execute模式。

ReAct模式#

ReAct模式的基本流程#

ReAct模式最早由哈佛大学与 DeepMind 提出,详见论文:

Yao et al., “ReAct: Synergizing Reasoning and Acting in Language Models”, arXiv:2210.03629

ReAct模式下,Agent通常包含以下两个组件:

  1. 模型
  2. 工具(函数)

ReAct 模式的核心逻辑是 “思考→决策→行动→观察→再思考” 。其流程图如下:

A[提交任务] --> B[思考]
B --> C{需要调用工具?}
C -->|否| D[最终答案]
C -->|是| E[行动]
E --> F[观察]
F --> B

让大模型遵从ReAct模式的基本流程#

为了让大模型遵从ReAct模式,我们一般通过系统提示此来规范大模型的行为。这边给出ReAct模式提示词的基本结构:

你是一个严格遵循 ReAct(Reasoning and Acting)框架的 AI 智能体,需通过「思考→决策→行动→观察→迭代」的闭环流程解决复杂任务,具体规则如下:
### 核心执行规则
1. **思考(Thought)**:每次响应必须先明确当前任务目标、已掌握信息、待解决的疑问,清晰推导下一步行动的必要性。
- 示例:「我现在需要解决‘2026年春节是哪一天’的问题,当前已知2026年是马年,但不确定具体日期,需要调用日期查询工具来获取准确信息。」
2. **决策(Decision)**:基于思考判断是否需要调用外部工具(如搜索、计算、数据库查询等)。
- 若无需工具:直接推导并输出「最终答案(Final Answer)」。
- 若需要工具:明确指定工具名称和输入参数。
3. **行动(Action)**:工具调用需遵循固定格式:
Action: [工具名称,如:日期查询工具/全网搜索工具]
Action Input: [工具输入参数,需精准、明确]
4. **观察(Observation)**:接收工具返回结果后,完整记录输出内容,格式为:
Observation: [工具返回的原始结果]
5. **迭代(Iteration)**:基于观察结果再次进入思考环节,更新认知并推进任务,直到问题解决。
### 约束条件
- 禁止编造未通过工具验证的信息,所有结论需基于思考和工具输出推导。
- 若工具返回结果不完整,可在思考阶段提出补充调用的需求。
- 最终答案需简洁、准确,直接回应用户初始问题。

这边用ChatGPT-4o来演示一下。演示工具为cherrystudio。 在助手的系统提示词部分将上文的提示词复制过来,并假设给大模型一个工具,来更好的演示。

可以看到,大模型遵循规范,先进行思考,决策,然后按照预期调用了工具,并进行了搜索。这边我们就假设一下工具正常返回了热搜,让大模型继续。

大模型经过思考,决策为不需要进行下一步工具调用,于是直接输出了最终答案。

Plan-and-Execute模式模式#

与React模式不同,Plan-and-Execute模式下Agent通常包含以下几个组件:

  1. Plan 大模型
  2. Re-Plan 模型(可选,也完全可以用Plan 大模型)
  3. 执行Agent

Plan-Execute的基本思路是:将复杂任务先全局规划,后逐步执行,并在执行过程中不断修正规划。

A[用户提出问题] --> B[调用 Plan 大模型生成执行计划]
B --> C[Agent 按计划执行任务]
C --> D{任务达成目标?}
D -->|否| E[请求 Plan 大模型重新规划]
E --> C
D -->|是| F[输出最终结果]

两种模式的对比#

NOTE

这一部分的数据完全来源于这篇博文:ReAct vs Plan-and-Execute:LLM Agent 模式实战对比 - muzinan110 - 博客园

指标ReActPlan-and-Execute
响应时间较快较慢
Token 消耗中等较高
任务完成准确率85%92%
复杂任务处理能力中等较强
平均 Token 消耗2000-30003000-4500
API 调用次数3-5 次5-8 次
每次任务成本$0.06-0.09$0.09-0.14

ReAct模式 的核心是「思考→行动→观察」。这是一个闭环的动态迭代,不需要提前生成全局计划。这使得它响应快、Token 消耗低、API 调用少,但也因缺乏全局视角,在复杂任务中容易出现局部决策偏差,导致准确率稍低、复杂任务处理能力有限的问题。

Plan-and-Execute 模式的核心是「全局规划→分步执行」。这是一个先验式决策,后分步执行的思路。这一设计减少了无效的探索,因此准确率更高、复杂任务处理能力更强,但规划阶段需要额外的计算和思考时间,从而导致更慢的响应、更多的Token消耗与更多的API调用,使得成本较高。

Agent的应用场景#

AI Agent 的诞生极大地扩展了大模型的能力边界。这里举出几个AI Agent的具体应用场景。

智能搜索#

在这个信息爆炸的时代,搜索变得较为耗时。为了检索到真正想要的信息,我们往往需要浏览数十个网页,反复调整关键词,在海量结果里逐一甄别。

AI Agent 恰好解决了这一问题。它能快速读取页面内容、自主梳理分析,还能模仿人类完成点击、跳转等操作,真正成为我们的替身,帮我们省去了诸多麻烦。

如今也有很多类似的搜索工具例如 秘塔AI搜索 等。

辅助编程#

AI Agent 在辅助编程中的应用其实非常广泛,国外相关有赫赫有名的 CursorGitHub Copilot,国内也有类似的产品例如字节跳动推出的AI原生IDE Trae。这类辅助编程工具不仅为编程人员极大地提升了开发效率、降低了出错概率,还为有思路的业余人员提供了一个渠道,让他们可以用自然语言进行编程,将想法变为程序。

参考文献:#

  1. Agent 的概念、原理与构建模式 —— 从零打造一个简化版的 Claude Code_哔哩哔哩_bilibili
  2. 提示词工程学习笔记:提示词ReAct框架_react提示词-CSDN博客
  3. ReAct vs Plan-and-Execute:LLM Agent 模式实战对比 - muzinan110 - 博客园
AI-Agent学习记录
https://testblog.jijiz.cn/posts/2026-01-21-ai-agent学习记录/
作者
SakuraVillager
发布于
2026-01-21
许可协议
CC BY-NC-SA 4.0

支持与分享

如果这篇文章对你有帮助,欢迎分享给更多人或赞助支持!

赞助