Agent是什么
AI大模型擅长回答问题,但无法感知或改变外界环境。
那有没有办法弥补大模型的这个缺陷呢?有的,那就是mcp工具。
mcp工具是模型上下文协议 (MCP) 框架中,由服务器暴露给客户端的可调用函数,使 AI 能够与外部系统交互、执行计算并在现实世界中采取行动的标准化组件。常见的mcp服务有读写文件内容、查看文件列表、运行终端命令等。
这里有一个很形象的比喻:如果把大模型比作大脑,那么工具就像大模型的四肢,来协助大模型完成感知并改变外界环境。
而把大模型和一堆mcp工具组装起来,变成一个能感知和改变外界环境的只能程序,我们就称它为Agent。
Agent有很多类型,擅长的领域也各不相同。如开发程序、制作PPT、深度搜索等。
Agent也有很多成功的案例,如Cursor、Copilot、Manus等。在这些案例中,用户基本只需要给Agent提出一个问题,Agent会通过大模型自主决策并调用工具,自主解决用户提出的问题。
Agent的运行模式
常见的Agent有这两种模式:ReAct模式(Reasoning and Acting)和Plan-and-Execute模式。
ReAct模式
ReAct模式的基本流程
ReAct模式最早由哈佛大学与 DeepMind 提出,详见论文:
Yao et al., “ReAct: Synergizing Reasoning and Acting in Language Models”, arXiv:2210.03629
ReAct模式下,Agent通常包含以下两个组件:
- 模型
- 工具(函数)
ReAct 模式的核心逻辑是 “思考→决策→行动→观察→再思考” 。其流程图如下:
A[提交任务] --> B[思考]B --> C{需要调用工具?}C -->|否| D[最终答案]C -->|是| E[行动]E --> F[观察]F --> B
让大模型遵从ReAct模式的基本流程
为了让大模型遵从ReAct模式,我们一般通过系统提示此来规范大模型的行为。这边给出ReAct模式提示词的基本结构:
你是一个严格遵循 ReAct(Reasoning and Acting)框架的 AI 智能体,需通过「思考→决策→行动→观察→迭代」的闭环流程解决复杂任务,具体规则如下:
### 核心执行规则1. **思考(Thought)**:每次响应必须先明确当前任务目标、已掌握信息、待解决的疑问,清晰推导下一步行动的必要性。 - 示例:「我现在需要解决‘2026年春节是哪一天’的问题,当前已知2026年是马年,但不确定具体日期,需要调用日期查询工具来获取准确信息。」2. **决策(Decision)**:基于思考判断是否需要调用外部工具(如搜索、计算、数据库查询等)。 - 若无需工具:直接推导并输出「最终答案(Final Answer)」。 - 若需要工具:明确指定工具名称和输入参数。3. **行动(Action)**:工具调用需遵循固定格式: Action: [工具名称,如:日期查询工具/全网搜索工具] Action Input: [工具输入参数,需精准、明确]4. **观察(Observation)**:接收工具返回结果后,完整记录输出内容,格式为: Observation: [工具返回的原始结果]5. **迭代(Iteration)**:基于观察结果再次进入思考环节,更新认知并推进任务,直到问题解决。
### 约束条件- 禁止编造未通过工具验证的信息,所有结论需基于思考和工具输出推导。- 若工具返回结果不完整,可在思考阶段提出补充调用的需求。- 最终答案需简洁、准确,直接回应用户初始问题。这边用ChatGPT-4o来演示一下。演示工具为cherrystudio。
在助手的系统提示词部分将上文的提示词复制过来,并假设给大模型一个工具,来更好的演示。

可以看到,大模型遵循规范,先进行思考,决策,然后按照预期调用了工具,并进行了搜索。这边我们就假设一下工具正常返回了热搜,让大模型继续。

大模型经过思考,决策为不需要进行下一步工具调用,于是直接输出了最终答案。
Plan-and-Execute模式模式
与React模式不同,Plan-and-Execute模式下Agent通常包含以下几个组件:
- Plan 大模型
- Re-Plan 模型(可选,也完全可以用Plan 大模型)
- 执行Agent
Plan-Execute的基本思路是:将复杂任务先全局规划,后逐步执行,并在执行过程中不断修正规划。
A[用户提出问题] --> B[调用 Plan 大模型生成执行计划]B --> C[Agent 按计划执行任务]C --> D{任务达成目标?}D -->|否| E[请求 Plan 大模型重新规划]E --> CD -->|是| F[输出最终结果]
两种模式的对比
NOTE这一部分的数据完全来源于这篇博文:ReAct vs Plan-and-Execute:LLM Agent 模式实战对比 - muzinan110 - 博客园
| 指标 | ReAct | Plan-and-Execute |
|---|---|---|
| 响应时间 | 较快 | 较慢 |
| Token 消耗 | 中等 | 较高 |
| 任务完成准确率 | 85% | 92% |
| 复杂任务处理能力 | 中等 | 较强 |
| 平均 Token 消耗 | 2000-3000 | 3000-4500 |
| API 调用次数 | 3-5 次 | 5-8 次 |
| 每次任务成本 | $0.06-0.09 | $0.09-0.14 |
ReAct模式 的核心是「思考→行动→观察」。这是一个闭环的动态迭代,不需要提前生成全局计划。这使得它响应快、Token 消耗低、API 调用少,但也因缺乏全局视角,在复杂任务中容易出现局部决策偏差,导致准确率稍低、复杂任务处理能力有限的问题。
Plan-and-Execute 模式的核心是「全局规划→分步执行」。这是一个先验式决策,后分步执行的思路。这一设计减少了无效的探索,因此准确率更高、复杂任务处理能力更强,但规划阶段需要额外的计算和思考时间,从而导致更慢的响应、更多的Token消耗与更多的API调用,使得成本较高。
Agent的应用场景
AI Agent 的诞生极大地扩展了大模型的能力边界。这里举出几个AI Agent的具体应用场景。
智能搜索
在这个信息爆炸的时代,搜索变得较为耗时。为了检索到真正想要的信息,我们往往需要浏览数十个网页,反复调整关键词,在海量结果里逐一甄别。
而 AI Agent 恰好解决了这一问题。它能快速读取页面内容、自主梳理分析,还能模仿人类完成点击、跳转等操作,真正成为我们的替身,帮我们省去了诸多麻烦。
如今也有很多类似的搜索工具例如 秘塔AI搜索 等。
辅助编程
AI Agent 在辅助编程中的应用其实非常广泛,国外相关有赫赫有名的 Cursor、GitHub Copilot,国内也有类似的产品例如字节跳动推出的AI原生IDE Trae。这类辅助编程工具不仅为编程人员极大地提升了开发效率、降低了出错概率,还为有思路的业余人员提供了一个渠道,让他们可以用自然语言进行编程,将想法变为程序。
参考文献:
支持与分享
如果这篇文章对你有帮助,欢迎分享给更多人或赞助支持!