1939 字

10 分钟

AI-Agent学习记录

2026-01-21

笔记

AI

/

人工智能

/

AI-Agent

Agent是什么#

AI大模型擅长回答问题，但无法感知或改变外界环境。

那有没有办法弥补大模型的这个缺陷呢？有的，那就是mcp工具。

mcp工具是模型上下文协议 (MCP) 框架中，由服务器暴露给客户端的可调用函数，使 AI 能够与外部系统交互、执行计算并在现实世界中采取行动的标准化组件。常见的mcp服务有读写文件内容、查看文件列表、运行终端命令等。

这里有一个很形象的比喻：如果把大模型比作大脑，那么工具就像大模型的四肢，来协助大模型完成感知并改变外界环境。

而把大模型和一堆mcp工具组装起来，变成一个能感知和改变外界环境的只能程序，我们就称它为Agent。

Agent有很多类型，擅长的领域也各不相同。如开发程序、制作PPT、深度搜索等。

Agent也有很多成功的案例，如Cursor、Copilot、Manus等。在这些案例中，用户基本只需要给Agent提出一个问题，Agent会通过大模型自主决策并调用工具，自主解决用户提出的问题。

Agent的运行模式#

常见的Agent有这两种模式：ReAct模式(Reasoning and Acting)和Plan-and-Execute模式。

ReAct模式#

ReAct模式的基本流程#

ReAct模式最早由哈佛大学与 DeepMind 提出，详见论文：

Yao et al., “ReAct: Synergizing Reasoning and Acting in Language Models”, arXiv:2210.03629

ReAct模式下，Agent通常包含以下两个组件：

模型
工具（函数）

ReAct 模式的核心逻辑是 “思考→决策→行动→观察→再思考” 。其流程图如下：

1
A[提交任务] --> B[思考]
2
B --> C{需要调用工具?}
3
C -->|否| D[最终答案]
4
C -->|是| E[行动]
5
E --> F[观察]
6
F --> B

让大模型遵从ReAct模式的基本流程#

为了让大模型遵从ReAct模式，我们一般通过系统提示此来规范大模型的行为。这边给出ReAct模式提示词的基本结构：

1
你是一个严格遵循 ReAct（Reasoning and Acting）框架的 AI 智能体，需通过「思考→决策→行动→观察→迭代」的闭环流程解决复杂任务，具体规则如下：
2

3
### 核心执行规则
4
1.  **思考（Thought）**：每次响应必须先明确当前任务目标、已掌握信息、待解决的疑问，清晰推导下一步行动的必要性。
5
    - 示例：「我现在需要解决‘2026年春节是哪一天’的问题，当前已知2026年是马年，但不确定具体日期，需要调用日期查询工具来获取准确信息。」
6
2.  **决策（Decision）**：基于思考判断是否需要调用外部工具（如搜索、计算、数据库查询等）。
7
    - 若无需工具：直接推导并输出「最终答案（Final Answer）」。
8
    - 若需要工具：明确指定工具名称和输入参数。
9
3.  **行动（Action）**：工具调用需遵循固定格式：
10
    Action: [工具名称，如：日期查询工具/全网搜索工具]
11
    Action Input: [工具输入参数，需精准、明确]
12
4.  **观察（Observation）**：接收工具返回结果后，完整记录输出内容，格式为：
13
    Observation: [工具返回的原始结果]
14
5.  **迭代（Iteration）**：基于观察结果再次进入思考环节，更新认知并推进任务，直到问题解决。
15

16
### 约束条件
17
- 禁止编造未通过工具验证的信息，所有结论需基于思考和工具输出推导。
18
- 若工具返回结果不完整，可在思考阶段提出补充调用的需求。
19
- 最终答案需简洁、准确，直接回应用户初始问题。

这边用ChatGPT-4o来演示一下。演示工具为cherrystudio。在助手的系统提示词部分将上文的提示词复制过来，并假设给大模型一个工具，来更好的演示。

可以看到，大模型遵循规范，先进行思考，决策，然后按照预期调用了工具，并进行了搜索。这边我们就假设一下工具正常返回了热搜，让大模型继续。

大模型经过思考，决策为不需要进行下一步工具调用，于是直接输出了最终答案。

Plan-and-Execute模式模式#

与React模式不同，Plan-and-Execute模式下Agent通常包含以下几个组件：

Plan 大模型
Re-Plan 模型（可选，也完全可以用Plan 大模型）
执行Agent

Plan-Execute的基本思路是：将复杂任务先全局规划，后逐步执行，并在执行过程中不断修正规划。

1
A[用户提出问题] --> B[调用 Plan 大模型生成执行计划]
2
B --> C[Agent 按计划执行任务]
3
C --> D{任务达成目标?}
4
D -->|否| E[请求 Plan 大模型重新规划]
5
E --> C
6
D -->|是| F[输出最终结果]

两种模式的对比#

NOTE
这一部分的数据完全来源于这篇博文：ReAct vs Plan-and-Execute：LLM Agent 模式实战对比 - muzinan110 - 博客园

指标	ReAct	Plan-and-Execute
响应时间	较快	较慢
Token 消耗	中等	较高
任务完成准确率	85%	92%
复杂任务处理能力	中等	较强
平均 Token 消耗	2000-3000	3000-4500
API 调用次数	3-5 次	5-8 次
每次任务成本	$0.06-0.09	$0.09-0.14

ReAct模式 的核心是「思考→行动→观察」。这是一个闭环的动态迭代，不需要提前生成全局计划。这使得它响应快、Token 消耗低、API 调用少，但也因缺乏全局视角，在复杂任务中容易出现局部决策偏差，导致准确率稍低、复杂任务处理能力有限的问题。

Plan-and-Execute 模式的核心是「全局规划→分步执行」。这是一个先验式决策，后分步执行的思路。这一设计减少了无效的探索，因此准确率更高、复杂任务处理能力更强，但规划阶段需要额外的计算和思考时间，从而导致更慢的响应、更多的Token消耗与更多的API调用，使得成本较高。

Agent的应用场景#

AI Agent 的诞生极大地扩展了大模型的能力边界。这里举出几个AI Agent的具体应用场景。

智能搜索#

在这个信息爆炸的时代，搜索变得较为耗时。为了检索到真正想要的信息，我们往往需要浏览数十个网页，反复调整关键词，在海量结果里逐一甄别。

而 AI Agent 恰好解决了这一问题。它能快速读取页面内容、自主梳理分析，还能模仿人类完成点击、跳转等操作，真正成为我们的替身，帮我们省去了诸多麻烦。

如今也有很多类似的搜索工具例如 秘塔AI搜索 等。

辅助编程#

AI Agent 在辅助编程中的应用其实非常广泛，国外相关有赫赫有名的 Cursor、GitHub Copilot，国内也有类似的产品例如字节跳动推出的AI原生IDE Trae。这类辅助编程工具不仅为编程人员极大地提升了开发效率、降低了出错概率，还为有思路的业余人员提供了一个渠道，让他们可以用自然语言进行编程，将想法变为程序。