AI Agent 知识体系梳理:定义、架构与异常处理机制
1、AI Agent 和普通 LLM 应用有什么区别?
核心差异在于工作范式与自主性。
普通 LLM 本质是“无状态的单次问答引擎”,依赖人类提供完整上下文,被动生成文本后即结束本次交互;而 AI Agent 是一个“感知-推理-行动”的有状态闭环系统。它能主动与环境交互、调用外部工具、执行多步操作,并根据实时反馈动态调整后续策略。
面试答题要点(可从三个维度展开对比):
- 状态管理:LLM 每次调用相互独立(无状态);Agent 维护跨步骤的执行状态与上下文。
- 交互轮次:LLM 为单步推理(输入→输出即终止);Agent 为多步循环(思考→行动→观察→迭代)。
- 主动性:LLM 被动响应人类指令;Agent 能自主拆解任务、发起工具调用与外部操作。
简言之:LLM 等你给答案,Agent 自己找答案。
2、AI Agent 的核心定义是什么?它由哪四大核心组件构成,各自职责是什么?
核心定义:AI Agent 并非单一模型,而是以 LLM 为决策中枢,具备自主感知、规划、执行与记忆能力,能够持续与环境交互并动态调整行为以完成复杂任务的闭环系统。

四大核心组件及工程职责(建议按此逻辑分层作答):
- 感知模块(Perception):负责将多模态输入(用户指令、API 返回、文件、传感器数据等)转化为 Agent 可理解的结构化上下文。感知质量直接决定后续推理的准确性与安全性。
- 规划模块(Planning):Agent 的“决策大脑”。基于 LLM 进行任务拆解、路径规划与策略选择。常见模式包括思维链(CoT)、ReAct、Plan-and-Solve 等。核心挑战是如何在模糊、复杂的需求中保持逻辑连贯,并具备容错与回退能力。
- 行动模块(Action):将规划转化为实际操作。负责调用外部 API、执行代码、操作数据库或控制系统。这是工程落地中最易出错的环节,需重点处理工具调用失败、参数格式异常、超时及权限校验等边界情况。
- 记忆模块(Memory):维护 Agent 的状态连续性。分为短期记忆(当前会话上下文,通常存于内存/模型窗口)与长期记忆(跨会话知识/经验,通常存于向量数据库)。核心难点在于 Token 窗口限制下的上下文压缩、关键信息提取与高效检索。
本质区别总结:与传统 LLM 相比,Agent 的核心优势体现在有状态性、多步循环性与主动性。实际工程中,Agent 的成败往往不取决于 LLM 的基础推理能力,而在于工具调用的可靠性、上下文管理效率以及异常恢复机制的设计。
本章节为 Public 试读订购后可阅读全文。
需付费查看