AI Agent 幻觉治理:从原理认知到工程落地的实战指南
1. 什么是 LLM 的幻觉(Hallucination)?
💡 面试要点
不要只背诵“生成错误信息”的定义。必须点出幻觉的本质(缺乏元认知)以及在 Agent 场景下的特殊危害(从“说错话”升级为“做错事”)。
LLM 幻觉是指模型生成了看似合理、实则不准确或完全虚构的信息。其本质是模型对“知道”与“不知道”缺乏元认知能力,无法准确评估自身知识的边界。
在 Agent 场景中,幻觉的危害远超普通对话:普通对话的幻觉仅是信息误导,而 Agent 的幻觉会导致实际执行错误。例如,模型一旦幻觉出一个不存在的参数,Agent 就可能拿着该参数去真实调用工具,从而引发生产环境的误操作或系统故障。
2. AI Agent 的幻觉主要有哪些来源?有哪些工程级缓解策略?
💡 回答要点
避免笼统地列举 RAG 或 Prompt 优化。建议采用 “两类来源 + 四种策略” 的结构化框架作答,体现对问题根因的理解和工程化治理的系统思维。
两类核心来源
- 事实幻觉(Fact Hallucination)
源于预训练数据的时效性截止、覆盖盲区及知识压缩损耗。表现为编造不存在的 API、捏造论文引用或陈述错误事实。这是模型“不知道却以为自己知道”的典型表现。 - 指令幻觉(Instruction Hallucination)
源于模型无视或遗忘 System Prompt 中的约束。例如要求“仅用中文回答”却混杂英文,或被诱导泄露敏感信息。在长上下文(Long Context)场景中,由于注意力机制对早期指令的权重衰减,此类幻觉会显著加剧。

四种工程级缓解策略
- RAG 接地(Grounding)
针对事实类信息,强制通过检索将相关文档注入 Context,并在 Prompt 中明确约束:“仅基于以下文档回答,若文档未提及请回复‘无相关信息’”。- 注意:检索质量本身是新风险点,检索到错误文档会引入新的幻觉,需同步优化检索链路。
- 结构化输出约束
使用 JSON Schema 或 Pydantic 强制规定输出格式,例如{"answer": "...", "confidence": "high/medium/low", "source": "..."}。其中confidence字段迫使模型显式暴露不确定性。工程上可借助 Instructor 库或 OpenAI Structured Outputs 实现。 - Self-Check 二次验证
将原始问题与初始回答再次输入模型,要求其判断“是否存在明显事实错误”。进阶做法包括多模型交叉验证,或对同一问题多次采样检测答案一致性——一致性低即表明模型处于不确定状态。 - 不确定性显式化
在 System Prompt 中明确要求“不确定时请直接说明,禁止猜测”,并在 Few-shot 示例中示范如何正确表达不确定性。
📌 总结
实际项目中通常组合使用上述策略,目标并非彻底消除幻觉,而是将其控制在业务可接受的范围内。
本章节为 Public 试读订购后可阅读全文。
需付费查看