AI Agent 幻觉治理:从原理认知到工程落地的实战指南

1. 什么是 LLM 的幻觉(Hallucination)?

💡 面试要点
不要只背诵“生成错误信息”的定义。必须点出幻觉的本质(缺乏元认知)以及在 Agent 场景下的特殊危害(从“说错话”升级为“做错事”)。

LLM 幻觉是指模型生成了看似合理、实则不准确或完全虚构的信息。其本质是模型对“知道”与“不知道”缺乏元认知能力,无法准确评估自身知识的边界。

在 Agent 场景中,幻觉的危害远超普通对话:普通对话的幻觉仅是信息误导,而 Agent 的幻觉会导致实际执行错误。例如,模型一旦幻觉出一个不存在的参数,Agent 就可能拿着该参数去真实调用工具,从而引发生产环境的误操作或系统故障。

2. AI Agent 的幻觉主要有哪些来源?有哪些工程级缓解策略?

💡 回答要点
避免笼统地列举 RAG 或 Prompt 优化。建议采用 “两类来源 + 四种策略” 的结构化框架作答,体现对问题根因的理解和工程化治理的系统思维。

两类核心来源

  1. 事实幻觉(Fact Hallucination)
    源于预训练数据的时效性截止、覆盖盲区及知识压缩损耗。表现为编造不存在的 API、捏造论文引用或陈述错误事实。这是模型“不知道却以为自己知道”的典型表现。
  2. 指令幻觉(Instruction Hallucination)
    源于模型无视或遗忘 System Prompt 中的约束。例如要求“仅用中文回答”却混杂英文,或被诱导泄露敏感信息。在长上下文(Long Context)场景中,由于注意力机制对早期指令的权重衰减,此类幻觉会显著加剧。

Image

四种工程级缓解策略

  1. RAG 接地(Grounding)
    针对事实类信息,强制通过检索将相关文档注入 Context,并在 Prompt 中明确约束:“仅基于以下文档回答,若文档未提及请回复‘无相关信息’”。

    • 注意:检索质量本身是新风险点,检索到错误文档会引入新的幻觉,需同步优化检索链路。
  2. 结构化输出约束
    使用 JSON Schema 或 Pydantic 强制规定输出格式,例如 {"answer": "...", "confidence": "high/medium/low", "source": "..."}。其中 confidence 字段迫使模型显式暴露不确定性。工程上可借助 Instructor 库或 OpenAI Structured Outputs 实现。
  3. Self-Check 二次验证
    将原始问题与初始回答再次输入模型,要求其判断“是否存在明显事实错误”。进阶做法包括多模型交叉验证,或对同一问题多次采样检测答案一致性——一致性低即表明模型处于不确定状态。
  4. 不确定性显式化
    在 System Prompt 中明确要求“不确定时请直接说明,禁止猜测”,并在 Few-shot 示例中示范如何正确表达不确定性。

📌 总结
实际项目中通常组合使用上述策略,目标并非彻底消除幻觉,而是将其控制在业务可接受的范围内。

本章节为 Public 试读订购后可阅读全文。

需付费查看

Course Curriculum

1

基础篇

2

微调篇

3

Transformer

4

LangChain

5

Agent

6

RAG

7

LORA

8

大模型推理

9

分布式训练

10

蒸馏

11

多模态