场景 / 坑
我有个做文献调研的 agent 编造了假的文献编号(PMID)。为此我建了一个事实核查 agent 去审,它确实管用——在一批历史文档里揪出了不少问题(比如某份文档 18 条声明里查出若干条有问题)。但我想清楚一件事:核查 agent 审的是已经生成的历史文档,它没法在”编造发生的那一刻”实时拦住。
当时怎么做
- 建了一套分层的反幻觉工作流,核查 agent 负责事后审核,成功检出历史文档里的幻觉。
- 关键是把时序想清楚:agent 编造在前、核查 agent 检出在后——这意味着”预防”和”补救”必须是两套机制。
心法
反幻觉要分两层:生成阶段的”预防”(强制引用来源、严格 prompt 约束、只许用给定材料)和事后的”补救”(核查 agent 审历史输出)。别把补救当预防——事后核查拦不住正在发生的编造,它只能事后兜底。
可自检练习
任务: 盘一下你防 AI 幻觉的手段,给每一个归类——它是在”生成那一刻起作用”(预防),还是”生成之后再查”(补救)?看看你是不是只有补救、没有预防。
做对了长这样: 你能说清自己哪些措施是预防(要求附来源、限制它只用给定材料)、哪些是补救(事后核查);并意识到只靠补救救不了实时的编造。
关联
- 上级路径:L3入口
- 相关卡:卡-AI会把查不到的说成标准(L2 版”AI 会编知识断言”,本卡是把防幻觉做成 agent 系统里的两层机制)