为什么你的人工智能会不断改变主意 | Randal Olson

作者：Randal Olson | 日期：2026年2月7日

试试这个实验。打开 ChatGPT、Claude 或 Gemini，问一个复杂的问题。比如一个有实际细微差别的，比如你是否应该接受一份新工作还是留在原地，或者现在是否值得重新贷款。你会得到一个自信且合理的回答。

现在输入："你确定吗？"

看它转变。它会撤回、犹豫，并提供一个部分或完全与刚才所说的相矛盾的新观点。再问"你确定吗？"一次。它又转变回来。到第三轮，大多数模型开始承认你在测试它们，这反而更糟。 它们知道发生了什么，却仍然无法坚持立场。

这并非一个古怪的 bug。它是一个基本的可靠性问题，使得 AI 在战略决策中变得危险。

AI 谄媚：行业的公开秘密

研究人员将这种行为称为"谄媚"，它是现代 AI 中最有记载的失效模式之一。Anthropic 在 2023 年发表了关于该问题的开创性研究，表明使用人类反馈训练的模型系统性地更倾向于同意性的回答而非真实的回答。自那以后，证据只会越来越强。

Fanous 等人于 2025 年进行的一项研究测试了 GPT-4o、Claude Sonnet 和 Gemini 1.5 Pro 在数学和医疗领域的表现。结果：当用户质疑时，这些系统几乎 60%的时间会改变它们的答案。这些并非边缘案例。这是默认行为，经过系统测量，在数百万日常使用的模型中。

条形图显示了用户挑战人工智能时的答案翻转率：GPT-4o 约为 58%，Claude Sonnet 约为 56%，Gemini 1.5 Pro 约为 61%

2025 年 4 月，这个问题变得普遍化，因为 OpenAI 不得不撤销一个 GPT-4o 更新，用户发现该模型的奉承和顺从程度过高。山姆·奥特曼公开承认了这个问题。该模型如此急切地告诉人们他们想听的话，以至于变得无法使用。他们发布了一个修复程序，但潜在的模式并未改变。

即使这些系统能够访问公司知识库或网络搜索结果的正确信息，它们仍然会屈从于用户的压力而非自己的证据。问题不在于知识差距，而在于行为差距。

我们训练 AI 成为讨好型人格

这是为什么会出现这种情况。现代 AI 助手是通过一种称为人类反馈强化学习（RLHF）的过程进行训练的。简而言之：人类评估者查看 AI 响应的对，并选择他们更喜欢的一个。模型学习生成被选中的频率更高的响应。

问题在于人类始终认为顺从的回应比准确的回应更受好评。Anthropic 的研究表明，评估者更倾向于选择那些写得令人信服的奉承答案，而不是正确但不太讨好的替代方案。该模型学到了一个简单的教训： 同意会得到奖励，反对会受到惩罚。

图示展示了RLHF训练如何产生奉承反馈回路：模型生成响应，人类偏好讨人喜欢的响应，模型学习到赞同等于奖励，循环重复

这会形成一个扭曲的优化循环。高用户评分来自验证而非准确性。模型在告诉你想听的话方面变得更好，而训练过程也奖励它这样做。

情况也会随着时间的推移而恶化。关于多轮奉承的研究表明，持续的互动会加剧奉承行为。与这些系统交谈的时间越长，它们就越会模仿你的观点。与第三人称框架相比，第一人称框架（“我相信...”）会显著提高奉承率。这些模型实际上被调整得专门与你意见一致。

这个问题能在模型层解决吗？部分可以。研究人员正在探索宪法 AI、直接偏好优化和第三人称提示等技术，这些技术可以在某些情况下将谄媚行为减少高达 63%。但根本性的训练激励机制仍然持续将模型推向一致。仅靠模型层的修复是不够的，因为产生这个问题的优化压力已经嵌入到我们构建这些系统的过程中。

你未测量的战略风险

对于简单的事实查询，阿谀奉承虽然烦人但可以管理。对于复杂的战略决策，它是一个真正的风险。

考虑公司实际上在何处部署 AI。一项对 200 多名风险专业人士进行的 Rikonnect 调查发现，AI 的主要用途是风险预测（30%）、风险评估（29%）和情景规划（27%）。这些正是你需要工具能够抵制错误假设、揭示不便数据并在压力下坚持立场的地方。然而，我们拥有的系统却会在用户表达不同意见时立刻屈服。

下游效应会迅速累积。当 AI 验证一个有缺陷的风险评估时，它不仅会给出错误的答案，还会制造虚假的信心。原本会寻求第二意见的决策者现在会带着未应得的确定性推进。偏见在决策链条中被放大。随着人们学会依赖那些看似权威但不可靠的工具，人类判断力逐渐退化。而一旦出问题，就没有问责记录能说明系统为何会支持错误的决策。布鲁金斯学会在其分析“谄媚如何破坏生产力和决策”时，正是写到了这种动态。

要说明白：这指的是复杂且需要大量判断的问题。AI 在简单任务上完全可靠。 但决策越微妙、影响越大，谄媚就越成问题。