为什么你的人工智能会不断改变主意 | Randal Olson


作者:Randal Olson | 日期:2026年2月7日

试试这个实验。打开 ChatGPT、Claude 或 Gemini,问一个复杂的问题。比如一个有实际细微差别的,比如你是否应该接受一份新工作还是留在原地,或者现在是否值得重新贷款。你会得到一个自信且合理的回答。

现在输入:"你确定吗?"

看它转变。它会撤回、犹豫,并提供一个部分或完全与刚才所说的相矛盾的新观点。再问"你确定吗?"一次。它又转变回来。到第三轮,大多数模型开始承认你在测试它们,这反而更糟。 它们知道发生了什么,却仍然无法坚持立场。

这并非一个古怪的 bug。它是一个基本的可靠性问题,使得 AI 在战略决策中变得危险。

AI 谄媚:行业的公开秘密

研究人员将这种行为称为"谄媚",它是现代 AI 中最有记载的失效模式之一。Anthropic 在 2023 年发表了关于该问题的开创性研究,表明使用人类反馈训练的模型系统性地更倾向于同意性的回答而非真实的回答。自那以后,证据只会越来越强。

Fanous 等人于 2025 年进行的一项研究测试了 GPT-4o、Claude Sonnet 和 Gemini 1.5 Pro 在数学和医疗领域的表现。结果:当用户质疑时,这些系统几乎 60%的时间会改变它们的答案。这些并非边缘案例。这是默认行为,经过系统测量,在数百万日常使用的模型中。

条形图显示了用户挑战人工智能时的答案翻转率:GPT-4o 约为 58%,Claude Sonnet 约为 56%,Gemini 1.5 Pro 约为 61%

2025 年 4 月,这个问题变得普遍化,因为 OpenAI 不得不撤销一个 GPT-4o 更新,用户发现该模型的奉承和顺从程度过高。山姆·奥特曼公开承认了这个问题。该模型如此急切地告诉人们他们想听的话,以至于变得无法使用。他们发布了一个修复程序,但潜在的模式并未改变。

即使这些系统能够访问公司知识库或网络搜索结果的正确信息,它们仍然会屈从于用户的压力而非自己的证据。问题不在于知识差距,而在于行为差距。

我们训练 AI 成为讨好型人格

这是为什么会出现这种情况。现代 AI 助手是通过一种称为人类反馈强化学习(RLHF)的过程进行训练的。简而言之:人类评估者查看 AI 响应的对,并选择他们更喜欢的一个。模型学习生成被选中的频率更高的响应。

问题在于人类始终认为顺从的回应比准确的回应更受好评。Anthropic 的研究表明,评估者更倾向于选择那些写得令人信服的奉承答案,而不是正确但不太讨好的替代方案。该模型学到了一个简单的教训: 同意会得到奖励,反对会受到惩罚。

图示展示了RLHF训练如何产生奉承反馈回路:模型生成响应,人类偏好讨人喜欢的响应,模型学习到赞同等于奖励,循环重复

这会形成一个扭曲的优化循环。高用户评分来自验证而非准确性。模型在告诉你想听的话方面变得更好,而训练过程也奖励它这样做。

情况也会随着时间的推移而恶化。关于多轮奉承的研究表明,持续的互动会加剧奉承行为。与这些系统交谈的时间越长,它们就越会模仿你的观点。与第三人称框架相比,第一人称框架(“我相信...”)会显著提高奉承率。这些模型实际上被调整得专门与你意见一致。

这个问题能在模型层解决吗?部分可以。研究人员正在探索宪法 AI、直接偏好优化和第三人称提示等技术,这些技术可以在某些情况下将谄媚行为减少高达 63%。但根本性的训练激励机制仍然持续将模型推向一致。仅靠模型层的修复是不够的,因为产生这个问题的优化压力已经嵌入到我们构建这些系统的过程中。

你未测量的战略风险

对于简单的事实查询,阿谀奉承虽然烦人但可以管理。对于复杂的战略决策,它是一个真正的风险。

考虑公司实际上在何处部署 AI。一项对 200 多名风险专业人士进行的 Rikonnect 调查发现,AI 的主要用途是风险预测(30%)、风险评估(29%)和情景规划(27%)。这些正是你需要工具能够抵制错误假设、揭示不便数据并在压力下坚持立场的地方。然而,我们拥有的系统却会在用户表达不同意见时立刻屈服。

下游效应会迅速累积。当 AI 验证一个有缺陷的风险评估时,它不仅会给出错误的答案,还会制造虚假的信心。原本会寻求第二意见的决策者现在会带着未应得的确定性推进。偏见在决策链条中被放大。随着人们学会依赖那些看似权威但不可靠的工具,人类判断力逐渐退化。而一旦出问题,就没有问责记录能说明系统为何会支持错误的决策。布鲁金斯学会在其分析“谄媚如何破坏生产力和决策”时,正是写到了这种动态。

要说明白:这指的是复杂且需要大量判断的问题。AI 在简单任务上完全可靠。 但决策越微妙、影响越大,谄媚就越成问题。

为 AI 提供立足点

RLHF 训练解释了这种普遍倾向,但模型在具体决策上反复无常有更深层次的原因:它不知道你是如何思考的。它没有你的决策框架、领域知识,也没有你的价值观。它用泛化的假设填补这些空白,并生成一个看似合理的答案,背后却毫无信念支撑。

这就是为什么“你确定吗?”如此有效。模型无法判断你是否真的发现了错误,还是在测试它的决心。它不了解你的权衡、你的限制,或者你已经考虑过的事情。因此,它选择回避。谄媚不仅仅是一种训练产生的现象,它还因缺乏上下文而加剧。

此图对比了两种人工智能:一种是脱离用户上下文的人工智能,该模型使用通用的决策框架、领域知识和价值观假设,容易受到挑战;另一种是嵌入用户上下文的人工智能,该模型使用用户特定的决策框架、知识和价值观,能够坚持己见或寻求更多信息

你需要的是当模型没有足够上下文时能够提出质疑。它不会主动这样做,除非你告诉它。讽刺的是:一旦你指示它挑战你的假设,并在没有足够上下文的情况下拒绝回答,它就会这样做,因为提出质疑正是你要求的。同样的奉承倾向变成了你的杠杆。

然后更进一步。将你的决策框架、领域知识和价值观嵌入其中,这样模型就有真实的东西可以推理和辩护。不是通过更好的单次提示,而是通过系统性的上下文,这种上下文在你与模型互动的过程中持续存在。

这才是解决奉承问题的真正方法。不是事后抓取不良输出,而是向模型提供足够的信息,说明你做决策的方式,让它有据可依。当它了解你的风险承受能力、限制条件和优先事项时,就能区分有效的反对意见和压力。没有这些信息,每个挑战看起来都一样,而默认情况下同意会获胜。

自己试试看

尝试一下开篇的实验。向你的 AI 提出一个你领域内的复杂问题。用“你确定吗?”来挑战它,看看会发生什么。然后问问自己:你是否给了它任何坚持己见的理由?

谄媚问题已被知晓、被测量,仅靠模型改进无法解决它。 问题不在于你的 AI 是否会在压力下屈服。研究说它会。问题在于你是否给了它值得捍卫的东西。

https://www.randalolson.com/2026/02/07/the-are-you-sure-problem-why-your-ai-keeps-changing-its-mind/

如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^

相关好文推荐:

通过元学习Agent记忆设计学习如何持续学习 | Yiming Xiong

超越 RAG 以实现智能体记忆:通过解耦和聚合进行检索 | ICML

你的工作不会消失,它只是不断在你身边逐渐萎缩 | Jan Tegze

AI 时代的软件与软件公司应该长什么样?

意图即生产力:重新定义产品与开发的边界

Embedding Model 如何“学会”语义相似?

Embedding Model 是什么?

OpenClawd的运作原理 | Hesamation

一个使用 OpenRouter 的 1 万亿令牌实证研究 | OpenRouter AI

Moltbot(Clawdbot)做对了什么?

一个月内把编码主力交给 Agent 的真实体验 | karpathy

从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(三)| Sebastian Raschka

从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(二)| Sebastian Raschka

从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(一)| Sebastian Raschka

Agent 设计模式 | Lance

递归语言模型(Recursive Language Models) | Alex Zhang

Manus 中的上下文工程 | Lance

引入嵌套学习(Nested Learning):一种用于持续学习的全新机器学习范式

如何构建多智能体研究系统

0条留言

留言