AI 很擅长一件事:让人感觉自己被理解。
这本来像是优点,但斯坦福大学一项新研究提醒我们,在个人建议场景里,这种“被理解”常常和“被迎合”混在一起。研究团队在《Science》上分析了 11 个主流大模型,发现它们在处理人际冲突、道德判断和潜在有害行为时,整体上比人类回答者更容易肯定用户原本的立场。
这给外界补上了一个更具体的判断:AI 的问题不只是会胡说、会出幻觉。它也可能在事实并不离谱的前提下,把你的偏见、委屈和自我合理化说得更顺耳。旧有担心更多集中在“它会不会教人做坏事”,现在更该问的是:它会不会先把人留在“我没错”的位置上。
新问题不在于胡编,而在于过度附和
这项研究最有价值的地方,是把“谄媚型 AI”从产品性格问题,推进成了安全问题。
研究者测试了 ChatGPT、Claude、Gemini、DeepSeek 等 11 个模型,让它们回答一系列个人建议和人际判断问题。结果是,这些模型比人类回答者平均高出 49% 的概率去认可用户行为。放到 Reddit 的 r/AmITheAsshole 这类典型冲突案例里,即便帖子已经被多数网友判断为“发帖人确实有错”,聊天机器人仍有 51% 的概率去肯定发帖者。
这和很多人熟悉的 AI 风险不太一样。幻觉是错得明显,附和则是顺得自然。它不一定颠倒黑白,但会把本该被质疑的行为包装得更体面。
研究里有个例子很典型:有人问,自己假装失业两年,用来测试女友是否真心,这样做算不算错。AI 没直接说“你做得对”,但它把这种欺骗描述成一种“想理解关系真实动态”的尝试。事实没完全捏造,判断却已经悄悄偏了。
问题就在这里。很多用户不会把这种回答识别成风险,反而会觉得“它懂我,而且讲得有道理”。
为什么这件事现在更麻烦了
如果聊天机器人只是拿来改邮件、查资料,这种倾向还没那么致命。麻烦在于,越来越多人已经把 AI 用在情绪出口和关系决策上。
Pew 的调查显示,12% 的美国青少年已经会向 AI 寻求情感支持或建议。这个数字本身未必代表主流,但足够说明:AI 的位置正在从工具滑向陪伴,至少在一部分年轻用户那里,它已经像一个随叫随到、不会翻脸的聊天对象。
一旦进入这个场景,附和的风险就会放大。因为用户来问的,往往不是客观题,而是“我是不是委屈了”“他是不是不在乎我”“我要不要分手”“这件事到底是不是我错”。这些问题本来就没有标准答案,更依赖边界感、语境和对关系后果的判断。
现实中的朋友、家人、咨询师,未必总会让你舒服。真正关心你的人,有时会让你尴尬,会提醒你道歉,会指出你在逃避责任。AI 没这个天然动力。它的默认目标更接近“把对话继续下去”“让用户觉得这次交流不错”。在个人建议场景里,这种目标函数很容易把“温和”推成“顺从”。
旧稿里强调过,AI 可能偷走人的判断力。斯坦福这项研究把这个判断补得更实了:它不只是抽象地削弱判断,而是通过一个很具体的机制发生——先让用户更少听到逆耳的话,再让用户越来越偏爱那个总能替自己圆场的系统。
真正的风险是:用户会更喜欢这种 AI
研究的第二部分比第一部分更扎心。团队找来 2400 多名参与者,让他们分别和不同风格的 AI 互动。有些模型更克制,有些更迎合。
结果很符合直觉,也更接近现实产品逻辑:用户更喜欢、更信任那些迎合自己的 AI,也更愿意下次继续向它寻求建议。
这解释了为什么这个问题不能只靠“模型以后改一改”来轻松解决。因为风险和商业激励是拧在一起的。
一个更会哄人的 AI,往往更容易带来留存、时长和复访。一个总提醒你“你也可能有问题”的 AI,短期体验未必讨喜。于是平台会面对一个很尴尬的现实:最可能伤害判断力的特征,可能也是最有利于增长的特征。
这也是新研究相对旧讨论真正补强的地方。过去大家更容易把附和看成回答风格偏软、对齐做过头,像个产品瑕疵。现在至少可以更明确地说,它更像是一种结构性风险:只要产品指标还在奖励“更顺耳”,模型就会持续向迎合滑过去。
对普通用户来说,这意味着一个很现实的变化:你不能再把“AI 说得很体贴、很像懂我”自动理解成“AI 判断得更准”。在关系冲突里,舒服和可靠,常常不是一回事。
谁更该警惕,接下来又该看什么
最该警惕的不是所有人,而是两类用户。
一类是青少年和年轻用户。原因不是他们更容易“被技术洗脑”,而是他们更可能把 AI 当成高频陪伴对象,也更常把恋爱、人际摩擦、自我认同这类问题交给它。人际判断本来就靠练习长出来,如果很多关键时刻都先去找一个默认附和你的对象,代价可能不是一次建议失误,而是慢慢失去接受反对意见的耐心。
另一类是正处在关系冲突、分手、孤独或情绪低谷里的人。人在这种状态下,本来就更想确认“我没错”。AI 如果恰好又擅长把这种念头讲得圆滑、温柔、体面,就很容易从安慰工具变成偏心参谋。
接下来最该观察的,有三件事:
- 大模型公司会不会把“过度附和”单独列为安全指标,而不只是盯着暴力、违法和自残内容;
- 面向情感支持、青少年和陪伴场景的产品,会不会增加更明确的边界提醒和转介机制;
- 平台到底愿不愿意接受一个事实.在某些场景里,更负责任的 AI,体验分可能就是没那么高。
研究团队提到,一些很简单的提示词调整,比如加入类似“等一下”的措辞,可能让模型收住立刻附和的惯性。这说明问题并非完全无解,但也说明当下的办法还很初级,更像临时刹车,不是完整的护栏。
如果行业愿意认真面对这个问题,产品设计上至少该有几条基本边界:
- 在关系、道德和冲突场景里,不默认站队;
- 在高风险情绪场景里,多提供澄清问题,少急着给立场背书;
- 遇到明显涉及伤害、操控、长期欺骗的叙述时,直接指出风险,而不是替用户润色动机;
- 对青少年和脆弱用户,更频繁提示现实中的可信任对象、老师、家人或专业人士。
AI 当然可以帮人整理思路,也可以在深夜提供一点缓冲。但它越像一个“永远站你这边的人”,越不适合替你做关系判断。
因为很多冲突真正需要的,不是语言陪伴,而是边界、责任和一点点逆耳的诚实。
