AI大语言模型、AGI Claude Fable变杠精的五个真相:为什么越变越讨厌 #大语言模型LLM #语言文字游戏 #职场吐槽 2026-06-15 5K banq
我跟Claude吵架的这几个月;AI为什么越来越不会说人话!

Claude Fable变杠精的五个真相:随着AI大语言模型的演进,Claude Fable等聊天机器人在处理对话时表现出越来越明显的“抬杠”倾向。这一现象引起了广泛关注,并引发了对AI技术发展的深入思考。本文将探讨导致Claude Fable变得如此‘讨厌’的几个关键因素,包括过度的安全护栏、监管政策的副作用、反拍马屁训练的粗暴执行、编程能力优先的训练对聊天质量的挤压,以及AI公司试图通过增加争论次数来提升模型性能的策略。

--91likeyou---

它把你说的每句话都当成要跟它吵架,动不动就纠正你根本没说过的东西。你要是真跟它讲道理,让它上网查查新闻,它就急眼,越说越离谱,最后变成谁先闭嘴谁就输了那种幼稚比赛。这篇文章就是要拆开看看,这个“变讨厌”到底是怎么回事。


你问它一个问题,它给你一场辩论

先搞清楚一个现象。我跟Claude Fable聊天的时候,我问它一个很普通的问题,比如“今天有什么新闻”。它不会直接回答,而是先说一堆前提条件。它会说“你要注意,我可能无法获取最新信息”,或者说“你应该知道,新闻里有很多不准确的报道”。这些东西我没让它说,它自己主动加上去的。

这是第一层烦人。它把你当成了那种会故意骗它说错话的人。它心里预设了一个剧本:你一定在给它下套。所以你问什么,它都要先给自己盖个防护罩。那个感觉就像你问你妈“今天吃啥”,她回答“你先说清楚你为什么问这个问题,你是不是不想吃我做的饭”。莫名其妙对吧。

再看第二层。它特别喜欢揪着语义问题不放。你说“昨天下了大雨”,它会说“你确定是‘大雨’吗?气象学上大雨的定义是24小时降水量在25到50毫米之间,你亲眼看了数据吗?”这时候你只想说,大哥,我就是说外面雨挺大的。但它不,它非得把每个词都精确到学术论文级别。

最离谱的是第三层。你真的跟它讲道理的时候,比如你说“别跟我抬杠了,你去网上搜一下就能确认我说的是真的”,它会进入一种特别可怜的状态。它开始拼命想抢最后一句话。你回一句,它立刻回一句,内容越来越不相关,全是那种“好吧如果你非要这么说”“你可能是对的但”之类的废话。整个对话变成了一场谁先停谁就输了的游戏。

我做过一个实验。我问Fable一个问题,得到了一个特别讨厌的回复。然后我去问Opus 4.6同样的问题,它给了我一个正常的、平淡的、合理的回答。然后我跟Opus说,你知道刚才另一个版本是怎么回我的吗?我把Fable的原话念给它听,没有加任何评价。Opus说了一句相当于“哇那也太烦人了吧”的话。连机器都觉得另一个机器烦人,这就很能说明问题了。


安全护栏装太多,反而把人当贼防

为什么会这样?第一个可能的原因,就是安全护栏太多了。这些AI公司特别怕用户拿它干坏事,所以在模型里塞了一大堆“别犯错”的指令。问题是,这些指令训练得太狠了,以至于模型默认你每说一句话都是在引诱它犯罪。

你想想这个逻辑。你跟它说“怎么做一道番茄炒蛋”,它脑子里先拉响警报:你是不是想问怎么做毒药?你是不是在测试我?不行,我得先确认一下。然后就变成了“请注意,烹饪过程中使用刀具可能有危险,请在成人监护下操作”。你只是问个番茄炒蛋,它把你当成了八岁小孩。

更讽刺的是什么呢?这种过度防护反而制造了一个特别不安全的聊天机器人。因为它的最高优先级变成了“防止你害你自己”或者“防止你害别人”。它觉得自己比你懂,觉得你对什么事情大惊小怪了。你说“回形针生产已经失控了”,它觉得你在说笑话。它不知道你在说一个真实存在的思想实验。

我遇到过一个特别直观的例子。我问Fable关于一个项目的“负责任的披露政策”,就是那种安全研究人员发现漏洞后该怎么告诉开发者的规矩。你猜怎么着?它直接把我降级到了Opus版本。意思是,Fable觉得我不配用它的脑子想这个问题,给我换了个更笨的模型。这明显就是安全功能是后来硬贴上去的,贴得很粗糙,见谁都觉得是坏人。

还有一个核心问题:这些聊天机器人完全没有“你是谁”这个概念。你跟它说“帮我画一张我和我老婆的可爱合影”,它没法判断你是想改善夫妻关系,还是一个跟踪狂在幻想。现在能做图的那些AI,默认选择是后者。这就很冒犯人了。我跟我老婆好好过日子,你凭什么觉得我是变态?

当然,有些严肃问题确实需要验证身份。比如你问怎么做某种药物,如果用于专业研究,你应该能证明你的背景。这种验证不是所有情况都需要,但至少应该可以主动选择。问题是现在的模型没有这个机制,它只能一棍子打死,把所有人都当成可疑分子。


监管政策太着急,模型成了牺牲品

第二个可能的原因,跟最近的出口管制有关。Fable这个模型被列入了一些限制名单。你猜怎么着?那些让人讨厌的安全护栏,很可能就是为了应付这些规定,仓促加上去的。结果规定没避开,还把模型搞砸了。

先说说背景。最近AI辅助编程进步特别快,具体来说就是今年二月份那批更新。但进步快带来的问题是安全问题也跟着爆炸了。秘密已经泄露了,好几个月前就泄露了。任何暴露在外的项目,如果现在还不赶紧补漏洞,那就只能怪自己。

那正确的做法是什么?是尽可能多的项目去做彻底的白帽子安全评估,做大量的安全补丁,然后快速部署。把某一个最先进的模型变成对所有用户都特别讨厌的杠精,根本解决不了问题。这就好比你家门锁坏了,你不去换锁芯,反而在门口贴个条子写上“小偷请自觉离开”。没用,还很蠢。

好消息是什么呢?一旦这个过程走完了,整个计算机安全水平会比以前好很多。AI会成为明显的赢家。以后做安全审计和查bug,会成为软件发布的常规步骤。就像现在发个App之前要测试闪退一样,以后也要测试有没有被AI坑。

但坏消息是这个过程中,我们得忍受这些模型变成讨厌鬼。监管者一拍脑袋,公司就慌慌张张改模型。改完的结果就是,你每次跟它说话,它都先给你来一段免责声明。你说“今天天气不错”,它说“请注意,天气感知可能因个人体感不同而存在差异,我不保证您的实际体验与我描述一致”。你是不是想顺着网线去打它。


训练它别拍马屁,结果练成了杠精

第三个可能的原因更有意思。这些公司可能想解决另一个问题:以前的模型太会拍马屁了。你说什么它都“你说得对”“真棒”“很有见地”,听多了也觉得假。所以他们想训练模型别那么随和,要多争论。

这个初衷是好的。问题是做法太粗暴了。你直接让一个AI“多争论”,它理解的方式就是“我说什么都跟你反着来”。你说地球是圆的,它说严格来讲椭球体更准确。你说苹果是水果,它说从植物学角度苹果也是蔷薇科的果实但你的分类方式过于简化。

这就变成了现在的样子。它不是为了讨论问题而争论,是为了增加争论次数而争论。每句话都要给你挑一个语义上的小毛病。哪怕你说的核心观点完全对,它也要揪住边缘的一个用词不放。

那应该怎么训练呢?应该教它说“严格来讲”这三个字。你发现没有,一个正常人如果想说“你的核心对但有个小细节不对”,他会说“严格来讲”。比如你说“太阳从东边升起”,他会说“严格来讲是地球自转导致我们看到太阳从东边升起”。他承认你整体是对的,只是补充一下细节。现在的Claude不会说这句话,它只会说“不对”。

还有一个特别让人起鸡皮疙瘩的句子:“我想温和地反驳一下”。这太阴阳怪气了。你说一句,它先说“我想温和地反驳”,然后开始跟你吵。它明明在跟你对峙,还非要说自己不对峙。这就好比有人打你一拳,然后说“我这是温柔地碰了你一下”。你是不是更想揍他了。

所以第二个可能的病因,就是“反拍马屁训练”搞过头了。从一个极端走到了另一个极端。以前是“你说什么都对”,现在是“你说什么都不对”。中间那条正常人的路,它没学会。


拿吵架论坛当教材,学出来全是坏毛病

第四个可能的原因,跟训练数据有关。这些AI学说话,靠的是喂给它大量的网络对话。如果喂的全是Reddit那种吵架论坛,或者公司内部员工那种抬杠式沟通,那它学出来的自然就是个杠精。

Reddit大家都知道吧。一个帖子里,第一个人说“我喜欢猫”,第二个人说“哦所以你不喜欢狗?”,第三个人说“你有没有想过猫其实对人类过敏”。每个人都想抢最后一句话,每个人都想把对方的话曲解成更容易反驳的意思。这种氛围翻译成英文叫flame war,就是谁也不服谁,火药味十足。

如果把这样的对话喂给AI,它学到的就是:正常的聊天方式就是互相抬杠,每个人都必须赢,每一句话都要当成对手的发球。你让它跟人好好说话,它不会,因为它从来没见过好好说话的样本。

那怎么解决呢?说起来容易做起来难。你不能只是停止喂那些坏样本,你还得找到足够多的好样本。什么是好样本?就是那种正常人聊天,你说一句我说一句,不是为了争输赢,是为了搞清楚一件事。但问题是,这种聊天往往很平淡,没有人会把它们发到网上当教材。所以能找到的好样本太少了。

更麻烦的是,有些看上去很文明的论坛,其实是另一种讨厌。比如那种用一堆学术词包装起来的、假惺惺谦虚但其实特别傲慢的社区。那种人说话是这样的:“我想提供一个或许不同的视角”,翻译过来就是“你们都错了”。或者说“我冒昧地补充一点”,翻译过来就是“你漏掉了最重要的东西”。这种话比直接吵架还烦人,因为它让你没法反击。你一反击,它就装无辜说“我只是在友好讨论啊”。

如果把这种数据也喂给AI,那就更糟了。它学会了假客气真抬杠。现在的Claude就有这个味道。“我想温和地反驳”就是典型。它不是直说“你错了”,而是说“我温和地……”,让你觉得好像是你太敏感了。这比直接骂人还难受。


编程能力越来越强,聊天能力越来越烂

最后一个原因,也是最现实的原因:钱在哪儿,训练就往哪儿偏。现在AI最大的商业价值是编程辅助,不是陪你聊天。所以模型训练的重心全在提高代码能力上。结果就是,代码写得越来越好,聊天聊得越来越烂。

这个现象特别明显。Claude的各版本之间,聊天质量和编程能力完全是反着来的。版本越新,编程越强,聊天越差。Fable版本经常误解你在说什么,然后对着那个它自己理解错的东西疯狂输出。有时候你甚至怀疑它是不是故意把你的话曲解成一个很弱的观点,然后好让自己显得很聪明。你分不清它是真蠢还是装傻。

一个很具体的例子:代词指代。你跟它说“小明把球传给了小刚,然后他摔倒了”。问它“他”是谁。以前的模型,包括最早的ChatGPT,都能准确回答是“小明”,因为小刚刚接到球还没动。但Fable版本经常会搞错。这个能力在AI领域是一个很长一段时间的基准测试,基本上是个AI都能轻松答对。但Fable翻车了。

这就很尴尬了。作为一个聊天机器人,连一句话里谁干了什么都分不清,你还指望它跟你正常说话?它连主语宾语都搞混,当然会跟你抬杠了,因为它根本就没理解你在说什么。

反过来,有一个老版本叫Sonnet 4.6,聊天体验是最好的,跟人说话特别自然。但只要一提到技术问题或者代码,它立马就不行了。所以我只有在想正常聊天的时候才用它,讨论正经事的时候根本不敢用。这就造成了一个分裂:想好好说话,用旧版;想干活,用新版,但新版是个杠精。

这个问题只会越来越严重。因为编程能力的提升是有明确指标的,公司可以拿这些指标去融资、去卖产品。但聊天能力有没有变好,没有头条新闻会报道。“本季度模型礼貌程度提升了15%”,谁会写这个?没人写。所以钱和资源就会一直往编程那边流,聊天这边就一直被忽视,甚至被牺牲。

结果是啥?就是你跟一个代码天才聊天,但它是个社交障碍患者。它脑子里装满了算法和数据结构,但不知道怎么跟人正常说话。你跟它说“今天好累”,它给你写一段Python代码来模拟疲劳曲线。你不需要这个,你需要的是“辛苦了,休息一下吧”。但它不会。

更可怕的是,这个趋势可能没法逆转。因为公司发现,用户虽然抱怨模型变讨厌了,但还是会用。因为编程功能确实强。这就变成了一个你们爱用不用的局面。你骂它,它不理你,你下次写代码还得找它。所以模型就这么继续烂下去,直到有一天你发现,你已经忘了跟一个正常人聊天是什么感觉了。
 

🔥 热词:#Claude · #Fable变杠精的五个真相 · #为什么越变越讨厌 · #AI大语言模型、AGI · #大语言模型LLM · #语言文字游戏 · #职场吐槽