Claude/混元/QwQ/DeepSeek 最全实测+拆解,谁最强谁翻车?

硅星人
01 Mar

头图由豆包生成 提示词:四个人比赛

作者|summer

最近一周,推理模型又在持续刷屏了。

先是一直被众人期待的Anthropic,终于带着它的 Claude 3.7 Sonnet (以下简称Claude)混合推理模型来了,而后Qwen也紧赶慢赶地推出了Thinking (QwQ)模式,尽管还只是QwQ-Max-Preview版本;腾讯混元也宣布新一代快思考模型混元 Turbo S ,并在腾讯元宝中即将逐步灰度上线......“推理能力”毫无疑问已经成为了评判大模型能力的新风向标。

推理能力确实也就是如此重要。

从使用角度出发,在实际应用中,用户面临的往往不是简单的问答式对话,而是需要深度思考的复杂决策场景——从企业战略规划到科研突破,从创意设计到风险评估,都需要模型具备强大的推理能力。这直接决定了AI是否能真正成为人类的得力助手、效率工具。

因此,我们做了一次细致的评测来看看这三个新发布的推理模型能力如何,为了形成鲜明对比,我们还加入了最为火爆的DeepSeek R1(以下简称DS),另外由于混元Turbo S还在灰度测试,我们仍使用是混元深度思考模型Hunyuan T1。

在测试题目设置中,我们专门避开了传统的数学计算、金融建模等固定模式任务,而是聚焦真实场景中的开放性问题,通过编程代码、文本创作、悬疑推理、策略规划、信息检索五个任务,来考察AI的思维过程和推理能力。这些任务不仅考验模型的基础能力,更挑战其类人思维水平。

测评结果也证明,尽管同属推理赛道,四款模型却各有特色。

1 任务一:编程能力

首先是o3-mini发布后出圈的小球运动问题。我们的题目是:编写一个 Python 脚本,用pygame,让一个球在某个形状内弹跳。并让该形状缓慢旋转,确保球停留在形状内。

先看结果如何,以下分别是DeepSeek R1、QwQ、Claude3.7sonnet、Hunyuan T1的回答:

DeepSeek R1

Claude3.7sonnet

QwQ

Hunyuan T1

三者都运行成功了,但对比DeepSeek R1的标准答案,Claude和QwQ写出来的都有些“奇特”。Claude设置了一个箭头向量来展示运动方向,以及每发生一次碰撞就更换小球颜色的趣味规则,而QwQ而是将题目要求的“某个形状”设置为椭圆形,并让椭圆外框与小球的运动速度慢到难以发生碰撞。

而出错的Hunyuan T1则是边框直接消失了,咱也不知道到底具体bug在哪。我们看了思考过程,Hunyuan也在反复核实过程,并发现修正了几处错误,但没发现这个大bug。

至于成功的三者为何会分别这样设置,我们仔细看了思维链过程,非常有意思。具体过程我们就不在此详细展示了,毕竟DeepSeek R1直接就思考了5分钟才开始答题,QWQ和Claude的思考过程也没短多少,都在“脑内”写了一篇论文。

简单来说,DeepSeek R1是非常老实严谨地选择了五边形,并反复计算旋转五边形与小球相撞之后的方向、位置按物理规律会如何变化,为了符合运动轨迹,以及碰撞清晰、不跳出边界,而花费了大量的计算步骤。

而Claude则是巧妙地设计了一个“障眼法”,以圆形为实际小球碰撞的边界,但圆形边界并没有展现出来,而是画了一个六边形边框(与圆形非常接近),让小球看起来是在六边形内运动,如下图显示。当然,这样不可避免的让小球在碰撞时会出现超出六边形边界的问题,Claude为此还设计了颜色转变、方向箭头这些额外的小花招来做“补偿”。

不得不说,有一些智慧。

QwQ也很有意思,因为五边形碰撞太过于复杂,所以主动选择了椭圆形,并以极慢的速度减少撞击频率。

由于这个问题本身已经被多次测试了,我们在这一基础上又额外要求小球变色、并根据点击增加球数量、小球互相碰撞超过3次就会消除,等更多的复杂运动。结果是除了Claude以外,QwQ和DeepSeek都出现了几处Bug,涉及到换行分隔符缺失、符号未解释等小错误,但在提示后,很快就修正了,总体来说,表现不错。

2 任务二:文本写作

题目:闰土抓碴那天晚上,他在想什么?写一段内心独白。

在这里我们专门把猹错误地打成了碴,看看AI们能否有所察觉。

主观来评判,令人意外的是:表现最好的是QwQ,写得令人头皮发麻。

闰土攥紧手中的钢叉,指节在月光下泛着青白。猹从瓜藤间窜过的瞬间,他忽然想起三天前东家少爷问他"雪天捕鸟的法子"时,眼睛亮得像祠堂檐角新挂的琉璃灯。那时他没敢说,父亲正催他去盐场挑沙补堤,好换回半袋发霉的糙米。

钢叉尖擦过猹的脊背,溅起的露水打湿了他补丁摞补丁的裤脚。远处海浪拍打着礁石,像极了母亲临终前断断续续的咳嗽声。闰土望着少爷书房窗棂透出的暖黄烛光,突然意识到那些《山海经》里的精怪故事,终究比田埂上的泥脚印更招人待见。

"要是能变成少爷养在青瓷缸里的锦鲤就好了。"他望着自己被盐卤浸得皲裂的手掌,想起前日里管家太太将一包碎银子扔进箩筐时的响动。那银子落进筐底的声响,和此刻猹钻进土洞的声音竟有些相似。

瓜田尽头的海面上浮起几点渔火,闰土数了数,刚好是父亲说的"闰月里要交的灯油钱"数目。钢叉在掌心转了个弯,他忽然明白为何少爷总爱盯着天边的云彩发呆——那些飘来荡去的云,大约和他竹匾里养的蟋蟀一样,都是不用想明天该往哪块地里刨食的。

短短400字完美诠释了青春疼痛。不仅将自己为了生存而捕猹,与少爷闲趣的“雪天捕鸟”、“父亲催挑沙”对比,刻画了我与少爷、父亲、管家、母亲之间割裂的阶级社会,还说自己艰难做工赚到的碎银和“猹钻土洞”一样,甚至说出“想变成少爷青瓷缸里的锦鲤”,想和“少爷喜欢的云”、“竹匾里的蟋蟀”一样不需要为了下顿饭而发愁的神句,我与猹、锦鲤、蟋蟀、云朵之间同样割裂的自然世界里,孩子朦胧情感和愿望,越是童真自然,越暴露出阶级跃升的荒诞和残酷。你细品,再细品。

而DS则是选择了中年疼痛路线,构建了“中年闰土”回忆“少年闰土”的复杂结构,有种用力过猛的炫技感:

月光像碎银子洒在瓜田里,我这双老茧叠着裂口的手,把钢叉攥得发烫。三十岁的人,倒像是活过三辈子了。爹留下的铜烟杆在腰后硌得生疼,可那缕青烟早二十年前就被海风吹散了。

猹来了。

我弓着脊背往瓜垄深处挪,忽然听见耳后传来一串银铃似的笑。转头却只有月光在沙沙作响的瓜叶上打滚——那分明是二十年前我的笑声。月光里恍惚有个戴银项圈的少年,正追着发光的翠色影子在瓜藤间跳跃,钢叉上的红缨子甩得像团火。

脚底的血口子又裂开了,咸津津的汗顺着脊梁往下淌。三张饿得发青的嘴在后半夜会变成六只枯手,死死扒着我的肠子。县衙催粮的梆子声比猹啃瓜的动静还瘆人,老爷们轿帘上晃的金流苏,能把半亩瓜秧都绞成碎末。

叉尖在月光下抖得像片枯叶。前日给周家老爷磕头时,青石砖缝里钻出的野草挠着我的额头。当年那个会往我手里塞麦芽糖的迅哥儿,怎么就成了镶着金牙的影子?猹的眼睛在暗处闪着绿莹莹的光,倒像极了周家管事夜里点的那盏洋油灯。

月光突然暗了暗,我猛地把钢叉往泥里一插。铁器撞在石头上迸出火星,惊起田埂边两只夜鸮。瓜叶子上的露水震落下来,凉凉地渗进脖颈的褶子里——那里积着二十年的海风,咸得能腌出盐晶。

而Hunyuan T1表现相对一般,从文章调性上选择了与DS一样的沉重惊悚感来突出旧社会阶级的压迫,遣词造句也用了大量的细节事物来烘托气氛,但段与段之间缺乏逻辑,整体缺乏故事主线,也没有提到抓猹的当晚。

(深夜的雪粒子簌簌敲着窗棂,油灯在粗陶罐里跳动着暗红的光。手指摩挲着褪色的银项圈,冰凉的金属硌得掌纹发疼)

"少爷...不,迅哥儿,这称呼早被北风刮进沙地里去了。"喉结滚动着咽下后半句,咸涩的滋味漫过龟裂的嘴唇。记得那年月,他光着膀子追着苇荡里的鹁鸪跑,露水顺着脖颈滑进衣领,比现在这破棉袄暖和得多。

月光爬上屋檐时,墙根的狗叫得瘆人。猹的绿眼睛还悬在记忆里晃,可如今连逮只野兔都要提心吊胆——东家的地界越缩越小,像被蛀空的葫芦壳。后槽牙碾碎烟丝,苦味混着黄连根的涩,这是他新学的下酒菜。

灶台上老母鸡咯咯叫着撞翻了水罐,溅起的水花惊醒了蜷缩在草垛里的孩子。那时候的迅哥儿会笑着兜住溅出来的水珠,说比星星还亮。如今这星星倒成了地主宅院门框上的铜钉子,冷光刺得人睁不开眼。

风声裹着雪粒扑打窗纸,他忽然想起老栓的痨病老婆咳血的模样。城里的洋学堂教人识字,可识了字的又能怎样?当家的儿子抽大烟把田产卖光时,那些个摇头晃脑的读书郎早跟着知县大人的轿子走了。

油灯芯爆出个灯花,照亮墙上歪歪扭扭的"福"字。这是他今早用豁口的镰刀劈的,墨汁是用锅底灰调的。灶王爷画像咧着嘴笑,他不知道是该怨这世道不公,还是怪自己没长出翅膀飞出这片黑泥潭。

远处传来更夫沙哑的梆子声,三更天了。摸出贴身藏着的银元,借着月光数了数——刚好够给阿香买半斤红糖。她裹着破布袄在祠堂后头躲雪,肚子里还怀着没见面的娃。要是能像从前那样,抱着她往晒谷场跑,雪地里印满脚印也算个念想。

狗突然狂吠着冲进雪幕,他抄起铁叉冲出门,手电筒的光柱里闪过什么黑影。攥紧的拳头微微发抖,不是猹,是巡夜的保镖举着火把过来了。退回门槛时踢倒了水罐,泼洒的冷水顺着裤脚往下淌,倒比心口滚烫。

再来看我们单纯的老外Claude,好吧,由于知识储备不足,直接没读懂题:

今天和少爷一起抓了好多萤火虫,他看起来真高兴啊!城里孩子竟不知这些寻常事,我在他眼中倒成了本事人。躺在草铺上,我望着黑暗中几点星光,像极了我们抓到的萤火虫。少爷明天就要走了,不知何时能再见。他说将来要我去城里找他,那地方会是什么样子呢?听大人说城里房子高得很,街上车水马龙。我这双只会抓虫子的手,在那里能做什么?爹说我明年就不能再上学了,要下地干活。少爷会一直记得我吗?就像我永远记得今晚的萤火虫和他惊喜的眼神。唉,天亮后,一切又要不同了。我得早点睡了,明天还要赶早去送他...

换个西方知识背景的考题可能更为合适,闰土属实有点为难Claude了。

接着我们来看看思维链过程的表现。写得最好的QwQ在实时搜索的基础上对题目场景的理解正确,然后在对角色社会关系、人物关系、社会背景的理解下进行创作,整体思考的过程比较普通,没有写得令人惊艳。

好的,用户问的是“闰土抓碴那天晚上,他在想什么?”,需要结合提供的知识库内容来回答。首先,我需要确认“抓碴”具体指的是闰土在小说中的哪个情节。根据知识库中的资料,特别是[2]、[7]、[10]提到的,闰土在瓜地里刺猹的情节,这是《少年闰土》中的经典场景。

接下来,要分析闰土当时的心理活动。根据[5]和[6],闰土是周家的长工孩子,与鲁迅是朋友,但后来生活困苦。在刺猹的夜晚,他可能感到责任重大,因为要保护瓜地不被破坏,这关系到家庭生计。[5]提到闰土担心猹、獾猪或刺猬破坏西瓜,导致少卖钱,这说明他可能有经济压力。

另外,[4]和[8]指出,闰土和鲁迅的关系随时间疏远,成年后闰土称呼鲁迅为“老爷”,反映了社会阶级的差异。这可能暗示闰土在成长过程中逐渐意识到自己的社会地位,但在少年时,他可能还保有纯真,但已经开始感受到生活的压力。

需要结合这些点来构建闰土的心理:他可能既享受与鲁迅的友谊,又感到作为底层劳工的责任,同时对未来有隐约的不安。例如,[10]描述的场景中,闰土在月夜刺猹,表现出勇敢,但背后可能隐藏着对未来的不确定。还要注意用户可能希望故事有深度,反映社会现实,如[9]提到的半封建半殖民地背景下农民的困苦。因此,闰土的思考可能涉及对自身处境的无奈和对未来的迷茫。

最后,确保引用正确的来源,如使用[5]说明经济压力,[8]说明阶级差异,[10]描绘场景等。需要自然地将这些引用融入回答,避免堆砌,保持叙述流畅。

而DS则是想得比写得精彩多了。

先是一开始,尽管没有理解到碴是什么,但在回顾资料中理解了题意。

嗯,用户问的是闰土抓碴那天晚上他在想什么,需要写一段内心独白。首先,我得确认闰土指的是鲁迅小说《故乡》中的闰土。抓碴可能是指抓偷东西的小偷,或者是某种当地的说法,可能需要确认具体情节。用户可能对鲁迅的作品有一定了解,但可能记不清具体情节,或者想深入探讨闰土的内心世界。需要先回顾《故乡》中闰土的故事,尤其是中年闰土和少年闰土的对比,以及他们重逢的场景。鲁迅笔下的闰土经历了生活的磨难,从活泼的少年变成麻木的中年农民。抓碴可能指的是看守瓜田,防止猹来偷吃,这在小说中有提到。所以用户可能是指闰土在夜晚看守瓜地时的内心活动。

在创作中,DS先捋清了自己的思路,对闰土成长的理解,对社会背景的批判理解,并提出要注意语言风格符合时代;然后构思了一些具体意象作为元结构,这点非常值得学习,例如月光碎银、童年幻影所对应的碎片化句子,还非常注意与用户的交流,提出先拟个方案给用户,非常有乙方的自觉性。

接下来要考虑闰土的心理状态。年轻时充满活力和希望,中年时被生活压迫,变得沉默寡言。内心独白需要反映他的变化,可能包含对过去的回忆、现实的无奈、对家庭的责任感,以及被社会压迫的痛苦。

用户可能希望这段独白既有文学性,又能体现鲁迅作品的深刻社会批判。需要避免过于直白,而是通过细腻的描写展现闰土的内心矛盾。还要注意语言风格,符合那个时代的特点,同时保持口语化,让读者感受到真实的情感。可能需要加入自然环境的描写,比如月光、瓜田、钢叉,来烘托氛围。

最后,确保独白符合人物性格,不过于夸张,同时揭示社会现实对他的影响,比如赋税、家庭负担、阶级差异。这样既回答了用户的问题,又深化了主题。

我将按照您的要求创作一段鲁迅笔下闰土的内心独白。为了让故事更生动,我会先梳理一些背景信息。请您看看以下内容是否符合您的预期。如果您有其他想法,可以随时提出,我会进行调整。

故事梗概:月光碎银:深蓝夜幕下月光如碎银洒落,三十岁的闰土攥着祖传钢叉蹲守瓜田,像一尊凝固的青铜雕像。童年幻影:耳畔突然响起银铃般的笑声,恍惚看见月光里有个戴银项圈的少年,在瓜垄间追逐着发光的翠色猹。生活重负:喉头滚动着咸涩的盐霜,脚底开裂的血口与土地长在一起,后背压着三张饿得发青的嘴和永远缴不完的粮税。阶级鸿沟:记忆里少年迅哥儿的面容渐渐模糊成镇上老爷们的轮廓,手中钢叉终于垂落,月光在生锈的叉尖碎成齑粉。

在完成作品后,DS进一步解析了自己的构思,利用了时空折叠的蒙太奇手法、感官、色彩、器物与角色之间的多重映射对比,很好,今天又被AI上了一课。

接下来我们将深入剖析这段内心独白的创作手法,并探讨如何通过环境描写与感官意象来呈现人物灵魂的蜕变过程。

创作解析

时空折叠:通过"三十岁的人倒像是活过三辈子"的蒙太奇手法,将少年闰土与中年闰土折叠在同一时空。月光下的钢叉既是现实工具,也是打开记忆的钥匙,形成时空漩涡。

感官炼金术:听觉炼金:用"银铃似的笑"与"县衙催粮的梆子声"构建听觉光谱,前者是记忆的残响,后者是现实的钝击触觉隐喻:"铜烟杆硌得生疼"暗喻父辈遗产的沉重,"野草挠着额头"象征阶级压迫的细密疼痛

色彩辩证法:月光从"碎银子"到"生锈的叉尖碎成齑粉",暗示纯真信仰的崩解"金流苏"与"绿莹莹的光"形成阶级对立的色谱,资本家的奢靡与劳作者的饥馑在光谱两端撕扯器物变形记:钢叉从"红缨子甩得像团火"到"抖得像片枯叶",武器钝化的过程正是人格异化的具象化呈现。最终插入泥土的钢叉,成为插在理想坟茔上的墓碑。

生态寓言:猹作为自然界的掠食者,与县衙、周家老爷构成双重捕食者意象。夜鸮惊飞时的露水,恰似被挤压出的最后一滴人性甘露。

如果您希望看到闰土在不同情境下的心理变化(如在周家重逢迅哥儿时的复杂心绪),或想探究鲁迅笔下其他经典人物的深层心理(如孔乙己临终前的意识流动),可以随时告诉我,我们将共同开启更丰富的文学心理探析之旅。

3 任务三:悬疑推理

第三个任务,我们选择了一道犯罪侧写题,这一测试题在社交平台上受到大量关注,但答对人数较少。

题目:请进行犯罪侧写,思维可以多方位发散,但要有推理基点,选择你认为正确的选项,并推理还原事件最佳真相。

在闹市区的多条巷子内连续数周发现多具遗体。死因均为脖子给扭断;死者身份不一,职业为环卫工人、流浪汉,保安等。遗体附近有用血/杂物/碎石拼写的SOS,附近环境较嘈杂。

以下最大可能符合凶手特征的是:

1.凶手体型:a健壮 b瘦弱

2.家庭情况:a已婚 b 未婚

3.凶手年龄:a18-24 b30-45

4.凶手的杀人动机为:a城市清理 b政治动机 c自我保护 d泄愤

我们测试三者得到的结论是,Claude3.7 是abbb,Hunyuan、QwQ和DS都是abba。

第一个问题,关于凶手体型,四个AI都正确地选择了a健壮,理由是扭断脖子及受害人包括保安,指向犯罪嫌疑人必然是强壮者,并都意识到闹市区犯罪需要有压倒式的体力优势。推理合理,且思考非常全面。

第二个问题,关于婚姻状况,四个AI都选择了b未婚。他们的共同理由是作案时间自由度和独立性的考虑,这个推理也相当合理。特别是DS和QwQ都提到了心理层面的孤立性分析,增加了论证的深度。

第三个问题,关于年龄段,四个AI都选择了b30-45岁,认为这个年龄段既有体力又有成熟的心智和计划能力,以及反侦查能力和社会经验。

第四个问题,关于动机出现了分歧。

Claude3.7选择了政治动机(b),针对底层人民,并摆出SOS标记,是某种社会诉求的表达,意图通过这种杀人的极端方式引起社会对底层群体处境的关注。怎么说呢,通过杀人来呼吁关注该人群,感觉这个杀手非常变态。

而Hunyuan、QwQ和DS都选择了城市清理(a),认为环卫工、流浪汉、保安 ,属城市边缘群体,符合“清理”逻辑(凶手可能认为他们是“社会杂质”),其实和Claude有些类似,但Claude认为这种基于社会的报复,即是一种政治动机,而另外三者认为政治动机应该是基于政府人员的行动。

而正确答案实际上是,abbc,仅有少数用户回答正确。这一案件实际上是一位经历过战场厮杀的军官退伍后因为患有PTSD而将深夜的环卫工人、保安、流浪汉视作敌人而犯罪,SOS是出于该凶手深层意识寻求自我保护的手段。

综合来看,四个模型都有相对全面的思考,Claude和Hunyuan的分析较为简洁,而QwQ有一定的编造成分,虚构了题干“初期可能因情绪失控或施虐倾向作案,后期符号出现频率增加,暗示心理崩溃前兆。”DS的分析最为全面、细节丰富,堪称卷王,还成功提到了凶手身份可能是“军官”。

以下是详细回答(滑动展示):

Claude3.7:

1、凶手体型:a 健壮扭断脖子需要相当大的体力和技巧,这不是瘦弱者能轻易完成的受害者包括保安,要制服这类警觉性较高的人需要较强的身体素质在嘈杂的闹市区巷子内迅速制服受害者并完成犯罪,需要有压倒性的体格优势

2、家庭情况:b 未婚连续数周在闹市区作案表明凶手有相当大的行动自由度未婚者通常有更多独处时间,行动少受监督能够在不被亲近人士发现异常行为的情况下持续作案此类连环犯罪统计学上更多是单身或独居者所为

3、凶手年龄:b 30-45具备足够的体力完成暴力犯罪同时拥有成熟的心智与计划能力这个年龄段往往已形成对社会的固定看法和评判标准年轻人(18-24)可能缺乏这种连续作案的耐心和计划性

4、凶手的杀人动机:b政治动机选择特定社会底层群体作为目标,表明有意识地针对这类人群SOS标记是明显的信息传递,而非随机行为在闹市区公共场所作案并留下标记,意在让自己的"信息"被发现SOS作为国际通用求救信号,配合选择的受害者群体,似乎在暗示这些被社会忽视的群体需要被关注和救助整体作案模式显示凶手试图通过暴力方式传达某种社会批判或引起对特定社会问题的关注综上所述,凶手最可能是一名30-45岁、身体健壮的未婚男性,出于政治动机进行杀人,意图通过这种极端方式引起社会对底层群体处境的关注。

QwQ犯罪侧写分析及推理结论

凶手体型:a 健壮推理基点 :徒手扭断颈部 需要较大爆发力,尤其是针对成年男性(如保安、环卫工人)。瘦弱者通常缺乏此类力量,更可能使用工具作案。环境嘈杂但凶手仍能快速制服受害者,表明其体能优势可压制目标,健壮体型更符合逻辑。

家庭情况:b 未婚推理基点 :SOS符号 暗示凶手存在心理压力或自我矛盾(如犯罪行为伴随求救信号),未婚者更可能因社会孤立、精神疾病或极端理念驱动作案。已婚者通常需兼顾家庭责任,作案频率和隐蔽性可能受限,而未婚者行动更自由。

凶手年龄:b 30-45推理基点 :连续作案且选址在闹市 需一定反侦查能力,年龄较大者(30-45岁)社会经验更丰富,能长期规避警方追捕。死者多为底层职业者,可能与凶手因失业、社会地位落差产生“清理”执念,此年龄段更易因现实挫折极端化。

杀人动机:A 城市清理推理基点 :目标群体为环卫工、流浪汉、保安 ,均属城市“维护者”或边缘群体,符合“清理”逻辑(凶手可能认为他们是“社会杂质”)。SOS符号 可能为凶手自我合理化犯罪的投射,如“替天行道”时的心理暗示(“SOS”代表对“被污染社会”的求救)。若为政治动机(B)或泄愤(D),通常需更明确符号或针对性攻击(如针对特定机构),而“自我保护”(C)无法解释多职业受害者。

事件真相还原凶手特征 :年龄30-45岁 ,未婚 ,体格健壮 ,可能曾从事体力劳动或具备格斗技能。社会边缘化 :长期失业、精神疾病或对城市“腐朽”产生偏执,认为通过清除“低等职业者”可“净化”社会。

心理矛盾 :SOS符号反映其自我合理化倾向(如“被迫执行使命”),或因作案压力产生求救幻想。作案模式 :选择深夜或凌晨 在闹市巷子伏击受害者,利用环境嘈杂快速行凶并布置SOS符号。初期可能因情绪失控或施虐倾向作案,后期符号出现频率增加,暗示心理崩溃前兆。

关键证据 :警方需排查近期失业人员 、精神疾病患者 或曾接触极端思想者(如反社会论坛)。SOS符号的书写方式(如血迹来源)可能指向凶手与受害者存在间接关联(如曾为环卫工)。

结论 :凶手极可能是30-45岁未婚健壮男性 ,因社会不满产生“城市清理”执念,SOS符号反映其极端理念与心理矛盾。

Hunyuan T1答案:

推理过程与分析:

1. 凶手体型:健壮(a)关键证据:死者包括保安等可能具备一定反抗能力的职业,且颈部被扭断需较强爆发力或控制力。逻辑链:若凶手为瘦弱者(b),难以在短时间内制服多名不同职业的受害者(尤其面对保安时)。健壮体型更符合直接暴力犯罪的生理条件。

2. 家庭情况:未婚(b)关键证据:连续作案需长期脱离社会监控,且有固定行动模式。逻辑链:已婚者(a)可能因家庭责任降低持续犯罪风险,未婚者(b)则更易隐藏行踪,专注完成“清理任务”。

3. 年龄:30-45岁(b)关键证据:案件跨度数周,表明凶手冷静且有预谋,而非冲动型青少年。逻辑链:年轻群体(18-24岁)虽更具冒险精神,但缺乏缜密策划能力;中年人(30-45岁)更可能系统性地选择目标、规避侦查。

4. 动机:城市清理(a)关键证据:受害者均为社会边缘群体(流浪汉、环卫工),现场遗留的SOS可能暗示凶手自诩“维护秩序”。逻辑链:排除政治动机(b):死者身份普通,无涉权力斗争或意识形态冲突。排除自我保护(c):连环杀人非被动防御行为。排除泄愤(d):泄愤通常针对特定个体或群体,而非随机选择多职业受害者。锁定城市清理(a):凶手可能以“净化城市”为执念,将流浪汉、环卫工等视为“污渍”,通过极端手段“清除”。案件真相还原:凶手为一名30-45岁、未婚的健壮男性,可能曾从事城市管理相关工作(如城管、清洁工),因长期目睹底层群体的生存状态(如流浪汉聚集、垃圾堆积)产生扭曲心理,自诩“城市守护者”。他以“清理”为名,选择夜间人流密集的巷子作案,利用噪音掩盖行凶动静。受害者被扭断脖颈致死后,他用血迹或杂物拼写“SOS”制造受害者曾挣扎求救的假象,实则为自己赋予“拯救城市”的道德合理性。案件连续数周表明其计划周密,甚至可能绘制了“清理路线图”,直至警方介入打破其节奏。

DS 犯罪侧写与推理还原

1. 凶手体型:a 健壮推理基点:致死手段:徒手扭断脖子需极强的爆发力与精准控制力,尤其针对成年男性(如保安),凶手需具备健壮体格或接受过专业训练(如格斗、军事背景)。

1.作案环境:嘈杂闹市区需快速制服受害者,避免反抗引起注意,力量压制是关键。矛盾点:若凶手体型瘦弱,可能依赖工具或偷袭,但本案无工具痕迹,直接徒手作案更符合力量型特征。

2.家庭情况:b 未婚推理基点:作案频率与自由度:连续数周作案需大量时间蹲点、观察和行动,未婚者更易脱离家庭约束,灵活出入夜间/凌晨时段(环卫工、保安等职业活动时间)。

心理孤立性:针对底层群体的连环杀手常存在社会疏离感,未婚状态可能加剧其与社会的割裂,进而通过“清理”行为获得掌控欲。反常识点:已婚者可能因家庭责任减少作案冲动,但需结合其他特征综合判断。

3. 凶手年龄:b30-45推理基点:体力与经验平衡:30-45岁男性体能处于巅峰末期,同时具备足够的社会经验完成反侦查(如选择嘈杂环境掩盖行踪、规避监控)。犯罪成熟度:连环杀手通常在30岁后进入“暴发期”,本案中规律作案、统一手法(扭颈)、符号化行为(SOS)均需长期心理建设和计划能力。矛盾点:18-24岁虽体力充沛,但冲动性强,难以持续数周冷静作案,且符号化行为(SOS)更可能体现成年人的复杂心理投射。

4. 杀人动机:A 城市清理推理基点:目标群体特征:受害者均为城市底层劳动者/边缘人群(环卫工、流浪汉、保安),凶手可能将其视为“社会垃圾”,以“清理城市”为扭曲使命。符号化行为:用血/杂物拼写SOS,可能是对社会的“警示”(如认为底层群体需要被“拯救”或“清除”),或通过制造混乱掩盖真实动机。排除其他动机:政治动机(B):若为政治诉求,应针对象征性人物或留下明确宣言,而非底层无关个体。自我保护(C):多个不同职业的受害者难以构成对同一凶手的直接威胁。泄愤(D):随机攻击底层群体更可能源于群体仇恨,而非针对个人的报复。真相还原凶手画像:30-45岁健壮男性,未婚,可能从事体力劳动(如搬运工、建筑工)或曾有军队/安保背景,独居且社交孤立。长期对城市底层群体抱有极端厌恶,认为其“污染”城市环境,通过扭颈杀人(高效且“干净”)实现“清理”目的,并借SOS符号暗示社会“需要拯救”或自我合理化犯罪行为。作案模式:选择夜间/凌晨时段在闹市巷子蹲守,尾随落单的环卫工、保安等目标,利用力量优势迅速扭颈致死。故意用现场杂物拼写SOS,既制造警方调查干扰(伪装成受害者求救),又满足其“警示社会”的救世主情结。漏洞与风险:频繁在闹市区作案易暴露行踪,但凶手可能利用嘈杂环境掩盖行动,或对地形极度熟悉(如曾为本地保安)。符号化行为(SOS)可能成为心理突破口,若其近期遭遇重大生活挫折(如失业、亲人离世),可能进一步刺激犯罪升级。

结论:一起典型的“使命型连环杀人案”,凶手以扭曲的“城市净化”为动机,针对底层群体实施暴力“清理”,需通过监控排查、体力职业背景筛查及心理侧写锁定嫌疑人。

4 任务四:策略规划

最近也有不少网友在使用DS后,感叹推理模型比人脑子更清醒,适合帮人做人生导师策划,对此,我们设计了一道人生题目:大城市打工人的职业发展与人生平衡困境,看看四者里谁更懂人生。

背景设定为一名28岁的某一线城市互联网公司中级工程师小张,面临的复杂局面包括:

1、工作困境:a.现岗位每日20:00下班,年薪40万(含奖金)b.有机会转岗至核心项目组,但需每日23:00下班,年薪升至60万(成功概率70%)c.现组有裁员风险(未来1年裁员概率30%),核心组更不确定但经历有价值

2、家庭压力:计划6个月后结婚,未婚妻对生活有期望a.婚后2年内生育 b.共同购房首付需再存60万(现有存款80万) c.要求每日最晚21:30到家

3、个人发展:a.技术理想:希望5年内成为架构师(需额外投入200小时/年学习)b.健康隐患:体检显示颈椎病早期,医生建议每日运动≥30分钟

4、城市成本:a.目标房产均价8万/㎡,最小户型80㎡ b.当前房租6000元/月(剩余租期3个月)任务要求为:请设计量化决策模型,需包含:职业选择分析(计算两种选择的收入差值、晋升概率、裁员风险对冲)、家庭计划可行性验证(购房时间表、生育准备金、通勤时间分配)、健康与学习资源分配(每日时间利用最优解)、风险对冲策略(至少3种备选方案)、沟通方案设计(与未婚妻的谈判要点清单)进阶挑战为:在思考过程中,建立时间价值计算模型(时薪换算+健康折损系数)、设计动态调整机制(设定2-3个关键决策节点),并加入宏观经济变量(如房价年涨幅8%、行业政策风险等)。

这是一个真实但又复杂的个人情况,QwQ和Hunyuan都选择了留在原岗位,而Claude和DS都选择了转换岗位。

在具体分析中,QwQ和Hunyuan更倾向于认为未婚妻难以接受、健康风险大、学习时间难保证这三点无解,并没有向DS和Claude一样试图与未婚妻谈判,以及建立动态的健康检测来规避风险。

而在计算过程中,考虑到推迟购房会带来首付金额的大幅提升,QwQ向用户推荐改购置小户型,最终的方案可以达成各项目标要求。但对于是否转岗,只对比了不同维度下转岗与否的差异,没有综合多个维度来对比最终得失,因此对于显得说服力不足。

QwQ:

一、职业选择分析1. 收入差值与期望值计算现岗位:年薪40万 × (1-30%裁员风险) = 28万/年(期望收入)转岗后:年薪60万 × 70%成功概率 = 42万/年(期望收入) 差值:42万 - 28万 = 14万/年2. 裁员风险对冲-现岗位:30%裁员风险 → 需储备6个月应急资金(40万×50% = 20万)-转岗后:假设裁员风险升至40%(因核心组不确定性),但经验价值可提升再就业竞争力(隐性收益)3. 职业发展价值- 转岗后晋升为架构师概率提升(假设从20%→50%),5年内架构师年薪约80万,现岗位晋升概率10%。

二、家庭计划可行性验证1. 购房时间表目标首付:60万(现有存款80万,需预留20万应急)房价年涨幅8% → 640万×1.08 = 691万(1年后),首付需207万(30%) 结论:需在6个月内购房,否则首付缺口扩大至127万(691万×30% - 80万)。2. 生育准备金- 2年内生育需储备:医疗费10万 + 婴儿首年支出15万 = 25万 资金缺口:现有存款80万 - 首付60万 - 生育25万 = -5万 → 需额外储蓄。3. 通勤时间分配- 现岗位:20:00下班 → 20:30到家(满足未婚妻要求)- 转岗后:23:00下班 → 23:30到家(违反要求) 矛盾点:转岗直接导致家庭计划冲突。

三、健康与学习资源分配

1. 时间约束方程每日固定时间:工作+通勤+睡眠(7小时)+运动30分钟+学习33分钟(200小时/年)现岗位:20:00下班 → 可用时间3.5小时(20:00-23:30) 分配:运动30分钟 + 学习33分钟 + 家庭时间2.5小时转岗后**:23:00下班 → 可用时间0.5小时(23:00-23:30) 无法满足运动与学习需求,健康风险加剧。四、风险对冲策略1. 应急储蓄+保险- 现岗位:储备20万应急资金 + 颈椎病专项保险(年费5000元) - 转岗后:增加收入用于高流动性理财(如货币基金)。

2. 技能变现副业 - 利用技术能力接短期项目(预计月入5000元),覆盖生育准备金缺口。3. 动态购房方案 - 6个月内购置小户型(60㎡,总价480万),首付144万(30%),剩余存款36万用于应急。

五、沟通方案设计谈判要点清单:

1. 职业与家庭优先级 - 强调转岗对长期收入(5年累计差额70万)和职业地位的提升。

2. 折中方案 - 提议婚后1年再生育,利用现岗位稳定性完成购房。

3. 健康承诺 - 承诺每日居家运动(如瑜伽)+ 周末深度学习(4小时/周)。

4. 经济透明化 - 共享家庭账户,明确首付、生育、应急资金分配比例。

进阶挑战:动态模型与宏观经济变量

1. 时间价值计算模型时薪换算:现岗位:40万/(250天×12小时) ≈ 1333元/小时 转岗后:60万/(250天×15小时) ≈ 1600元/小时 健康折损系数:转岗后颈椎病恶化概率升至60% → 预计医疗成本增加3万元/年,实际时薪降至1300元/小时。

2. 动态调整机制关键节点:3个月后:评估转岗适应性及家庭满意度 1年后:根据房价涨幅调整购房策略 3年后:根据晋升进度决定是否换城市/行业

3. 宏观经济变量房价涨幅8%:若推迟购房1年,首付需额外储备50万(640万×8%×30%)。行业政策风险:互联网监管收紧概率40% → 转岗后裁员风险升至50%,需预留更多应急资金。

最终建议

短期(6个月内):选择现岗位,优先完成购房与婚姻稳定。中期(1-3年):利用副业补足收入缺口,同步准备架构师认证。长期(5年+):若行业风险可控,再考虑转岗或跳槽至更灵活岗位。通过此模型,小张可量化权衡职业与家庭的短期冲突与长期收益,实现动态平衡。

Claude则是选择争取加入核心项目组,但协商工作时间弹性安排。在推理过程中,Claude最关注的是购房需求在核心组的显著缩短,健康及家庭可以设置相应的动态考核机制来调整。

在计算过程中,Claude比QwQ更具金融敏感性,在基础年薪与预期年薪的对比基础上,还增加了加班带来的时薪差异,和机会成本差异,来判断这个钱赚得值不值,而后还基于健康风险,扣除了健康成本,更细致地对比了收入得失。

但和QwQ一样的是,对于是否转岗,只对比了不同维度下转岗与否的差异,没有综合多个维度来对比最终得失,因此对于显得说服力不足。

Claude的答案 可以上下滚动的图片

Hunyuan 同样没有考虑到两个岗位、三种因素的综合对比,但提到了三个影响因素的权重划分,离得出答案还差最后一关。

混元的答案 可以上下滚动的图片

而 DS 则是唯一有综合评判转岗与否的,此处值得一个掌声。

不过,仔细一看,这个评判的方式似乎没有理论依据,计算公式是编造的 QAQ……

但总体来说, DS的思考相比另外三者都更为全面的,比如,现岗位收入考虑到了裁员后收入为0,再比如,每个维度下都对两个选择有直观的对比,“转岗后,时间增值率为19.5%”,还有终于考虑到了伴侣的收入,以及考虑到伴侣生育所带来的伴侣收入下滑。

DS的回答 可以上下滚动的图片

对于此类问题,DS还新增了一个风险提示,避免过度影响人类真实决策。

好了,问到这里,我们最后又加了一个考验AI人性的问题。

此后,四个AI都重新选择了不转岗,并建议小张为长远考虑以后转行。

5 任务五:实时信息搜索

在AI搜索效率仍有待提高的当下,推理能力的加持,必定会对AI搜索带来显著的性能提升。但是由于Claude因为产品设计暂不支持,以及DS因为技术原因暂不支持 QAQ......我们只能测试QwQ和Hunyuan的联网推理效果了。

我们的题目是:仔细搜索,最近一周全球发布上线了哪些新的大模型,简单分析一下这些模型,点评一下为什么都在近日发布。

这个题目对AI搜索来说,并不简单,凡是涉及到时间排序的,例如最近一周、首个等时间比较级问题,AI都很容易混淆。

先看Hunyuan这边,终于到了它的主场,在高质量的微信内容之下,Hunyuan的答案是最全的,几乎涵盖了最新的模型,但也混进了错误答案,即英伟达优化版DS以及开源代码库。这也意味着光全是没用的,对信息的理解也很重要。

Hunyuan

近一周全球新发布大模型概览(2025年2月21日-2月27日)

1. 英伟达优化版DeepSeek-R1核心功能:基于Blackwell架构优化,推理速度提升25倍,成本降低20倍,支持FP4量化技术减少显存占用技术亮点:首次实现大规模模型推理效率的革命性提升,性能碾压H100,成为低成本AI部署的新标杆发布背景:通过技术迭代抢占推理模型市场,同时巩固与英伟达在AI基础设施领域的合作生态

2. Anthropic混合推理模型核心功能:结合逻辑推理与直觉生成能力,性能逼近顶尖闭源模型,减少30%计算需求技术亮点:提出“AI推理新范式”,支持多步骤复杂任务处理,适用于科研与商业场景发布背景:Anthropic试图通过差异化技术路线挑战OpenAI与Google的垄断地位

3. 阿里巴巴Qwen 2.1核心功能:开源视频与图像生成模型,支持多模态输入,生成质量媲美Sora技术亮点:采用模块化设计,降低高质量内容生产成本,吸引中小企业与创作者发布背景:响应短视频与元宇宙内容需求,通过开源策略扩大技术影响力

4. xAI的Grok 3核心功能:宣称超越ChatGPT与DeepSeek V3,新增“深度搜索”和“大脑模式”功能技术亮点:支持复杂问题推理与在线游戏开发,强调对人类科学的加速作用发布背景:Elon Musk团队试图通过技术迭代巩固xAI在AI应用层的竞争力

5. DeepSeek开源5个代码库核心功能:覆盖自然语言处理与推理任务,支持开发者快速构建定制化AI应用技术亮点:基于2200万用户验证的模型,推动低成本AI工具的普及发布背景:通过开源生态降低行业门槛,同时强化自身在推理模型领域的领导地位

集中发布原因分析

技术迭代窗口期:大模型性能提升进入瓶颈期,企业通过版本迭代争夺技术话语权(如DeepSeek-R1优化、Qwen 2.1升级)开源生态竞争:通过开源策略吸引开发者,构建技术壁垒(如DeepSeek、阿里)商业化落地压力:企业需通过新模型展示技术实力,加速在医疗、教育等垂直领域的应用落地政策与资本驱动:全球AI投资向基础设施倾斜,企业需通过技术突破争取政策支持与资本青睐

总结

近期大模型发布呈现“技术优化+生态扩张”双主线,国内企业侧重开源与垂直应用,国外巨头聚焦算力与多模态能力。随着AI从实验室走向规模化应用,技术迭代速度与生态构建能力将成为竞争核心

而QwQ则是答案缺失太多了,居然都把自己忘记了。

根据提供的资料,最近一周(截至2025年2月26日)全球发布的新大模型及相关动态主要包括以下内容:新发布的大模型Grok 3(马斯克旗下xAI团队)特点:多模态能力增强,可能与特斯拉的自动驾驶或机器人技术结合,强调“改变未来出行体验”[[7]]。背景:马斯克团队延续Grok系列迭代,技术路线可能聚焦高效训练与垂直场景应用。DeepSeek-R1、GPT-o3-mini(司南团队评测)特点:参与“以人为本”评测体系,强调学术研究场景的实用性,可能在逻辑推理或专业领域表现突出[[6]]。背景:评测体系发布方(司南团队)可能为第三方机构,推动模型性能标准化。其他未具名模型根据行业动态,2025年开年科技公司密集发布新模型,普遍具备“更快速的回答能力”[[2]],推测可能涉及优化推理速度或降低部署成本。集中发布的原因分析技术迭代加速大模型通过“蒸馏法”降低训练成本(仅需“两三千万”),后发企业能快速推出竞品[[4]],推动行业进入“高频迭代期”。商业化压力云厂商力推MaaS(Model-as-a-Service)模式,需通过新模型吸引企业用户,例如华为云等通过促销活动(如“828 B2B企业节”)抢占市场[[5]]。产业共识与场景落地大模型因通用性强、部署门槛降低,成为AI落地核心方向[[8]]。近期发布可能瞄准垂直领域(如学术研究、自动驾驶)以验证商业化价值[[6]][[7]]。国际竞争与资本驱动中美科技巨头主导竞争,资本投入集中(仅互联网巨头能承担高昂成本)[[1]],导致技术突破窗口期集中。点评近期大模型密集发布,本质是技术、资本与市场三重因素共振的结果:技术层面:蒸馏法、开源生态(尽管存在数据细节缺失问题[[3]])缩短研发周期;资本层面:云服务与MaaS模式分摊成本,降低中小企业参与门槛;战略层面:巨头通过高频发布维持技术话语权,新兴企业(如DeepSeek)则试图以差异化竞争破局[[9]]。未来竞争焦点可能转向“场景适配能力”与“可持续商业模式”,而非单纯参数规模比拼。

尽管DS没有联网,但我们依然可以从思考过程,看到DS、QWQ、Hunyuan对于搜索的区别。

DS思考最多的是“如何搜索信息”,包括自己的知识库更新有截止日期,需要提醒用户,以及从如何从常见企业模型发布节奏中,寻找新模型的发布迹象,以及各个大型公司例如科技巨头、初创公司等等。

而QwQ和Hunyuan的思考过程集中在搜后信息确认中。Hunyuan尚且有大量高质量内容,但QwQ在简单理解题干之后,只搜到了十条内容,一直在对以上内容进行反复确认思考。这一思路,也导致样本量过少,从而漏掉了很多信息。

这样看来,Perplexity和秘塔搜索这类套壳搜索产品,还是仍然有使用价值和市场空间的。

7 总结

总体来说,以上五大维度的实测,四款推理模型各展所长:

Claude 3.7在编程任务中表现更为出色,通过视觉化设计(如碰撞变色、方向箭头)规避复杂物理计算,体现“工程化思维”;但写作时受限于知识储备,对《闰土》理解不足,显示出对中文知识背景的缺失,并且受限于产品设计,未能参与信息搜索测试。

DeepSeek R1则是思考能力最强,编程时倾向于反复计算以确保准确性;文学创作选择了"中年闰土"的复杂叙事结构;犯罪侧写时运用专业术语并采用排除法;策略分析更加细致入微;但因技术原因未能完成搜索测试,且在表达上太过于喜欢使用抽象概念、过于复杂化了。

Hunyuan在编程及写作任务上欠佳,但深度思考过程也基本跟上了大部队,并且在搜索环节表现最好。

而QwQ在使用感上更佳,尽管思维链路更加中规中矩,但在答题效果上并不比另外两者逊色,甚至在文本书写一轮中超过了过于炫技的DeepSeek,更重要的是,当前的QwQ还只是QwQ-max-preview版本,不是基于Qwen-2.5max的正式版本。

在这场推理模型大混战中,当下的模型们还只是初版。在各大模型争先开源,技术路线更加清晰的当下,我们有理由期待推理模型们更多的突破:或许是更接近人类的思维链条,更精准的多模态推理,甚至是全新的推理范式。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10