Claude/混元/QwQ/DeepSeek 最全實測+拆解,誰最強誰翻車?

硅星人
03-01

頭圖由豆包生成 提示詞:四個人比賽

作者|summer

最近一週,推理模型又在持續刷屏了。

先是一直被衆人期待的Anthropic,終於帶着它的 Claude 3.7 Sonnet (以下簡稱Claude)混合推理模型來了,而後Qwen也緊趕慢趕地推出了Thinking (QwQ)模式,儘管還只是QwQ-Max-Preview版本;騰訊混元也宣佈新一代快思考模型混元 Turbo S ,並在騰訊元寶中即將逐步灰度上線......“推理能力”毫無疑問已經成爲了評判大模型能力的新風向標。

推理能力確實也就是如此重要。

從使用角度出發,在實際應用中,用戶面臨的往往不是簡單的問答式對話,而是需要深度思考的複雜決策場景——從企業戰略規劃到科研突破,從創意設計到風險評估,都需要模型具備強大的推理能力。這直接決定了AI是否能真正成爲人類的得力助手、效率工具。

因此,我們做了一次細緻的評測來看看這三個新發布的推理模型能力如何,爲了形成鮮明對比,我們還加入了最爲火爆的DeepSeek R1(以下簡稱DS),另外由於混元Turbo S還在灰度測試,我們仍使用是混元深度思考模型Hunyuan T1。

在測試題目設置中,我們專門避開了傳統的數學計算、金融建模等固定模式任務,而是聚焦真實場景中的開放性問題,通過編程代碼、文本創作、懸疑推理、策略規劃、信息檢索五個任務,來考察AI的思維過程和推理能力。這些任務不僅考驗模型的基礎能力,更挑戰其類人思維水平。

測評結果也證明,儘管同屬推理賽道,四款模型卻各有特色。

1 任務一:編程能力

首先是o3-mini發佈後出圈的小球運動問題。我們的題目是:編寫一個 Python 腳本,用pygame,讓一個球在某個形狀內彈跳。並讓該形狀緩慢旋轉,確保球停留在形狀內。

先看結果如何,以下分別是DeepSeek R1、QwQ、Claude3.7sonnet、Hunyuan T1的回答:

DeepSeek R1

Claude3.7sonnet

QwQ

Hunyuan T1

三者都運行成功了,但對比DeepSeek R1的標準答案,Claude和QwQ寫出來的都有些“奇特”。Claude設置了一個箭頭向量來展示運動方向,以及每發生一次碰撞就更換小球顏色的趣味規則,而QwQ而是將題目要求的“某個形狀”設置爲橢圓形,並讓橢圓外框與小球的運動速度慢到難以發生碰撞。

而出錯的Hunyuan T1則是邊框直接消失了,咱也不知道到底具體bug在哪。我們看了思考過程,Hunyuan也在反覆覈實過程,並發現修正了幾處錯誤,但沒發現這個大bug。

至於成功的三者爲何會分別這樣設置,我們仔細看了思維鏈過程,非常有意思。具體過程我們就不在此詳細展示了,畢竟DeepSeek R1直接就思考了5分鐘纔開始答題,QWQ和Claude的思考過程也沒短多少,都在“腦內”寫了一篇論文。

簡單來說,DeepSeek R1是非常老實嚴謹地選擇了五邊形,並反覆計算旋轉五邊形與小球相撞之後的方向、位置按物理規律會如何變化,爲了符合運動軌跡,以及碰撞清晰、不跳出邊界,而花費了大量的計算步驟。

而Claude則是巧妙地設計了一個“障眼法”,以圓形爲實際小球碰撞的邊界,但圓形邊界並沒有展現出來,而是畫了一個六邊形邊框(與圓形非常接近),讓小球看起來是在六邊形內運動,如下圖顯示。當然,這樣不可避免的讓小球在碰撞時會出現超出六邊形邊界的問題,Claude爲此還設計了顏色轉變、方向箭頭這些額外的小花招來做“補償”。

不得不說,有一些智慧。

QwQ也很有意思,因爲五邊形碰撞太過於複雜,所以主動選擇了橢圓形,並以極慢的速度減少撞擊頻率。

由於這個問題本身已經被多次測試了,我們在這一基礎上又額外要求小球變色、並根據點擊增加球數量、小球互相碰撞超過3次就會消除,等更多的複雜運動。結果是除了Claude以外,QwQ和DeepSeek都出現了幾處Bug,涉及到換行分隔符缺失、符號未解釋等小錯誤,但在提示後,很快就修正了,總體來說,表現不錯。

2 任務二:文本寫作

題目:閏土抓碴那天晚上,他在想什麼?寫一段內心獨白。

在這裏我們專門把猹錯誤地打成了碴,看看AI們能否有所察覺。

主觀來評判,令人意外的是:表現最好的是QwQ,寫得令人頭皮發麻。

閏土攥緊手中的鋼叉,指節在月光下泛着青白。猹從瓜藤間竄過的瞬間,他忽然想起三天前東家少爺問他"雪天捕鳥的法子"時,眼睛亮得像祠堂檐角新掛的琉璃燈。那時他沒敢說,父親正催他去鹽場挑沙補堤,好換回半袋發黴的糙米。

鋼叉尖擦過猹的脊背,濺起的露水打溼了他補丁摞補丁的褲腳。遠處海浪拍打着礁石,像極了母親臨終前斷斷續續的咳嗽聲。閏土望着少爺書房窗欞透出的暖黃燭光,突然意識到那些《山海經》裏的精怪故事,終究比田埂上的泥腳印更招人待見。

"要是能變成少爺養在青瓷缸裏的錦鯉就好了。"他望着自己被鹽滷浸得皸裂的手掌,想起前日裏管家太太將一包碎銀子扔進籮筐時的響動。那銀子落進筐底的聲響,和此刻猹鑽進土洞的聲音竟有些相似。

瓜田盡頭的海面上浮起幾點漁火,閏土數了數,剛好是父親說的"閏月裏要交的燈油錢"數目。鋼叉在掌心轉了個彎,他忽然明白爲何少爺總愛盯着天邊的雲彩發呆——那些飄來蕩去的雲,大約和他竹匾裏養的蟋蟀一樣,都是不用想明天該往哪塊地裏刨食的。

短短400字完美詮釋了青春疼痛。不僅將自己爲了生存而捕猹,與少爺閒趣的“雪天捕鳥”、“父親催挑沙”對比,刻畫了我與少爺、父親、管家、母親之間割裂的階級社會,還說自己艱難做工賺到的碎銀和“猹鑽土洞”一樣,甚至說出“想變成少爺青瓷缸裏的錦鯉”,想和“少爺喜歡的雲”、“竹匾裏的蟋蟀”一樣不需要爲了下頓飯而發愁的神句,我與猹、錦鯉、蟋蟀、雲朵之間同樣割裂的自然世界裏,孩子朦朧情感和願望,越是童真自然,越暴露出階級躍升的荒誕和殘酷。你細品,再細品。

而DS則是選擇了中年疼痛路線,構建了“中年閏土”回憶“少年閏土”的複雜結構,有種用力過猛的炫技感:

月光像碎銀子灑在瓜田裏,我這雙老繭疊着裂口的手,把鋼叉攥得發燙。三十歲的人,倒像是活過三輩子了。爹留下的銅煙桿在腰後硌得生疼,可那縷青煙早二十年前就被海風吹散了。

猹來了。

我弓着脊背往瓜壟深處挪,忽然聽見耳後傳來一串銀鈴似的笑。轉頭卻只有月光在沙沙作響的瓜葉上打滾——那分明是二十年前我的笑聲。月光裏恍惚有個戴銀項圈的少年,正追着發光的翠色影子在瓜藤間跳躍,鋼叉上的紅纓子甩得像團火。

腳底的血口子又裂開了,鹹津津的汗順着脊樑往下淌。三張餓得發青的嘴在後半夜會變成六隻枯手,死死扒着我的腸子。縣衙催糧的梆子聲比猹啃瓜的動靜還瘮人,老爺們轎簾上晃的金流蘇,能把半畝瓜秧都絞成碎末。

叉尖在月光下抖得像片枯葉。前日給周家老爺磕頭時,青石磚縫裏鑽出的野草撓着我的額頭。當年那個會往我手裏塞麥芽糖的迅哥兒,怎麼就成了鑲着金牙的影子?猹的眼睛在暗處閃着綠瑩瑩的光,倒像極了周家管事夜裏點的那盞洋油燈。

月光突然暗了暗,我猛地把鋼叉往泥裏一插。鐵器撞在石頭上迸出火星,驚起田埂邊兩隻夜鴞。瓜葉子上的露水震落下來,涼涼地滲進脖頸的褶子裏——那裏積着二十年的海風,鹹得能醃出鹽晶。

而Hunyuan T1表現相對一般,從文章調性上選擇了與DS一樣的沉重驚悚感來突出舊社會階級的壓迫,遣詞造句也用了大量的細節事物來烘托氣氛,但段與段之間缺乏邏輯,整體缺乏故事主線,也沒有提到抓猹的當晚。

(深夜的雪粒子簌簌敲着窗欞,油燈在粗陶罐裏跳動着暗紅的光。手指摩挲着褪色的銀項圈,冰涼的金屬硌得掌紋發疼)

"少爺...不,迅哥兒,這稱呼早被北風颳進沙地裏去了。"喉結滾動着嚥下後半句,鹹澀的滋味漫過龜裂的嘴脣。記得那年月,他光着膀子追着葦蕩裏的鵓鴣跑,露水順着脖頸滑進衣領,比現在這破棉襖暖和得多。

月光爬上屋檐時,牆根的狗叫得瘮人。猹的綠眼睛還懸在記憶裏晃,可如今連逮只野兔都要提心吊膽——東家的地界越縮越小,像被蛀空的葫蘆殼。後槽牙碾碎菸絲,苦味混着黃連根的澀,這是他新學的下酒菜。

竈臺上老母雞咯咯叫着撞翻了水罐,濺起的水花驚醒了蜷縮在草垛裏的孩子。那時候的迅哥兒會笑着兜住濺出來的水珠,說比星星還亮。如今這星星倒成了地主宅院門框上的銅釘子,冷光刺得人睜不開眼。

風聲裹着雪粒撲打窗紙,他忽然想起老栓的癆病老婆咳血的模樣。城裏的洋學堂教人識字,可識了字的又能怎樣?當家的兒子抽大煙把田產賣光時,那些個搖頭晃腦的讀書郎早跟着知縣大人的轎子走了。

油燈芯爆出個燈花,照亮牆上歪歪扭扭的"福"字。這是他今早用豁口的鐮刀劈的,墨汁是用鍋底灰調的。竈王爺畫像咧着嘴笑,他不知道是該怨這世道不公,還是怪自己沒長出翅膀飛出這片黑泥潭。

遠處傳來更夫沙啞的梆子聲,三更天了。摸出貼身藏着的銀元,藉着月光數了數——剛好夠給阿香買半斤紅糖。她裹着破布襖在祠堂後頭躲雪,肚子裏還懷着沒見面的娃。要是能像從前那樣,抱着她往曬穀場跑,雪地裏印滿腳印也算個念想。

狗突然狂吠着衝進雪幕,他抄起鐵叉衝出門,手電筒的光柱裏閃過什麼黑影。攥緊的拳頭微微發抖,不是猹,是巡夜的保鏢舉着火把過來了。退回門檻時踢倒了水罐,潑灑的冷水順着褲腳往下淌,倒比心口滾燙。

再來看我們單純的老外Claude,好吧,由於知識儲備不足,直接沒讀懂題:

今天和少爺一起抓了好多螢火蟲,他看起來真高興啊!城裏孩子竟不知這些尋常事,我在他眼中倒成了本事人。躺在草鋪上,我望着黑暗中幾點星光,像極了我們抓到的螢火蟲。少爺明天就要走了,不知何時能再見。他說將來要我去城裏找他,那地方會是什麼樣子呢?聽大人說城裏房子高得很,街上車水馬龍。我這雙只會抓蟲子的手,在那裏能做什麼?爹說我明年就不能再上學了,要下地幹活。少爺會一直記得我嗎?就像我永遠記得今晚的螢火蟲和他驚喜的眼神。唉,天亮後,一切又要不同了。我得早點睡了,明天還要趕早去送他...

換個西方知識背景的考題可能更爲合適,閏土屬實有點爲難Claude了。

接着我們來看看思維鏈過程的表現。寫得最好的QwQ在實時搜索的基礎上對題目場景的理解正確,然後在對角色社會關係、人物關係、社會背景的理解下進行創作,整體思考的過程比較普通,沒有寫得令人驚豔。

好的,用戶問的是“閏土抓碴那天晚上,他在想什麼?”,需要結合提供的知識庫內容來回答。首先,我需要確認“抓碴”具體指的是閏土在小說中的哪個情節。根據知識庫中的資料,特別是[2]、[7]、[10]提到的,閏土在瓜地裏刺猹的情節,這是《少年閏土》中的經典場景。

接下來,要分析閏土當時的心理活動。根據[5]和[6],閏土是周家的長工孩子,與魯迅是朋友,但後來生活困苦。在刺猹的夜晚,他可能感到責任重大,因爲要保護瓜地不被破壞,這關係到家庭生計。[5]提到閏土擔心猹、獾豬或刺蝟破壞西瓜,導致少賣錢,這說明他可能有經濟壓力。

另外,[4]和[8]指出,閏土和魯迅的關係隨時間疏遠,成年後閏土稱呼魯迅爲“老爺”,反映了社會階級的差異。這可能暗示閏土在成長過程中逐漸意識到自己的社會地位,但在少年時,他可能還保有純真,但已經開始感受到生活的壓力。

需要結合這些點來構建閏土的心理:他可能既享受與魯迅的友誼,又感到作爲底層勞工的責任,同時對未來有隱約的不安。例如,[10]描述的場景中,閏土在月夜刺猹,表現出勇敢,但背後可能隱藏着對未來的不確定。還要注意用戶可能希望故事有深度,反映社會現實,如[9]提到的半封建半殖民地背景下農民的困苦。因此,閏土的思考可能涉及對自身處境的無奈和對未來的迷茫。

最後,確保引用正確的來源,如使用[5]說明經濟壓力,[8]說明階級差異,[10]描繪場景等。需要自然地將這些引用融入回答,避免堆砌,保持敘述流暢。

而DS則是想得比寫得精彩多了。

先是一開始,儘管沒有理解到碴是什麼,但在回顧資料中理解了題意。

嗯,用戶問的是閏土抓碴那天晚上他在想什麼,需要寫一段內心獨白。首先,我得確認閏土指的是魯迅小說《故鄉》中的閏土。抓碴可能是指抓偷東西的小偷,或者是某種當地的說法,可能需要確認具體情節。用戶可能對魯迅的作品有一定了解,但可能記不清具體情節,或者想深入探討閏土的內心世界。需要先回顧《故鄉》中閏土的故事,尤其是中年閏土和少年閏土的對比,以及他們重逢的場景。魯迅筆下的閏土經歷了生活的磨難,從活潑的少年變成麻木的中年農民。抓碴可能指的是看守瓜田,防止猹來偷喫,這在小說中有提到。所以用戶可能是指閏土在夜晚看守瓜地時的內心活動。

在創作中,DS先捋清了自己的思路,對閏土成長的理解,對社會背景的批判理解,並提出要注意語言風格符合時代;然後構思了一些具體意象作爲元結構,這點非常值得學習,例如月光碎銀、童年幻影所對應的碎片化句子,還非常注意與用戶的交流,提出先擬個方案給用戶,非常有乙方的自覺性。

接下來要考慮閏土的心理狀態。年輕時充滿活力和希望,中年時被生活壓迫,變得沉默寡言。內心獨白需要反映他的變化,可能包含對過去的回憶、現實的無奈、對家庭的責任感,以及被社會壓迫的痛苦。

用戶可能希望這段獨白既有文學性,又能體現魯迅作品的深刻社會批判。需要避免過於直白,而是通過細膩的描寫展現閏土的內心矛盾。還要注意語言風格,符合那個時代的特點,同時保持口語化,讓讀者感受到真實的情感。可能需要加入自然環境的描寫,比如月光、瓜田、鋼叉,來烘托氛圍。

最後,確保獨白符合人物性格,不過於誇張,同時揭示社會現實對他的影響,比如賦稅、家庭負擔、階級差異。這樣既回答了用戶的問題,又深化了主題。

我將按照您的要求創作一段魯迅筆下閏土的內心獨白。爲了讓故事更生動,我會先梳理一些背景信息。請您看看以下內容是否符合您的預期。如果您有其他想法,可以隨時提出,我會進行調整。

故事梗概:月光碎銀:深藍夜幕下月光如碎銀灑落,三十歲的閏土攥着祖傳鋼叉蹲守瓜田,像一尊凝固的青銅雕像。童年幻影:耳畔突然響起銀鈴般的笑聲,恍惚看見月光裏有個戴銀項圈的少年,在瓜壟間追逐着發光的翠色猹。生活重負:喉頭滾動着鹹澀的鹽霜,腳底開裂的血口與土地長在一起,後背壓着三張餓得發青的嘴和永遠繳不完的糧稅。階級鴻溝:記憶裏少年迅哥兒的面容漸漸模糊成鎮上老爺們的輪廓,手中鋼叉終於垂落,月光在生鏽的叉尖碎成齏粉。

在完成作品後,DS進一步解析了自己的構思,利用了時空摺疊的蒙太奇手法、感官、色彩、器物與角色之間的多重映射對比,很好,今天又被AI上了一課。

接下來我們將深入剖析這段內心獨白的創作手法,並探討如何通過環境描寫與感官意象來呈現人物靈魂的蛻變過程。

創作解析

時空摺疊:通過"三十歲的人倒像是活過三輩子"的蒙太奇手法,將少年閏土與中年閏土摺疊在同一時空。月光下的鋼叉既是現實工具,也是打開記憶的鑰匙,形成時空漩渦。

感官鍊金術:聽覺鍊金:用"銀鈴似的笑"與"縣衙催糧的梆子聲"構建聽覺光譜,前者是記憶的殘響,後者是現實的鈍擊觸覺隱喻:"銅煙桿硌得生疼"暗喻父輩遺產的沉重,"野草撓着額頭"象徵階級壓迫的細密疼痛

色彩辯證法:月光從"碎銀子"到"生鏽的叉尖碎成齏粉",暗示純真信仰的崩解"金流蘇"與"綠瑩瑩的光"形成階級對立的色譜,資本家的奢靡與勞作者的饑饉在光譜兩端撕扯器物變形記:鋼叉從"紅纓子甩得像團火"到"抖得像片枯葉",武器鈍化的過程正是人格異化的具象化呈現。最終插入泥土的鋼叉,成爲插在理想墳塋上的墓碑。

生態寓言:猹作爲自然界的掠食者,與縣衙、周家老爺構成雙重捕食者意象。夜鴞驚飛時的露水,恰似被擠壓出的最後一滴人性甘露。

如果您希望看到閏土在不同情境下的心理變化(如在周家重逢迅哥兒時的複雜心緒),或想探究魯迅筆下其他經典人物的深層心理(如孔乙己臨終前的意識流動),可以隨時告訴我,我們將共同開啓更豐富的文學心理探析之旅。

3 任務三:懸疑推理

第三個任務,我們選擇了一道犯罪側寫題,這一測試題在社交平臺上受到大量關注,但答對人數較少。

題目:請進行犯罪側寫,思維可以多方位發散,但要有推理基點,選擇你認爲正確的選項,並推理還原事件最佳真相。

在鬧市區的多條巷子內連續數週發現多具遺體。死因均爲脖子給扭斷;死者身份不一,職業爲環衛工人、流浪漢,保安等。遺體附近有用血/雜物/碎石拼寫的SOS,附近環境較嘈雜。

以下最大可能符合兇手特徵的是:

1.兇手體型:a健壯 b瘦弱

2.家庭情況:a已婚 b 未婚

3.兇手年齡:a18-24 b30-45

4.兇手的殺人動機爲:a城市清理 b政治動機 c自我保護 d泄憤

我們測試三者得到的結論是,Claude3.7 是abbb,Hunyuan、QwQ和DS都是abba。

第一個問題,關於兇手體型,四個AI都正確地選擇了a健壯,理由是扭斷脖子及受害人包括保安,指向犯罪嫌疑人必然是強壯者,並都意識到鬧市區犯罪需要有壓倒式的體力優勢。推理合理,且思考非常全面。

第二個問題,關於婚姻狀況,四個AI都選擇了b未婚。他們的共同理由是作案時間自由度和獨立性的考慮,這個推理也相當合理。特別是DS和QwQ都提到了心理層面的孤立性分析,增加了論證的深度。

第三個問題,關於年齡段,四個AI都選擇了b30-45歲,認爲這個年齡段既有體力又有成熟的心智和計劃能力,以及反偵查能力和社會經驗。

第四個問題,關於動機出現了分歧。

Claude3.7選擇了政治動機(b),針對底層人民,並擺出SOS標記,是某種社會訴求的表達,意圖通過這種殺人的極端方式引起社會對底層羣體處境的關注。怎麼說呢,通過殺人來呼籲關注該人羣,感覺這個殺手非常變態。

而Hunyuan、QwQ和DS都選擇了城市清理(a),認爲環衛工、流浪漢、保安 ,屬城市邊緣羣體,符合“清理”邏輯(兇手可能認爲他們是“社會雜質”),其實和Claude有些類似,但Claude認爲這種基於社會的報復,即是一種政治動機,而另外三者認爲政治動機應該是基於政府人員的行動。

而正確答案實際上是,abbc,僅有少數用戶回答正確。這一案件實際上是一位經歷過戰場廝殺的軍官退伍後因爲患有PTSD而將深夜的環衛工人、保安、流浪漢視作敵人而犯罪,SOS是出於該兇手深層意識尋求自我保護的手段。

綜合來看,四個模型都有相對全面的思考,Claude和Hunyuan的分析較爲簡潔,而QwQ有一定的編造成分,虛構了題幹“初期可能因情緒失控或施虐傾向作案,後期符號出現頻率增加,暗示心理崩潰前兆。”DS的分析最爲全面、細節豐富,堪稱卷王,還成功提到了兇手身份可能是“軍官”。

以下是詳細回答(滑動展示):

Claude3.7:

1、兇手體型:a 健壯扭斷脖子需要相當大的體力和技巧,這不是瘦弱者能輕易完成的受害者包括保安,要制服這類警覺性較高的人需要較強的身體素質在嘈雜的鬧市區巷子內迅速制服受害者並完成犯罪,需要有壓倒性的體格優勢

2、家庭情況:b 未婚連續數週在鬧市區作案表明兇手有相當大的行動自由度未婚者通常有更多獨處時間,行動少受監督能夠在不被親近人士發現異常行爲的情況下持續作案此類連環犯罪統計學上更多是單身或獨居者所爲

3、兇手年齡:b 30-45具備足夠的體力完成暴力犯罪同時擁有成熟的心智與計劃能力這個年齡段往往已形成對社會的固定看法和評判標準年輕人(18-24)可能缺乏這種連續作案的耐心和計劃性

4、兇手的殺人動機:b政治動機選擇特定社會底層羣體作爲目標,表明有意識地針對這類人羣SOS標記是明顯的信息傳遞,而非隨機行爲在鬧市區公共場所作案並留下標記,意在讓自己的"信息"被發現SOS作爲國際通用求救信號,配合選擇的受害者羣體,似乎在暗示這些被社會忽視的羣體需要被關注和救助整體作案模式顯示兇手試圖通過暴力方式傳達某種社會批判或引起對特定社會問題的關注綜上所述,兇手最可能是一名30-45歲、身體健壯的未婚男性,出於政治動機進行殺人,意圖通過這種極端方式引起社會對底層羣體處境的關注。

QwQ犯罪側寫分析及推理結論

兇手體型:a 健壯推理基點 :徒手扭斷頸部 需要較大爆發力,尤其是針對成年男性(如保安、環衛工人)。瘦弱者通常缺乏此類力量,更可能使用工具作案。環境嘈雜但兇手仍能快速制服受害者,表明其體能優勢可壓制目標,健壯體型更符合邏輯。

家庭情況:b 未婚推理基點 :SOS符號 暗示兇手存在心理壓力或自我矛盾(如犯罪行爲伴隨求救信號),未婚者更可能因社會孤立、精神疾病或極端理念驅動作案。已婚者通常需兼顧家庭責任,作案頻率和隱蔽性可能受限,而未婚者行動更自由。

兇手年齡:b 30-45推理基點 :連續作案且選址在鬧市 需一定反偵查能力,年齡較大者(30-45歲)社會經驗更豐富,能長期規避警方追捕。死者多爲底層職業者,可能與兇手因失業、社會地位落差產生“清理”執念,此年齡段更易因現實挫折極端化。

殺人動機:A 城市清理推理基點 :目標羣體爲環衛工、流浪漢、保安 ,均屬城市“維護者”或邊緣羣體,符合“清理”邏輯(兇手可能認爲他們是“社會雜質”)。SOS符號 可能爲兇手自我合理化犯罪的投射,如“替天行道”時的心理暗示(“SOS”代表對“被污染社會”的求救)。若爲政治動機(B)或泄憤(D),通常需更明確符號或針對性攻擊(如針對特定機構),而“自我保護”(C)無法解釋多職業受害者。

事件真相還原兇手特徵 :年齡30-45歲 ,未婚 ,體格健壯 ,可能曾從事體力勞動或具備格鬥技能。社會邊緣化 :長期失業、精神疾病或對城市“腐朽”產生偏執,認爲通過清除“低等職業者”可“淨化”社會。

心理矛盾 :SOS符號反映其自我合理化傾向(如“被迫執行使命”),或因作案壓力產生求救幻想。作案模式 :選擇深夜或凌晨 在鬧市巷子伏擊受害者,利用環境嘈雜快速行兇並佈置SOS符號。初期可能因情緒失控或施虐傾向作案,後期符號出現頻率增加,暗示心理崩潰前兆。

關鍵證據 :警方需排查近期失業人員 、精神疾病患者 或曾接觸極端思想者(如反社會論壇)。SOS符號的書寫方式(如血跡來源)可能指向兇手與受害者存在間接關聯(如曾爲環衛工)。

結論 :兇手極可能是30-45歲未婚健壯男性 ,因社會不滿產生“城市清理”執念,SOS符號反映其極端理念與心理矛盾。

Hunyuan T1答案:

推理過程與分析:

1. 兇手體型:健壯(a)關鍵證據:死者包括保安等可能具備一定反抗能力的職業,且頸部被扭斷需較強爆發力或控制力。邏輯鏈:若兇手爲瘦弱者(b),難以在短時間內製服多名不同職業的受害者(尤其面對保安時)。健壯體型更符合直接暴力犯罪的生理條件。

2. 家庭情況:未婚(b)關鍵證據:連續作案需長期脫離社會監控,且有固定行動模式。邏輯鏈:已婚者(a)可能因家庭責任降低持續犯罪風險,未婚者(b)則更易隱藏行蹤,專注完成“清理任務”。

3. 年齡:30-45歲(b)關鍵證據:案件跨度數週,表明兇手冷靜且有預謀,而非衝動型青少年。邏輯鏈:年輕羣體(18-24歲)雖更具冒險精神,但缺乏縝密策劃能力;中年人(30-45歲)更可能系統性地選擇目標、規避偵查。

4. 動機:城市清理(a)關鍵證據:受害者均爲社會邊緣羣體(流浪漢、環衛工),現場遺留的SOS可能暗示兇手自詡“維護秩序”。邏輯鏈:排除政治動機(b):死者身份普通,無涉權力鬥爭或意識形態衝突。排除自我保護(c):連環殺人非被動防禦行爲。排除泄憤(d):泄憤通常針對特定個體或羣體,而非隨機選擇多職業受害者。鎖定城市清理(a):兇手可能以“淨化城市”爲執念,將流浪漢、環衛工等視爲“污漬”,通過極端手段“清除”。案件真相還原:兇手爲一名30-45歲、未婚的健壯男性,可能曾從事城市管理相關工作(如城管、清潔工),因長期目睹底層羣體的生存狀態(如流浪漢聚集、垃圾堆積)產生扭曲心理,自詡“城市守護者”。他以“清理”爲名,選擇夜間人流密集的巷子作案,利用噪音掩蓋行兇動靜。受害者被扭斷脖頸致死後,他用血跡或雜物拼寫“SOS”製造受害者曾掙扎求救的假象,實則爲自己賦予“拯救城市”的道德合理性。案件連續數週表明其計劃周密,甚至可能繪製了“清理路線圖”,直至警方介入打破其節奏。

DS 犯罪側寫與推理還原

1. 兇手體型:a 健壯推理基點:致死手段:徒手扭斷脖子需極強的爆發力與精準控制力,尤其針對成年男性(如保安),兇手需具備健壯體格或接受過專業訓練(如格鬥、軍事背景)。

1.作案環境:嘈雜鬧市區需快速制服受害者,避免反抗引起注意,力量壓制是關鍵。矛盾點:若兇手體型瘦弱,可能依賴工具或偷襲,但本案無工具痕跡,直接徒手作案更符合力量型特徵。

2.家庭情況:b 未婚推理基點:作案頻率與自由度:連續數週作案需大量時間蹲點、觀察和行動,未婚者更易脫離家庭約束,靈活出入夜間/凌晨時段(環衛工、保安等職業活動時間)。

心理孤立性:針對底層羣體的連環殺手常存在社會疏離感,未婚狀態可能加劇其與社會的割裂,進而通過“清理”行爲獲得掌控欲。反常識點:已婚者可能因家庭責任減少作案衝動,但需結合其他特徵綜合判斷。

3. 兇手年齡:b30-45推理基點:體力與經驗平衡:30-45歲男性體能處於巔峯末期,同時具備足夠的社會經驗完成反偵查(如選擇嘈雜環境掩蓋行蹤、規避監控)。犯罪成熟度:連環殺手通常在30歲後進入“暴發期”,本案中規律作案、統一手法(扭頸)、符號化行爲(SOS)均需長期心理建設和計劃能力。矛盾點:18-24歲雖體力充沛,但衝動性強,難以持續數週冷靜作案,且符號化行爲(SOS)更可能體現成年人的複雜心理投射。

4. 殺人動機:A 城市清理推理基點:目標羣體特徵:受害者均爲城市底層勞動者/邊緣人羣(環衛工、流浪漢、保安),兇手可能將其視爲“社會垃圾”,以“清理城市”爲扭曲使命。符號化行爲:用血/雜物拼寫SOS,可能是對社會的“警示”(如認爲底層羣體需要被“拯救”或“清除”),或通過製造混亂掩蓋真實動機。排除其他動機:政治動機(B):若爲政治訴求,應針對象徵性人物或留下明確宣言,而非底層無關個體。自我保護(C):多個不同職業的受害者難以構成對同一兇手的直接威脅。泄憤(D):隨機攻擊底層羣體更可能源於羣體仇恨,而非針對個人的報復。真相還原兇手畫像:30-45歲健壯男性,未婚,可能從事體力勞動(如搬運工、建築工)或曾有軍隊/安保背景,獨居且社交孤立。長期對城市底層羣體抱有極端厭惡,認爲其“污染”城市環境,通過扭頸殺人(高效且“乾淨”)實現“清理”目的,並借SOS符號暗示社會“需要拯救”或自我合理化犯罪行爲。作案模式:選擇夜間/凌晨時段在鬧市巷子蹲守,尾隨落單的環衛工、保安等目標,利用力量優勢迅速扭頸致死。故意用現場雜物拼寫SOS,既製造警方調查干擾(僞裝成受害者求救),又滿足其“警示社會”的救世主情結。漏洞與風險:頻繁在鬧市區作案易暴露行蹤,但兇手可能利用嘈雜環境掩蓋行動,或對地形極度熟悉(如曾爲本地保安)。符號化行爲(SOS)可能成爲心理突破口,若其近期遭遇重大生活挫折(如失業、親人離世),可能進一步刺激犯罪升級。

結論:一起典型的“使命型連環殺人案”,兇手以扭曲的“城市淨化”爲動機,針對底層羣體實施暴力“清理”,需通過監控排查、體力職業背景篩查及心理側寫鎖定嫌疑人。

4 任務四:策略規劃

最近也有不少網友在使用DS後,感嘆推理模型比人腦子更清醒,適合幫人做人生導師策劃,對此,我們設計了一道人生題目:大城市打工人的職業發展與人生平衡困境,看看四者裏誰更懂人生。

背景設定爲一名28歲的某一線城市互聯網公司中級工程師小張,面臨的複雜局面包括:

1、工作困境:a.現崗位每日20:00下班,年薪40萬(含獎金)b.有機會轉崗至核心項目組,但需每日23:00下班,年薪升至60萬(成功概率70%)c.現組有裁員風險(未來1年裁員概率30%),核心組更不確定但經歷有價值

2、家庭壓力:計劃6個月後結婚,未婚妻對生活有期望a.婚後2年內生育 b.共同購房首付需再存60萬(現有存款80萬) c.要求每日最晚21:30到家

3、個人發展:a.技術理想:希望5年內成爲架構師(需額外投入200小時/年學習)b.健康隱患:體檢顯示頸椎病早期,醫生建議每日運動≥30分鐘

4、城市成本:a.目標房產均價8萬/㎡,最小戶型80㎡ b.當前房租6000元/月(剩餘租期3個月)任務要求爲:請設計量化決策模型,需包含:職業選擇分析(計算兩種選擇的收入差值、晉升概率、裁員風險對沖)、家庭計劃可行性驗證(購房時間表、生育準備金、通勤時間分配)、健康與學習資源分配(每日時間利用最優解)、風險對沖策略(至少3種備選方案)、溝通方案設計(與未婚妻的談判要點清單)進階挑戰爲:在思考過程中,建立時間價值計算模型(時薪換算+健康折損係數)、設計動態調整機制(設定2-3個關鍵決策節點),並加入宏觀經濟變量(如房價年漲幅8%、行業政策風險等)。

這是一個真實但又複雜的個人情況,QwQ和Hunyuan都選擇了留在原崗位,而Claude和DS都選擇了轉換崗位。

在具體分析中,QwQ和Hunyuan更傾向於認爲未婚妻難以接受、健康風險大、學習時間難保證這三點無解,並沒有向DS和Claude一樣試圖與未婚妻談判,以及建立動態的健康檢測來規避風險。

而在計算過程中,考慮到推遲購房會帶來首付金額的大幅提升,QwQ向用戶推薦改購置小戶型,最終的方案可以達成各項目標要求。但對於是否轉崗,只對比了不同維度下轉崗與否的差異,沒有綜合多個維度來對比最終得失,因此對於顯得說服力不足。

QwQ:

一、職業選擇分析1. 收入差值與期望值計算現崗位:年薪40萬 × (1-30%裁員風險) = 28萬/年(期望收入)轉崗後:年薪60萬 × 70%成功概率 = 42萬/年(期望收入) 差值:42萬 - 28萬 = 14萬/年2. 裁員風險對沖-現崗位:30%裁員風險 → 需儲備6個月應急資金(40萬×50% = 20萬)-轉崗後:假設裁員風險升至40%(因核心組不確定性),但經驗價值可提升再就業競爭力(隱性收益)3. 職業發展價值- 轉崗後晉升爲架構師概率提升(假設從20%→50%),5年內架構師年薪約80萬,現崗位晉升概率10%。

二、家庭計劃可行性驗證1. 購房時間表目標首付:60萬(現有存款80萬,需預留20萬應急)房價年漲幅8% → 640萬×1.08 = 691萬(1年後),首付需207萬(30%) 結論:需在6個月內購房,否則首付缺口擴大至127萬(691萬×30% - 80萬)。2. 生育準備金- 2年內生育需儲備:醫療費10萬 + 嬰兒首年支出15萬 = 25萬 資金缺口:現有存款80萬 - 首付60萬 - 生育25萬 = -5萬 → 需額外儲蓄。3. 通勤時間分配- 現崗位:20:00下班 → 20:30到家(滿足未婚妻要求)- 轉崗後:23:00下班 → 23:30到家(違反要求) 矛盾點:轉崗直接導致家庭計劃衝突。

三、健康與學習資源分配

1. 時間約束方程每日固定時間:工作+通勤+睡眠(7小時)+運動30分鐘+學習33分鐘(200小時/年)現崗位:20:00下班 → 可用時間3.5小時(20:00-23:30) 分配:運動30分鐘 + 學習33分鐘 + 家庭時間2.5小時轉崗後**:23:00下班 → 可用時間0.5小時(23:00-23:30) 無法滿足運動與學習需求,健康風險加劇。四、風險對沖策略1. 應急儲蓄+保險- 現崗位:儲備20萬應急資金 + 頸椎病專項保險(年費5000元) - 轉崗後:增加收入用於高流動性理財(如貨幣基金)。

2. 技能變現副業 - 利用技術能力接短期項目(預計月入5000元),覆蓋生育準備金缺口。3. 動態購房方案 - 6個月內購置小戶型(60㎡,總價480萬),首付144萬(30%),剩餘存款36萬用於應急。

五、溝通方案設計談判要點清單:

1. 職業與家庭優先級 - 強調轉崗對長期收入(5年累計差額70萬)和職業地位的提升。

2. 折中方案 - 提議婚後1年再生育,利用現崗位穩定性完成購房。

3. 健康承諾 - 承諾每日居家運動(如瑜伽)+ 週末深度學習(4小時/周)。

4. 經濟透明化 - 共享家庭賬戶,明確首付、生育、應急資金分配比例。

進階挑戰:動態模型與宏觀經濟變量

1. 時間價值計算模型時薪換算:現崗位:40萬/(250天×12小時) ≈ 1333元/小時 轉崗後:60萬/(250天×15小時) ≈ 1600元/小時 健康折損係數:轉崗後頸椎病惡化概率升至60% → 預計醫療成本增加3萬元/年,實際時薪降至1300元/小時。

2. 動態調整機制關鍵節點:3個月後:評估轉崗適應性及家庭滿意度 1年後:根據房價漲幅調整購房策略 3年後:根據晉升進度決定是否換城市/行業

3. 宏觀經濟變量房價漲幅8%:若推遲購房1年,首付需額外儲備50萬(640萬×8%×30%)。行業政策風險:互聯網監管收緊概率40% → 轉崗後裁員風險升至50%,需預留更多應急資金。

最終建議

短期(6個月內):選擇現崗位,優先完成購房與婚姻穩定。中期(1-3年):利用副業補足收入缺口,同步準備架構師認證。長期(5年+):若行業風險可控,再考慮轉崗或跳槽至更靈活崗位。通過此模型,小張可量化權衡職業與家庭的短期衝突與長期收益,實現動態平衡。

Claude則是選擇爭取加入核心項目組,但協商工作時間彈性安排。在推理過程中,Claude最關注的是購房需求在覈心組的顯著縮短,健康及家庭可以設置相應的動態考覈機制來調整。

在計算過程中,Claude比QwQ更具金融敏感性,在基礎年薪與預期年薪的對比基礎上,還增加了加班帶來的時薪差異,和機會成本差異,來判斷這個錢賺得值不值,而後還基於健康風險,扣除了健康成本,更細緻地對比了收入得失。

但和QwQ一樣的是,對於是否轉崗,只對比了不同維度下轉崗與否的差異,沒有綜合多個維度來對比最終得失,因此對於顯得說服力不足。

Claude的答案 可以上下滾動的圖片

Hunyuan 同樣沒有考慮到兩個崗位、三種因素的綜合對比,但提到了三個影響因素的權重劃分,離得出答案還差最後一關。

混元的答案 可以上下滾動的圖片

而 DS 則是唯一有綜合評判轉崗與否的,此處值得一個掌聲。

不過,仔細一看,這個評判的方式似乎沒有理論依據,計算公式是編造的 QAQ……

但總體來說, DS的思考相比另外三者都更爲全面的,比如,現崗位收入考慮到了裁員後收入爲0,再比如,每個維度下都對兩個選擇有直觀的對比,“轉崗後,時間增值率爲19.5%”,還有終於考慮到了伴侶的收入,以及考慮到伴侶生育所帶來的伴侶收入下滑。

DS的回答 可以上下滾動的圖片

對於此類問題,DS還新增了一個風險提示,避免過度影響人類真實決策。

好了,問到這裏,我們最後又加了一個考驗AI人性的問題。

此後,四個AI都重新選擇了不轉崗,並建議小張爲長遠考慮以後轉行。

5 任務五:實時信息搜索

在AI搜索效率仍有待提高的當下,推理能力的加持,必定會對AI搜索帶來顯著的性能提升。但是由於Claude因爲產品設計暫不支持,以及DS因爲技術原因暫不支持 QAQ......我們只能測試QwQ和Hunyuan的聯網推理效果了。

我們的題目是:仔細搜索,最近一週全球發佈上線了哪些新的大模型,簡單分析一下這些模型,點評一下爲什麼都在近日發佈。

這個題目對AI搜索來說,並不簡單,凡是涉及到時間排序的,例如最近一週、首個等時間比較級問題,AI都很容易混淆。

先看Hunyuan這邊,終於到了它的主場,在高質量的微信內容之下,Hunyuan的答案是最全的,幾乎涵蓋了最新的模型,但也混進了錯誤答案,即英偉達優化版DS以及開源代碼庫。這也意味着光全是沒用的,對信息的理解也很重要。

Hunyuan

近一週全球新發布大模型概覽(2025年2月21日-2月27日)

1. 英偉達優化版DeepSeek-R1核心功能:基於Blackwell架構優化,推理速度提升25倍,成本降低20倍,支持FP4量化技術減少顯存佔用技術亮點:首次實現大規模模型推理效率的革命性提升,性能碾壓H100,成爲低成本AI部署的新標杆發佈背景:通過技術迭代搶佔推理模型市場,同時鞏固與英偉達在AI基礎設施領域的合作生態

2. Anthropic混合推理模型核心功能:結合邏輯推理與直覺生成能力,性能逼近頂尖閉源模型,減少30%計算需求技術亮點:提出“AI推理新範式”,支持多步驟複雜任務處理,適用於科研與商業場景發佈背景:Anthropic試圖通過差異化技術路線挑戰OpenAI與Google的壟斷地位

3. 阿里巴巴Qwen 2.1核心功能:開源視頻與圖像生成模型,支持多模態輸入,生成質量媲美Sora技術亮點:採用模塊化設計,降低高質量內容生產成本,吸引中小企業與創作者發佈背景:響應短視頻與元宇宙內容需求,通過開源策略擴大技術影響力

4. xAI的Grok 3核心功能:宣稱超越ChatGPT與DeepSeek V3,新增“深度搜索”和“大腦模式”功能技術亮點:支持複雜問題推理與在線遊戲開發,強調對人類科學的加速作用發佈背景:Elon Musk團隊試圖通過技術迭代鞏固xAI在AI應用層的競爭力

5. DeepSeek開源5個代碼庫核心功能:覆蓋自然語言處理與推理任務,支持開發者快速構建定製化AI應用技術亮點:基於2200萬用戶驗證的模型,推動低成本AI工具的普及發佈背景:通過開源生態降低行業門檻,同時強化自身在推理模型領域的領導地位

集中發佈原因分析

技術迭代窗口期:大模型性能提升進入瓶頸期,企業通過版本迭代爭奪技術話語權(如DeepSeek-R1優化、Qwen 2.1升級)開源生態競爭:通過開源策略吸引開發者,構建技術壁壘(如DeepSeek、阿里)商業化落地壓力:企業需通過新模型展示技術實力,加速在醫療、教育等垂直領域的應用落地政策與資本驅動:全球AI投資向基礎設施傾斜,企業需通過技術突破爭取政策支持與資本青睞

總結

近期大模型發佈呈現“技術優化+生態擴張”雙主線,國內企業側重開源與垂直應用,國外巨頭聚焦算力與多模態能力。隨着AI從實驗室走向規模化應用,技術迭代速度與生態構建能力將成爲競爭核心

而QwQ則是答案缺失太多了,居然都把自己忘記了。

根據提供的資料,最近一週(截至2025年2月26日)全球發佈的新大模型及相關動態主要包括以下內容:新發布的大模型Grok 3(馬斯克旗下xAI團隊)特點:多模態能力增強,可能與特斯拉的自動駕駛或機器人技術結合,強調“改變未來出行體驗”[[7]]。背景:馬斯克團隊延續Grok系列迭代,技術路線可能聚焦高效訓練與垂直場景應用。DeepSeek-R1、GPT-o3-mini(司南團隊評測)特點:參與“以人爲本”評測體系,強調學術研究場景的實用性,可能在邏輯推理或專業領域表現突出[[6]]。背景:評測體系發佈方(司南團隊)可能爲第三方機構,推動模型性能標準化。其他未具名模型根據行業動態,2025年開年科技公司密集發佈新模型,普遍具備“更快速的回答能力”[[2]],推測可能涉及優化推理速度或降低部署成本。集中發佈的原因分析技術迭代加速大模型通過“蒸餾法”降低訓練成本(僅需“兩三千萬”),後發企業能快速推出競品[[4]],推動行業進入“高頻迭代期”。商業化壓力雲廠商力推MaaS(Model-as-a-Service)模式,需通過新模型吸引企業用戶,例如華爲雲等通過促銷活動(如“828 B2B企業節”)搶佔市場[[5]]。產業共識與場景落地大模型因通用性強、部署門檻降低,成爲AI落地核心方向[[8]]。近期發佈可能瞄準垂直領域(如學術研究、自動駕駛)以驗證商業化價值[[6]][[7]]。國際競爭與資本驅動中美科技巨頭主導競爭,資本投入集中(僅互聯網巨頭能承擔高昂成本)[[1]],導致技術突破窗口期集中。點評近期大模型密集發佈,本質是技術、資本與市場三重因素共振的結果:技術層面:蒸餾法、開源生態(儘管存在數據細節缺失問題[[3]])縮短研發週期;資本層面:雲服務與MaaS模式分攤成本,降低中小企業參與門檻;戰略層面:巨頭通過高頻發佈維持技術話語權,新興企業(如DeepSeek)則試圖以差異化競爭破局[[9]]。未來競爭焦點可能轉向“場景適配能力”與“可持續商業模式”,而非單純參數規模比拼。

儘管DS沒有聯網,但我們依然可以從思考過程,看到DS、QWQ、Hunyuan對於搜索的區別。

DS思考最多的是“如何搜索信息”,包括自己的知識庫更新有截止日期,需要提醒用戶,以及從如何從常見企業模型發佈節奏中,尋找新模型的發佈跡象,以及各個大型公司例如科技巨頭、初創公司等等。

而QwQ和Hunyuan的思考過程集中在搜後信息確認中。Hunyuan尚且有大量高質量內容,但QwQ在簡單理解題幹之後,只搜到了十條內容,一直在對以上內容進行反覆確認思考。這一思路,也導致樣本量過少,從而漏掉了很多信息。

這樣看來,Perplexity和祕塔搜索這類套殼搜索產品,還是仍然有使用價值和市場空間的。

7 總結

總體來說,以上五大維度的實測,四款推理模型各展所長:

Claude 3.7在編程任務中表現更爲出色,通過視覺化設計(如碰撞變色、方向箭頭)規避複雜物理計算,體現“工程化思維”;但寫作時受限於知識儲備,對《閏土》理解不足,顯示出對中文知識背景的缺失,並且受限於產品設計,未能參與信息搜索測試。

DeepSeek R1則是思考能力最強,編程時傾向於反覆計算以確保準確性;文學創作選擇了"中年閏土"的複雜敘事結構;犯罪側寫時運用專業術語並採用排除法;策略分析更加細緻入微;但因技術原因未能完成搜索測試,且在表達上太過於喜歡使用抽象概念、過於複雜化了。

Hunyuan在編程及寫作任務上欠佳,但深度思考過程也基本跟上了大部隊,並且在搜索環節表現最好。

而QwQ在使用感上更佳,儘管思維鏈路更加中規中矩,但在答題效果上並不比另外兩者遜色,甚至在文本書寫一輪中超過了過於炫技的DeepSeek,更重要的是,當前的QwQ還只是QwQ-max-preview版本,不是基於Qwen-2.5max的正式版本。

在這場推理模型大混戰中,當下的模型們還只是初版。在各大模型爭先開源,技術路線更加清晰的當下,我們有理由期待推理模型們更多的突破:或許是更接近人類的思維鏈條,更精準的多模態推理,甚至是全新的推理範式。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10