Grok-3才发布3天,就陷入作弊风波。
隔壁OpenAI应用主管火速掀桌:每次评估中o3-mini都要比Grok-3好,看到Grok团队作弊真是令人失望。
咋回事?
在Grok-3的Blog中有一张AIME 2025评估图令人印象深刻,两个新版本模型都超过o3-mini高配版。
但注意看,Grok-3两个模型的柱状图中都有1段颜色更浅的部分。OpenAI指责的作弊,就是在这里。
浅色部分代表了Grok-3模型在Con@64上的成绩。
即这是模型进行64次答案后的成绩,而不是单次回答。
那么问题就来了,被拿来对比的o3-mini、o1、DeepSeek-R1、Gemini-2 Flash Thinking似乎并没有这部分成绩。
有人就表示,如果真是如此,那么Grok-3推理模型只是和o1相当。OpenAI和xAI之间依旧差了9个月。
OpenAI负责模型设计的研究员Aidan McLaughlin更是激情开麦,表示马斯克发布时说的话极其有误导性,这会让人以为浅蓝色部分是通过推理实现的成绩。
不过值得一提的是,这种模型评估对比方法似乎是OpenAI开了头。o3-mini的Blog中,也看到了类似形式的评估。
所以,为啥这么对比不合理?
采用cons@64,o1都能和o3-mini相当
首先明确概念:
cons@64:让模型生成64个答案,最终采用出现频率最高的回答。
pass@64:如果64个答案中只要有一个答案正确,模型就得分。
所以有人就说了,问题的关键不是xAI不应该使用cons@64;
关键在于,如果其他模型只是尝试了一次,那就不太公平了。
因为blog中并没有说清楚,所以假定是这种情况。
有AI博主也列出了搜集到的相关数据,o3-mini在单次回答上的表现更好。
其次,根据o3-mini的blog,o1模型采用cons@64成绩,甚至可以和o3-mini打个相当。
这意味着采用cons@64成绩是“有优势”的。
有人也揪着这事不放,但是OpenAI确实没让o3-mini用cons@64。
最后,Grok-3发布时的说法似乎有一定误导性。
有人贴出来了原片段。在被问及评估图中的浅色部分是什么时,官方给出的解释是:
这些模型可以推理、可以思考,可以要求模型思考更长、花更多时间进行测试时推理。这种情况下,这些浅色部分意味着我们只是花费更多时间让模型解决同一个问题,然后它才会得出什么是正确的答案。如果这样做,模型甚至可以表现得更好。
OpenAI研究员Aidan觉得这段话极具误导性,他只是说使用更多测试时计算,听起来像是做更多推理,但其实不是如此。
总而言之,Grok团队这么干确实有点不地道。
吃瓜到这,网友们不免开始蛐蛐:
Grok-3不如o3-mini,马斯克就会给团队上压力。然后想出的好办法就是在基准测试上做手脚。
以及为啥都不和Claude做对比呢?
不过也有人觉得这事不能一棒子打死,Grok仍旧有很多值得关注的方面。比如Grok-3一个月前才完成预训练,这只是一个月内基于CoT的后训练结果,模型还有很大的提升空间。此外xAI正在以行业内最快的速度扩展预训练计算能力。
以及Grok-3发布后,开发者们已经火速琢磨出了一些有趣的新玩法。
轻松开发小游戏
这不,有人就晒出了在特斯拉上完用Replit+Grok开发的小游戏。
还有曾在微软深度参与Windows系统开发的大佬Dave Plummer,也用Grok-3复刻了经典的打砖块游戏。
他为Windows创建了任务管理器、为Windows完成了对zip文件的支持。
这一次,他展示了如何只用几句话就让Grok-3开发小游戏。
提示词都很简单:
“来做个彩色版打砖块怎么样”
“让球自动移动,并让球每次从球拍上弹起时速度提高 10%”
“很好,球在垂直弹射时会卡住。一开始游戏是怎么设计的?do the same”
最后得到的效果是这样的:
值得一提的是,马斯克最近证实了成立了AI游戏工作室的消息,他要让游戏再次伟大(doge)。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.