46股市观察

投资策略研究 20万张GPU“烧出”地表最强 AI?马斯克的Grok 3超1400分登顶排名榜,OpenAI聚会首创东说念主:略强于 DeepSeek-R1

发布日期:2025-02-19 08:10    点击次数:87

投资策略研究 20万张GPU“烧出”地表最强 AI?马斯克的Grok 3超1400分登顶排名榜,OpenAI聚会首创东说念主:略强于 DeepSeek-R1

一度“跳票”的AI模子Grok 3终于迎来厚爱发布。

当地时刻2月17日晚,马斯克旗下AI公司xAI发布了Grok 3过甚精简版Grok 3 mini。发布会遴荐视频直播体式,不雅看东说念主数起始100万东说念主。

Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模子的恢复,它不错分析图像和回答问题,并为X上的很多功能提供救助。前天马斯克就在X上造势称,Grok 3是“地球上最贤达的东说念主工智能”。

图片来源:直播截图

在发布会上,马斯克和三位xAI的工程师一王人演示了Grok 3的各式功能。马斯克在直播演示中宣称,Grok 3在包括AIME(测试格局在数学问题上的推崇)和GPQA(测试模子在博士级物理、生物和化学问题上的推崇)在内的基准测试中打败了悉数的市面上悉数模子。

马斯克似乎也并非在打“诳语”。从AI基准测试灵通平台lmarena.ai放出的截图看,测试数据自满,早期版块的Grok 3(代号chocolate)在Arena排名榜上拿下了第一,吊打其他主流AI大模子,况且,Grok 3如故第一个赢得起始1400分的模子。

然而,灵验户在不雅看发布会后指出,Grok 3给出的对于《放逐之路2》游戏的论断造作频出,另灵验户测试发现,Grok 3在经典的多边形小球编程问题上也出现了造作。

OpenAI聚会首创东说念主Andrej Karpathy也在发布会后放出了我方的感念。他以为,就现在片时上手的体验而言,Grok 3 + Thinking嗅觉与ChatGPT的o1-pro差未几,略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。

拿下Arena榜单第一!Grok 3是首个超1400分的模子早在2024年7月,马斯克在与乔丹·彼得森的访谈节目时就线路,Grok 3瞻望将在2024年12月底发布。但到了年底,这个应许并莫得结束,一度有东说念主怀疑这只不外是马斯克无数个大饼中的其中一个,Grok 3唐突遥不可及。

不外,在上周的迪拜峰会上,马斯克却倏得告示,xAI将在一到两周内推出新一代AI模子Grok 3,而这个模子的强猛进度,用他的话说,“强到让东说念主感到褊狭”。马斯克致使预言这可能是“终末一次有AI比Grok更优秀”。

从xAI在直播中放出的基准测试恶果来看,Grok 3在数学、科学和编程范围的推崇大幅起始于市面上其他主流的AI模子。

在数学智力测试(AIME'24)中,Grok 3赢得52分,显豁起始DeepSeek-V3的39分和GPT-4o的9分;在科学学问评估(GPQA)中,Grok 3以75分的收货起始,而DeepSeek-V3和GPT-4o的得分差异为65分和50分;在编程智力测试(LCB Oct-Feb)中,Grok 3相通以57分起始DeepSeek-V3的36分合GPT-4o的34分。

图片来源:xAI

在推理模子的相比中,Grok 3 Reasoning Beta也投诚了OpenAI的o3-mini、DeepSeek的R1和Gemini-2 Flash Thinking等推理模子。不外,演示团队线路允许Grok去进行更永劫刻的念念考和推理。

图片来源:xAI

AI基准测试灵通平台lmarena.ai也爆出猛料,最新测试数据自满,早期版块的Grok 3(代号chocolate)在过程约8000次投票后,在Arena排名榜上拿劣等一。

图片来源:X

lmarena.ai称,Grok 3是第一个浮松了1400分的模子,况且在悉数分类中都排名第一,而这一里程碑以后会越来约难以实现。

图片来源:X

三个月数据中心容量翻倍至20万块GPU和DeepSeek从工夫层靠近模子进行阅兵不同,马斯克的新模子如故属于“狂放出遗迹”。

此前有新闻报说念,马斯克组建了一个配有十万块H100 GPU的、宇宙上最大的超等计较机集群Colossus来匡助训诫Grok模子。在这次直播中,马斯克清晰,实质上,到训诫进行到92天时,集群的限度仍是扩大到了20万块GPU。

图片来源:xAI

也难怪有东说念主说Grok 3是终极的Scaling Law测试了,是靠兼并算力训诫起来的怪物。

演示团队为了使全球更直不雅地了解Grok 3的高大之处,还演示了物理学和游戏的例子。

起始,条目Grok 3生成一段代码绘制从地球放射火箭,降落在火星,然后不才一个放射窗口复返地球的三维动绘画表。这一任务波及多数的数学和物理计较,极具挑战性。Grok 3很快生成了齐全的动画,磋商东说念主员在查验后线路恶果全都正确。

图片来源:xAI

之后,演示团队又条目Grok编写一个取悦俄罗斯方块和对持迷城的游戏,Grok也顺利完成了任务。

除了基本的模子智力除外,Grok 3也具备智能体功能。

xAI为Grok 3诞生了一个肖似于OpenAI的DeepSearch智能体。DeepSearch不错对互联网进行全面搜索,并为用户提供详备的整合讨教。马斯克线路,这不错省下你几十次谷歌搜索的时刻,而公司将得到几十亿好意思元的陈诉。

OpenAI 聚会首创东说念主:Grok 3 + Thinking与o1-pro差未几,略好于DeepSeek-R1在演示团队的展示中,Grok 3似乎无所不可,拳打OpenAI,脚踢Deepseek,断然站上宇宙AI模子的巅峰,但有些不雅看了演示和迫不足待体验了Grok 3的用户却发现了一些奇怪的问题。

在发布会中,为了演示DeepSearch功能,演示团队就马斯克最近在玩的游戏《放逐之路2》商讨了一个关系问题。有游戏博主看后线路,Grok 3给出的游戏论断造作频出,嗅觉不如马斯克宣称的那么贤达。

图片来源:哔哩哔哩

有有益直播该游戏的游戏博主也对《逐日经济新闻》记者线路,Grok 3给出的谜底没一个是对的,不如GPT。

另外,灵验户体验了Grok 3的编程功能,随后也线路,Grok 3的编程智力并不是很高大。在经典的多边形小球编程问题上,Grok 3出现了造作。

图片来源:X

OpenAI聚会首创东说念主Andrej Karpathy行为为数未几的提前拿到测试经验的东说念主,也在发布会后放出了我方的感念。他以为,就现在片时上手的体验而言,Grok 3 + Thinking嗅觉与ChatGPT的o1-pro差未几,略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。

Karpathy线路,Grok 3显豁有一个起初进的念念维模子,况且在卡坦岛假寓者问题上作念得很好。很少有模子能够可靠作念到这小数。顶级的OpenAI推理模子(如o1-pro,月订阅费为200好意思元)也能作念到这小数,但DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude的悉数模子都没观念作念到。

但Grok 3并莫得惩办“色调符号之谜”问题,即使以Rust代码的体式给出了相关若何解码它的厉害指示。而在这点上,Karpathy称其见过的最猛进展来自DeepSeek-R1,它也曾部确认码了音问。

此外,Karpathy以为,DeepSearch大致就是Perplexity DeepResearch的居品,但还莫得达到OpenAI最近发布的“深度磋商”的水平。

不外,他同期也指出,商酌到xAI团队在大致在1年前从新驱动,这是卓越令东说念主难以置信的,达到起初进范围的时刻跨度是前所未有的。现在得出齐全论断还为时过早,需要在在接下来的几天/几周内恭候更多的评估。

逐日经济新闻

【免责声明】本文仅代表作家本东说念主不雅点,与和讯网无关。和讯网站对文中述说、不雅点判断保握中立,不合所包含内容的准确性、可靠性或齐全性提供任何昭示或默示的保证。请读者仅作参考,并请自行承担全部职守。邮箱:news_center@staff.hexun.com