亚洲狠狠,一级黄色大片,日韩在线第一区视屏,韩国作爱视频久久久久,亚洲欧美国产精品专区久久,青青草华人在线视频,国内精品久久影视免费

每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

20萬(wàn)張GPU“燒出”地表最強(qiáng) AI？馬斯克的Grok 3超1400分登頂排行榜，OpenAI聯(lián)合創(chuàng)始人：略強(qiáng)于 DeepSeek-R1

每日經(jīng)濟(jì)新聞 2025-02-18 21:05:42

當(dāng)?shù)貢r(shí)間2月17日晚，馬斯克旗下AI公司xAI發(fā)布了Grok 3及其精簡(jiǎn)版Grok 3 mini。馬斯克在發(fā)布會(huì)上聲稱(chēng)，Grok 3在包括AIME和GPQA在內(nèi)的基準(zhǔn)測(cè)試中擊敗了所有市面上的模型。然而，有用戶(hù)指出Grok 3在游戲相關(guān)結(jié)論和編程問(wèn)題上出現(xiàn)了錯(cuò)誤。OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy在短暫的上手體驗(yàn)后認(rèn)為，Grok 3 + Thinking與ChatGPT的o1-pro差不多，略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。

每經(jīng)記者岳楚鵬每經(jīng)編輯蘭素英

一度“跳票”的AI模型Grok 3終于迎來(lái)正式發(fā)布。

當(dāng)?shù)貢r(shí)間2月17日晚，馬斯克旗下AI公司xAI發(fā)布了Grok 3及其精簡(jiǎn)版Grok 3 mini。發(fā)布會(huì)采用視頻直播形式，觀看人數(shù)超過(guò)100萬(wàn)人。

Grok 3是xAI對(duì)OpenAI的o3-mini和DeepSeek的R1等模型的回應(yīng)，它可以分析圖像和回答問(wèn)題，并為X上的許多功能提供支持。前天馬斯克就在X上造勢(shì)稱(chēng)，Grok 3是“地球上最聰明的人工智能”。

圖片來(lái)源：直播截圖

在發(fā)布會(huì)上，馬斯克和三位xAI的工程師一起演示了Grok 3的各種功能。馬斯克在直播演示中聲稱(chēng)，Grok 3在包括AIME（測(cè)試模式在數(shù)學(xué)問(wèn)題上的表現(xiàn)）和GPQA（測(cè)試模型在博士級(jí)物理、生物和化學(xué)問(wèn)題上的表現(xiàn)）在內(nèi)的基準(zhǔn)測(cè)試中擊敗了所有的市面上所有模型。

馬斯克似乎也并非在打“誑語(yǔ)”。從AI基準(zhǔn)測(cè)試開(kāi)放平臺(tái)lmarena.ai放出的截圖看，測(cè)試數(shù)據(jù)顯示，早期版本的Grok 3（代號(hào)chocolate）在Arena排行榜上拿下了第一，吊打其他主流AI大模型，并且，Grok 3還是第一個(gè)獲得超過(guò)1400分的模型。

然而，有用戶(hù)在觀看發(fā)布會(huì)后指出，Grok 3給出的關(guān)于《流放之路2》游戲的結(jié)論錯(cuò)誤頻出，另有用戶(hù)測(cè)試發(fā)現(xiàn)，Grok 3在經(jīng)典的多邊形小球編程問(wèn)題上也出現(xiàn)了錯(cuò)誤。

OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy也在發(fā)布會(huì)后放出了自己的感想。他認(rèn)為，就目前短暫上手的體驗(yàn)而言，Grok 3 + Thinking感覺(jué)與ChatGPT的o1-pro差不多，略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。

拿下Arena榜單第一！Grok 3是首個(gè)超1400分的模型

早在2024年7月，馬斯克在與喬丹·彼得森的訪談節(jié)目時(shí)就表示，Grok 3預(yù)計(jì)將在2024年12月底發(fā)布。但到了年底，這個(gè)承諾并沒(méi)有兌現(xiàn)，一度有人懷疑這只不過(guò)是馬斯克無(wú)數(shù)個(gè)大餅中的其中一個(gè)，Grok 3或許遙遙無(wú)期。

不過(guò)，在上周的迪拜峰會(huì)上，馬斯克卻突然宣布，xAI將在一到兩周內(nèi)推出新一代AI模型Grok 3，而這個(gè)模型的強(qiáng)大程度，用他的話(huà)說(shuō)，“強(qiáng)到讓人感到害怕”。馬斯克甚至預(yù)言這可能是“最后一次有AI比Grok更優(yōu)秀”。

從xAI在直播中放出的基準(zhǔn)測(cè)試結(jié)果來(lái)看，Grok 3在數(shù)學(xué)、科學(xué)和編程領(lǐng)域的表現(xiàn)大幅領(lǐng)先于市面上其他主流的AI模型。

在數(shù)學(xué)能力測(cè)試（AIME'24）中，Grok 3獲得52分，明顯超過(guò)DeepSeek-V3的39分和GPT-4o的9分；在科學(xué)知識(shí)評(píng)估（GPQA）中，Grok 3以75分的成績(jī)領(lǐng)先，而DeepSeek-V3和GPT-4o的得分分別為65分和50分；在編程能力測(cè)試（LCB Oct-Feb）中，Grok 3同樣以57分超過(guò)DeepSeek-V3的36分合GPT-4o的34分。

圖片來(lái)源：xAI

在推理模型的比較中，Grok 3 Reasoning Beta也戰(zhàn)勝了OpenAI的o3-mini、DeepSeek的R1和Gemini-2 Flash Thinking等推理模型。不過(guò)，演示團(tuán)隊(duì)表示允許Grok去進(jìn)行更長(zhǎng)時(shí)間的思考和推理。

圖片來(lái)源：xAI

AI基準(zhǔn)測(cè)試開(kāi)放平臺(tái)lmarena.ai也爆出猛料，最新測(cè)試數(shù)據(jù)顯示，早期版本的Grok 3（代號(hào)chocolate）在經(jīng)過(guò)約8000次投票后，在Arena排行榜上拿下第一。

圖片來(lái)源：X

lmarena.ai稱(chēng)，Grok 3是第一個(gè)突破了1400分的模型，并且在所有分類(lèi)中都排名第一，而這一里程碑以后會(huì)越來(lái)約難以實(shí)現(xiàn)。

圖片來(lái)源：X

三個(gè)月數(shù)據(jù)中心容量翻倍至20萬(wàn)塊GPU

和DeepSeek從技術(shù)層面對(duì)模型進(jìn)行改進(jìn)不同，馬斯克的新模型還是屬于“大力出奇跡”。

此前有新聞報(bào)道，馬斯克組建了一個(gè)配有十萬(wàn)塊H100 GPU的、世界上最大的超級(jí)計(jì)算機(jī)集群Colossus來(lái)幫助訓(xùn)練Grok模型。在此次直播中，馬斯克透露，實(shí)際上，到訓(xùn)練進(jìn)行到92天時(shí)，集群的規(guī)模已經(jīng)擴(kuò)大到了20萬(wàn)塊GPU。

圖片來(lái)源：xAI

也難怪有人說(shuō)Grok 3是終極的Scaling Law測(cè)試了，是靠吞噬算力訓(xùn)練起來(lái)的怪物。

演示團(tuán)隊(duì)為了使大家更直觀地了解Grok 3的強(qiáng)大之處，還演示了物理學(xué)和游戲的例子。

首先，要求Grok 3生成一段代碼繪制從地球發(fā)射火箭，降落在火星，然后在下一個(gè)發(fā)射窗口返回地球的三維動(dòng)畫(huà)圖表。這一任務(wù)涉及大量的數(shù)學(xué)和物理計(jì)算，極具挑戰(zhàn)性。Grok 3很快生成了完整的動(dòng)畫(huà)，研究人員在檢查后表示結(jié)果完全正確。

圖片來(lái)源：xAI

之后，演示團(tuán)隊(duì)又要求Grok編寫(xiě)一個(gè)結(jié)合俄羅斯方塊和寶石迷城的游戲，Grok也順利完成了任務(wù)。

除了基本的模型能力之外，Grok 3也具備智能體功能。

xAI為Grok 3開(kāi)發(fā)了一個(gè)類(lèi)似于OpenAI的DeepSearch智能體。DeepSearch可以對(duì)互聯(lián)網(wǎng)進(jìn)行全面搜索，并為用戶(hù)提供詳盡的整合報(bào)告。馬斯克表示，這可以省下你幾十次谷歌搜索的時(shí)間，而公司將得到幾十億美元的回報(bào)。

OpenAI 聯(lián)合創(chuàng)始人：Grok 3 + Thinking與o1-pro差不多，略好于DeepSeek-R1

在演示團(tuán)隊(duì)的展示中，Grok 3似乎無(wú)所不能，拳打OpenAI，腳踢Deepseek，已然站上世界AI模型的巔峰，但有些觀看了演示和迫不及待體驗(yàn)了Grok 3的用戶(hù)卻發(fā)現(xiàn)了一些奇怪的問(wèn)題。

在發(fā)布會(huì)中，為了演示DeepSearch功能，演示團(tuán)隊(duì)就馬斯克最近在玩的游戲《流放之路2》詢(xún)問(wèn)了一個(gè)相關(guān)問(wèn)題。有游戲博主看后表示，Grok 3給出的游戲結(jié)論錯(cuò)誤頻出，感覺(jué)不如馬斯克宣稱(chēng)的那么聰明。

圖片來(lái)源：?jiǎn)袅▎袅?/p>

有專(zhuān)門(mén)直播該游戲的游戲博主也對(duì)《每日經(jīng)濟(jì)新聞》記者表示，Grok 3給出的答案沒(méi)一個(gè)是對(duì)的，不如GPT。

另外，有用戶(hù)體驗(yàn)了Grok 3的編程功能，隨后也表示，Grok 3的編程能力并不是很強(qiáng)大。在經(jīng)典的多邊形小球編程問(wèn)題上，Grok 3出現(xiàn)了錯(cuò)誤。

圖片來(lái)源：X

OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy作為為數(shù)不多的提前拿到測(cè)試資格的人，也在發(fā)布會(huì)后放出了自己的感想。他認(rèn)為，就目前短暫上手的體驗(yàn)而言，Grok 3 + Thinking感覺(jué)與ChatGPT的o1-pro差不多，略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。

Karpathy表示，Grok 3顯然有一個(gè)最先進(jìn)的思維模型，并且在卡坦島定居者問(wèn)題上做得很好。很少有模型能夠可靠做到這一點(diǎn)。頂級(jí)的OpenAI推理模型（如o1-pro，月訂閱費(fèi)為200美元）也能做到這一點(diǎn)，但DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude的所有模型都沒(méi)辦法做到。

但Grok 3并沒(méi)有解決“表情符號(hào)之謎”問(wèn)題，即使以Rust代碼的形式給出了有關(guān)如何解碼它的強(qiáng)烈提示。而在這點(diǎn)上，Karpathy稱(chēng)其見(jiàn)過(guò)的最大進(jìn)展來(lái)自DeepSeek-R1，它曾經(jīng)部分解碼了消息。

此外，Karpathy認(rèn)為，DeepSearch大約等于Perplexity DeepResearch的產(chǎn)品，但還沒(méi)有達(dá)到OpenAI最近發(fā)布的“深度研究”的水平。

不過(guò)，他同時(shí)也指出，考慮到xAI團(tuán)隊(duì)在大約在1年前從頭開(kāi)始，這是相當(dāng)令人難以置信的，達(dá)到最先進(jìn)領(lǐng)域的時(shí)間跨度是前所未有的。目前得出完整結(jié)論還為時(shí)過(guò)早，需要在在接下來(lái)的幾天/幾周內(nèi)等待更多的評(píng)估。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線(xiàn)：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

Grok 3 Ai 大模型馬斯克

上一篇文章

新機(jī)場(chǎng)呼之欲出，它要爭(zhēng)奪“第四城”？

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

馬斯克曝光社保造假后，美國(guó)就業(yè)數(shù)據(jù)也發(fā)現(xiàn)問(wèn)題！近25年官方299次修正記錄顯示：極端高估多在大選年，極端低估多在總統(tǒng)上任首年

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專(zhuān)區(qū)

加入我們
招聘專(zhuān)頁(yè)

Copyright ? 2025 每日經(jīng)濟(jì)新聞報(bào)社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線(xiàn)? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會(huì)征信網(wǎng)

兒童色情信息舉報(bào)專(zhuān)區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

四川省互聯(lián)網(wǎng)舉報(bào)中心

中國(guó)互聯(lián)網(wǎng)舉報(bào)中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號(hào)：蜀ICP備19004508號(hào)-3 川公網(wǎng)安備 51019002002026號(hào)

新聞職業(yè)道德監(jiān)督熱線(xiàn)：400 889 0008 郵箱：zbb@nbd.com.cn