一级黄网站_波多野结衣片子_欧美性极品_熟女高潮一区二区三区_亚洲最大成人在线_xxx在线播放

目錄

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角

人工智能AI2025-07-11
7月10日,xAI正式發布Grok 4,這個被馬斯克稱為"世界上最智能AI"的家伙,直接把AI圈的天花板又捅了個窟窿。碾壓的Benchmark和跨級的表現都足夠讓人振奮。今年年初那種分數膠著、進步有限的模型發布序列,在今天被徹底打破了。馬斯克表示,"現在在學術問題上,Grok 4比博士水平在每個學科都要強,沒有例外。"...

7月10日,xAI正式發布Grok 4,這個被馬斯克稱為"世界上最智能AI"的家伙,直接把AI圈的天花板又捅了個窟窿。

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-1.jpg

碾壓的Benchmark和跨級的表現都足夠讓人振奮。今年年初那種分數膠著、進步有限的模型發布序列,在今天被徹底打破了。

馬斯克表示,"現在在學術問題上,Grok 4比博士水平在每個學科都要強,沒有例外。"

xAI,率先跨入了下一代AI。

01 碾壓式登場:全面benchmark屠榜

先說數據,再聊感受。

Benchmark這里,只有兩個字去形容:超越。

最有代表性的有兩個:

一是在被稱為AI界"最后審判"的HLE(人類最后考試)中,Grok 4獲得了45%的成績。此前的冠軍Gemini 2.5 Pro只有21%。直接翻倍。

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-2.jpg

這一考試集中了共計 2,500 道各個領域中最困難的問題。馬斯克表示,"任何給定的人類,最好能得多少分?我樂觀地說可能是5%。"

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-3.jpg

第二個在ARC AGI v2這個號稱"推理能力試金石"的變態測試中,Grok 4拿到了15.8%,是第二名Claude 4Opus的2倍。這個測試在過去三個月里,只有Grok 4突破了10%大關。

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-4.jpg

而在其他頂級benchmark上,Grok 4基本實現了"屠榜":

  • GBQA(博士級問題集):近乎完美表現

  • AMC 25(美國數學邀請賽):Grok 4 Heavy版本滿分

  • Live Coding Benchmark:編程能力測試領先

  • HMMT(哈佛-MIT數學競賽):大幅領先第二名

  • USAMO(美國數學奧林匹克):同樣霸榜

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-5.jpg

在考試類的測試之外,xAI也順應了“大模型進入下半場”的判斷,特別強調了模型完成實際任務的能力。

在Vending Benchmark的模擬商業環境測試中,Grok 4賺的錢凈資產是之前最高模型的兩倍,運行時間也是它的兩倍。在試驗期間賺了4700多美元,水平遠超普通人類。

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-6.jpg

這個和前一陣Anthropic實驗在辦公室讓Claude4管理自動售貨機是差不多一個測試,模型得負責選品、聯系人員供貨、根據銷售情況調整策略。可以說是實打實的“數字員工”了。

對此,馬斯克開玩笑說:"我們只需要一百萬臺自動售貨機,每年就能賺47億美元。"但這也意味著當下最前沿的AI,確實可以接管部分人類的商業決策了。

而在生物醫學領域更夸張。帕洛阿爾托的ARC研究所已經在用Grok 4自動化CRISPR研究流程,"在幾秒鐘內從數百萬個實驗日志中篩選最佳假設"。

Grok 4在胸部X光檢查評估中獲得了最佳評分。

Grok團隊還提到,一個他們合作的游戲設計師用Grok 4,4小時內擼出了一個完整的FPS游戲。Grok 4不僅編寫游戲邏輯,還自動搜索和整合了所有素材、紋理、音效。

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-7.jpg

雖然效果一般,但這也是基礎模型處理此類復雜工作的標桿了。

對此,馬斯克預測:"第一個真正優秀的AI視頻游戲會在明年出現,第一部可觀看的AI電視節目今年就會有,第一部可觀看的AI電影明年就能看到。"

所有這些數字和范例,其背后的含義已經很清晰了:Grok 4基本代表了ChatGPT 5、Gemini 3.0這一代模型的水準線。

AI競爭已經進入了新階段。 不再是你追我趕的小幅改進,而是代際差異的跨越式提升。而其他家還在憋大招,馬斯克已經先聲奪人了。

還是后發先至。

02 測試相當亮眼,通才屬性顯現

理論數字說完,來看實戰表現。

發布會現場的演示都是全程Live演示,沒有任何預錄內容。

數學推理:范疇論的藝術

現場第一個挑戰是一道關于"范疇論中自然變換"的數學題。這是個連數學博士都得思考半天的超難題。

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-8.jpg

Grok 4的推理過程清晰可見:先分析問題結構,然后逐步構建解決路徑,最終給出正確答案。整個過程就像看一個數學天才在思考,每一步都有理有據。

有機化學:電環化反應

第二道題更變態——有機化學中的電環化反應機制。這種題目連化學PhD都不一定能秒答。

Grok 4不僅給出了正確答案,還詳細解釋了反應機制,包括軌道對稱性分析。

語言學:希伯來語音韻學

不光理科強,Grok 4文科也上了大題:從希伯來語源文本中區分開音節和閉音節。

這需要對希伯來語語音系統有深度理解。Grok 4不僅答對了,還解釋了希伯來語音韻規則的歷史演變。

實時搜索:找最奇怪的員工頭像

現場演示中,有人讓Grok 4"找XAI員工中頭像最奇怪的人"。

Grok 4開始在X平臺上搜索,識別XAI員工,分析頭像風格,最終找到了Greg Yang——一個用搞怪照片做頭像的研究員。這也展示了Grok在時事分析和熱點追蹤上的天然優勢。

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-9.jpg

這個演示看似搞笑,實際細思極恐。Grok 4屬于完全理解了什么叫"奇怪",這意味著它具備了審美判斷和文化理解。這種主觀概念的掌握,可能比客觀推理更難實現。

預測市場:世界大賽分析

最緊張的時刻是讓AI預測MLB世界大賽勝率。

這次測試人員用上了更強版本Grok 4 Heavy,它花了足足4.5分鐘,瀏覽了大量網站,計算了復雜的概率模型、與市場進行比較、尋找優勢、最終給出道奇隊21.6%的勝率預測。

但讓全場等待4.5分鐘,這種"危險"的演示方式,本身就是對產品信心的終極展示。

物理模擬:黑洞碰撞可視化

最炫酷的是黑洞碰撞模擬。

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-10.jpg

Grok 4不僅生成了引力波可視化動畫,還在思維鏈中詳細解釋了使用的物理近似、為什么要放大波幅、如何處理廣義相對論效應等。

它甚至引用了引力波教材作為參考。 這種科學嚴謹性,已經達到了專業研究員水平。

發布會還展示了全新的語音能力。新增的Eve聲音帶著優雅的英國口音,但更重要的是情感表達。

當主持人說緊張時,Eve用溫柔的聲音說:"深呼吸,你能行的,就像我們坐在約克郡酒吧的角落里安靜聊天..."

這種情感智能,可能比推理能力更重要。 AI不只是更自然,而是有了真正的"個性"。

現場演示中,Eve不僅能正常對話,還即興創作了一首關于可樂的歌劇:

"哦,可樂,你這神圣的甘露,氣泡在銀罐中舞蹈閃爍..."

在反應速度的展示中。Grok 4更是直接用另一個手機把ChatGPT放出來了。ChatGPT雖然語音更自然,聲音更豐富,但速度相當慢,一次回復要等個1秒多。但Grok 4,基本是秒答。

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-11.jpg

這種現場PK的做法,很馬斯克。 直接正面硬剛,用實力說話。

這一展示,也至少補足了之前Grok多模態的一個小短板——語音功能。

03 大力出奇跡,10倍強化學習的瘋狂實驗

這么強的模型,是怎么練出來的呢?

xAI團隊現場放出了一張圖,講述了各代模型演進的邏輯。

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-12.jpg

從中我們可以清楚看到,Grok 4的底子還是Grok 3的預訓練模型。

區別就在于,在別的公司,如Anthropic和谷歌還僅用10%-20%的算力做強化學習的時候,xAI團隊決定All in RL。

強化學習好用,那就加10倍的量。

整個過程動用了xAI的Colossus超算集群——全球最大的AI訓練農場,20萬個GPU一起開工。

但RL不是想做就做的出來的,這么大的算力,想真正讓它跑通,得過獎勵模型有效性和RL數據的大規模擴展兩關。

對此,團隊解釋說:"我們發明了很多新技術,讓模型能找到海量具有挑戰性的強化學習問題。問題要有挑戰性,同時還要有可靠的反饋信號。"

可惜的是這些技術都沒開源。但能做到,就說明xAI的后訓練技術應該確實達到了業內頂尖的水平。

另一個xAI在Grok 4訓練中強調的點是,讓AI在訓練過程中就原生地學會使用工具。

團隊對此也做出了解釋。“與Grok 3不同,雖然Grok 3也能使用工具,但我們在這里讓它更加原生,也就是說我們把工具放到訓練中。Grok 3只是依賴泛化能力,而這里我們實際上把工具放到訓練中,結果證明這顯著提升了模型使用這些工具的能力。”

這是他們從Deep Search中的得到經驗。比起OpenAIDeepReasech端到端訓練一個新模型,"Deep Search用的就是Grok 3推理模型,但沒有任何特定訓練,我們只是要求它使用這些工具。相比之下,它在工具使用能力方面要弱得多,而且不可靠。"

這個好處是極其顯著的,在HLE的測試中,會使用工具的Grok 4比起純文本Grok 4的能力提升了超過50%,而且依然符合SclaingLaw。

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-13.jpg

看到了這樣有效的結果,馬斯克表示他一定會在未來加碼工具訓練。

他說"當前Grok4使用的仍然是相當原始的工具,而非Tesla公司會使用的那種有限元分析和計算流體力學工具,但這是我們今年晚些時候會提供的。"

而這其實也是當前前沿AI都在做的事,在Claude 4發布的時候,Anthropic也對此作了特別說明。Grok只是追上了前沿。

所以,從訓練方法上看,xAI的邏輯就是,用最保險的已驗證方向,用最多的GPU,跑最極限的訓練,走了一套"大力出奇跡"的路線。

難怪團隊對訓練的評價里有一句,"這就是為什么我們建造了Colossus,世界上擁有100,000個H100的超級計算機。"

04 基礎模型也上多Agent

Grok 4 Heavy是這場發布會上的另一項黑科技,它是首個以基礎模型延展的形式命名的多智能體。

工作原理很有趣:系統同時啟動多個AI智能體,讓它們獨立解決同一個問題,然后互相分享思路,最終得出最佳答案。

關鍵是它們不是簡單投票,而是真正的思想碰撞。 通常只有一個AI能找到突破點,但一旦分享給其他智能體,整個團隊的表現就會飛躍。

在HLE測試中,單個Grok 4能解決40%的問題,但Grok 4 Heavy能解決超過50%。

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-14.jpg

xAI這次,屬于是把基礎模型最后肯定要往多Agent形態進化這件事兒挑明了。

各位Manus,下一步怎么走,現在得提前規劃了。

05 定價對標OpenAI,分層能力很強,但定價不低。

Grok 4的定價采用分層策略。

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-15.jpg

Super Grok能解鎖Grok 4的能力,30美金一個月。

而Super Grok Heavy用戶可以同時訪問Grok 4和多智能體版本Grok 4Heavy,xAI的團隊形容它能成為"一群小型研究助手的任務主管"。但這一檔要300美金一個月。

目前看這個定價比當前前沿模型定價高了一些。但如果其能力的提升確實如此顯著,這個價格也并不離譜。

API方面,Grok4支持256k上下文長度,已經開始向開發者開放。企業用戶可通過超大規模云服務商獲得訪問權限。

06 技術路線圖:接下來更炸裂

在完成了Grok4的發布后,馬斯克還透露了后續的整體路線圖。

Grok 4 發布會:用翻倍的分數,吹響了下一代AI戰爭的號角-16.jpg

8月:專門編程模型 

9月:多模態智能體 

10月:視頻生成模型

這個路線圖相當緊湊,油門踩死。怪不得最近xAI的員工都在公司搭帳篷。

而且它的野心也相當大,Anthropic強在編程,我們8月做;Google強在多模態和Veo3,我們9、10月做。

尤其是多模態。對此,馬斯克坦率地承認"Grok 4目前最大的弱點是,它的圖像理解顯然和圖像生成都需要大幅改進。"

而這也可能是后續xAI最令人期待的突破。因為大力轉向這兒了。“我們預計用超過100,000個GB 200s訓練視頻模型,并在接下來的三到四周內開始訓練,所以我們相信在視頻生成和視頻理解方面將會相當spectacular。”

不過現在還沒訓練,10月就要上線。xAI的同學們頭發有點危險。

這都是因為馬斯克這個人,不會留短板。

而且回顧Grok的歷史,我們也能看到其速度上的優勢。 18個月四代產品,這個迭代速度在AI圈獨一份。馬斯克回顧說:"12個月前Grok 2還只是概念,現在已經到Grok 4了。"

對比一下蘋果AI的一地雞毛,后發制人不是不可能,還是得看誰后發。

07 AI的新階段,馬斯克的“朝聞道”

馬斯克說在發布會上說:"我們正在智能大爆炸中,這是歷史上最有趣的時代。"

這話不夸張。Grok 4在這次發布會上展現的不只是一個新模型的能力,而是它是AI進入下一階段的標志。

更長程的任務,更強的工具使用,更像Agent的基礎模型,更落地的測試。

這是一場直面AI下半場的發布會。在之前,Grok 和 xAI 還在谷歌和OpenAI的陰影下,今天它站在了光下。

沒有OpenAI的范式性創新,沒有谷歌的大一統模型理想堅持。有的就是卡多、人累、工程極致。

馬斯克最后說:"我們會是最快發展的AI公司。" 基于今天看到的表現,這不是吹牛,這是事實。

對于快這件事,他認為的他的速度能達到"Grok會在今年年底發現新技術,明年可能發現新物理學。在兩年內,我幾乎確定會有重大發現。"

而在此速度下,人類的未來在馬斯克眼中講天翻地覆。"我們現在可能只是卡爾達肖夫一級的1-2%。我們將達到80-90%,然后是卡爾達肖夫二級。未來的人類經濟會讓現在的經濟顯得像穴居人往火里扔棍子一樣原始。"

這么快的進化速度,我們怎么保證AI的安全?

也許對與他來講這都不如“朝聞道”更重要。

在發布會的末尾,他說了一句"即使AI對人類不是好事,我至少想活著看到它發生。"


掃描二維碼手機訪問

文章目錄
主站蜘蛛池模板: 李蓉蓉在线观看 | 毛片的网站| 久久国产精品久久精品国产 | 一级黄色性生活片 | 欧美日韩不卡视频 | 日韩在线视频第一页 | 国产丰满果冻videossex | 国产人人看 | 天天人人 | 国产精品二三区 | 亚洲人人爱 | 动漫av网 | 色优久久| 精品国产一区二区三区久久久久久 | 超碰66| 美女久久久久久久久久 | 色狠狠综合 | 最好看的2019年中文在线观看 | 欧美系列第一页 | 一级黄视频| 97久久国产 | 亚洲天堂2016 | 日日操视频 | 欧美九九九 | 午夜免费观看视频 | 婷婷精品在线 | 国产午夜手机精彩视频 | 国产福利精品视频 | 国内三级视频 | 蜜桃成人在线观看 | 三级精品视频 | 午夜视频在线观看免费视频 | 日本不卡中文字幕 | av在线男人天堂 | 国产在线麻豆 | 精品黑人一区二区三区 | 欧洲猛交xxxx乱大交3 | 伊人国产在线观看 | 激情视频一区二区三区 | 国产成人精品亚洲线观看 | 最新av中文字幕 |