OpenAI 年末狂歡第一彈:首發(fā) o1 正式版 + 200 美元 Pro 會(huì)員

北京時(shí)間12月6日凌晨2點(diǎn),科技圈現(xiàn)在最會(huì)營(yíng)銷的OpenAI正式開(kāi)啟了他們的“Shipmas”產(chǎn)品發(fā)布季。
這明顯是受到圣誕日歷(Christmas Calendar)傳統(tǒng)啟發(fā)的12天連發(fā)活動(dòng)。就像小朋友每天打開(kāi)圣誕日歷上的一個(gè)小格子期待驚喜一樣,OpenAI要給全球科技圈每個(gè)工作日都送上一份“圣誕禮物”。
在今天的發(fā)布會(huì)上,Sam Altman親自承認(rèn),公司將在工作日陸續(xù)發(fā)布新產(chǎn)品和功能更新。
開(kāi)門紅就放大招,OpenAI帶來(lái)了兩個(gè)重磅更新:o1模型的滿血正式版和堪稱“頂配版”的ChatGPT Pro訂閱計(jì)劃。

這簡(jiǎn)直就是給這兩天瘋狂發(fā)布新品的谷歌貼臉?biāo)汀笆フQ驚喜”。
現(xiàn)在就讓我們一起拆開(kāi)圣誕禮盒的第一格吧。
01 滿血o1模型:完全態(tài)確實(shí)不一樣
發(fā)布會(huì)開(kāi)始,Sam Altman先提到了新版o1在處理復(fù)雜問(wèn)題時(shí)的重大錯(cuò)誤率降低了34%,而且能根據(jù)題目的難易程度調(diào)節(jié)處理時(shí)間,困難的題可能做幾分鐘,但簡(jiǎn)單題目?jī)H需幾秒。這使得用戶等待時(shí)間下降超過(guò)50%。
Sam Altman緊接著給出了它的表現(xiàn)數(shù)據(jù)。o1在國(guó)際數(shù)學(xué)奧林匹克預(yù)選賽題目(AIME 2024)中拿到了83%的正確率,把GPT-4o那可憐巴巴的13%甩得連尾燈都看不見(jiàn)了,比起o1 -preview的56.7%也提升了將近一半!
而在編程能力測(cè)試(CodeForces)方面,o1同樣展現(xiàn)出強(qiáng)勁實(shí)力。從GPT-4o的11%躍升到89%。絕對(duì)算得上從入門級(jí)直接漲到架構(gòu)師水平。同樣比o1-preview提升一半。
特別值得一提的是,在處理博士級(jí)科學(xué)問(wèn)題(GPQA Diamond)時(shí),o1超越了人類專家的表現(xiàn),達(dá)到78%的準(zhǔn)確率,而人類專家的水平為69.7%。不過(guò)比較奇怪的是,在這一項(xiàng)上,o1的表現(xiàn)似乎還不如o1-preview。

更重要的更新是:o1現(xiàn)在也支持多模態(tài)識(shí)別了。
在發(fā)布會(huì)現(xiàn)場(chǎng),o1的負(fù)責(zé)人直接手繪了在太空中收集太陽(yáng)能,以供太空數(shù)據(jù)中心使用的一套系統(tǒng)草圖讓o1識(shí)別。
因?yàn)樘罩袥](méi)法水冷,因此散熱需要靠一張巨大的散熱片。研究員讓o1去計(jì)算,如果要給的數(shù)據(jù)中心供給1 GW的電,它需要多大的散熱片才能保證GPU陣列的正常運(yùn)作。

o1完全準(zhǔn)確的識(shí)別和理解了圖片的內(nèi)容,并經(jīng)過(guò)了超過(guò)3屏的精密分析和計(jì)算,給出了正確答案——需要242萬(wàn)平方米的一塊巨大散熱片才夠。

而回答這個(gè)問(wèn)題僅僅用了o1 10s的時(shí)間。
可以預(yù)見(jiàn),多模態(tài)支持技能一解鎖,o1的實(shí)用性暴增。醫(yī)生可以用它分析醫(yī)學(xué)影像,工程師能讓它幫忙看圖紙,設(shè)計(jì)師還能讓它提供創(chuàng)意建議。
另一道現(xiàn)場(chǎng)測(cè)試題則更為復(fù)雜:OpenAI的研究員要求o1找到一種符合六個(gè)標(biāo)準(zhǔn)的特定蛋白質(zhì)。
這個(gè)問(wèn)題的挑戰(zhàn)在于,需要模型回憶起相當(dāng)專業(yè)的化學(xué)領(lǐng)域知識(shí),而對(duì)于任何給定的標(biāo)準(zhǔn),可能會(huì)有數(shù)十種蛋白質(zhì)符合該標(biāo)準(zhǔn)。所以模型必須全面考慮所有候選者,然后檢查它們是否符合所有標(biāo)準(zhǔn)。

這一問(wèn)題需要大量思考和排查的問(wèn)題,o1花了63s做對(duì)了。
除此之外,在安全性測(cè)試中,o1拿下了84分的高分,比起GPT-4o的22分也有了質(zhì)的飛躍。看來(lái),OpenAI在讓AI既聰明又“懂規(guī)矩”這件事上沒(méi)少下功夫。
o1新模型今日起將面向 ChatGPT Plus 和團(tuán)隊(duì)用戶開(kāi)放,而企業(yè)和教育用戶則從下周開(kāi)始可使用。
02 ChatGPT Pro:200美金/月,買個(gè)穩(wěn)定發(fā)揮
如果說(shuō)o1的升級(jí)是意料之中,那么月收費(fèi)200美元的ChatGPT Pro可就真的讓人倒吸一口涼氣了。雖然之前一直有傳聞提到OpenAI會(huì)推出200美元收費(fèi)的套餐,但這個(gè)價(jià)格過(guò)高,業(yè)內(nèi)很多人并不相信。
不過(guò)看數(shù)據(jù),它確實(shí)是目前AI模型界的“旗艦”。
在這個(gè)套餐里,OpenAI 提供了最強(qiáng)的o1 pro mode。按Sam Altman自己的解釋,這個(gè)模式會(huì)讓o1處理非常難的題目時(shí),獲得更多算力和能量。
這聽(tīng)起來(lái)似乎才是o1的真正完全體——不卡算力的情況下的o1。
在一般測(cè)試中,o1 pro 模式在國(guó)際數(shù)學(xué)奧林匹克預(yù)選賽題目(AIME 2024)中,正確率達(dá)到了86,超過(guò)了o1版本的78。
在編程中它和o1相當(dāng),但在處理博士級(jí)科學(xué)問(wèn)題(GPQA Diamond)時(shí)有5%左右的優(yōu)勢(shì)。

紙面上看,這點(diǎn)性能提升似乎并不值得大家每個(gè)月多花180美元去升級(jí)成Pro版本。
但為了展示o1 pro mode的強(qiáng)大,OpenAI還專門設(shè)計(jì)了一套極其嚴(yán)格的“四次測(cè)試”評(píng)估:模型需要連續(xù)四次都答對(duì)同一個(gè)問(wèn)題才算通過(guò)。在這種嚴(yán)苛條件下,o1 Pro模式依然保持了相當(dāng)高的可靠性:在競(jìng)賽數(shù)學(xué)中達(dá)到80%,編程測(cè)試中達(dá)到74.9%,科學(xué)問(wèn)題中達(dá)到74.2%。遠(yuǎn)超普通版o1。這說(shuō)明o1 pro能提供更佳的穩(wěn)定性和一致性,這對(duì)于需要AI協(xié)助完成重要工作的專業(yè)人士來(lái)說(shuō),無(wú)疑是一個(gè)重要保障。

ChatGPT Pro版客戶還能享受到完整的GPT-4o訪問(wèn)權(quán)限:無(wú)限使用,不用排隊(duì)。
03 未來(lái)可期:更多驚喜在路上
這還只是12天發(fā)布計(jì)劃的首日。
不得不說(shuō),OpenAI這波“圣誕營(yíng)銷”節(jié)奏掌握的不錯(cuò),第一天就放出了業(yè)內(nèi)預(yù)測(cè)會(huì)在這十二天發(fā)布的最重要的產(chǎn)品之一 —— “滿血版”o1。這力度,肯定能勾起大家對(duì)于接下來(lái)的11天更新的好奇心。
不過(guò)有一點(diǎn)是肯定:今年的AI圈注定要在這個(gè)寒冬里進(jìn)入搏殺狀態(tài)。谷歌可能會(huì)發(fā)Gemini 2,Anthrophic據(jù)說(shuō)也會(huì)有新模型將在圣誕前上線。
對(duì)整個(gè)AI圈而言,今天僅僅是個(gè)開(kāi)始。
在直播的最后,OpenAI的研究員講了個(gè)圣誕冷笑話:圣誕老人試圖讓他的大型語(yǔ)言模型解決一個(gè)數(shù)學(xué)問(wèn)題,他非常努力地提示它,但就是不行。他最終是怎么解決的呢?他用的是reindeer enforcement learning(馴鹿加力學(xué)習(xí))。
笑點(diǎn)是,這幾個(gè)詞連在一起讀出來(lái)就是reinforcement(強(qiáng)化學(xué)習(xí))。爛諧音梗,讓Sam都無(wú)語(yǔ)了。




