OpenAI 首席科學家:AI 才是關鍵力量

在最新一期OpenAI發布的播客節目中,主持人(OpenAI前工程師)安德魯?梅恩和其公司的黃金搭檔——首席科學家雅庫布?帕喬基(Jakub Pachocki)和研究員西蒙?西多爾(Szymon Sidor)作為嘉賓參與。
這對搭檔回顧了從波蘭高中同學到在OpenAI共事的淵源,還深入探討了人工智能發展的關鍵議題,包括通用人工智能(AGI)的定義與衡量標準、技術突破的標志性成果、基準測試面臨的挑戰,以及AI對教育、科研和社會的實際影響等。核心觀點有:
AGI的定義與衡量演進:AGI已從抽象概念細化為多維能力集合。比如IMO金牌等里程碑雖有意義,但點狀突破已不足,未來應關注其在自動化科研和現實應用中的影響。
AI技術的突破軌跡:從早期情感分析的局限,到GPT系列模型的迭代,模型已能參與IMO、ICPC、日本AtCoder等競賽,展現出強大的推理與創造性思維能力。
基準測試的挑戰與 “飽和”:許多基準測試已出現“飽和”,模型接近或超過人類水平,但難以全面反映智能。衡量標準需轉向實際效用與新見解的發現能力。
AI對教育與人才培養的影響:AI可作為教育輔助工具,但教師的情感支持不可替代;教育需改革,培養結構化思維、批判性思維等軟技能,編程是掌握這些能力的有效方式。
未來突破方向與信任門檻:模型的持久性、長時間專注問題的能力是重要發展方向;AI需突破信任門檻,在訪問個人數據時平衡價值與安全性,避免濫用。
AI的廣泛影響與發展節奏:如同互聯網對經濟的影響,AI的作用難以用單一節點衡量,其發展速度雖看似存在“瓶頸”,但長期來看進步顯著,將深刻重塑行業與社會。
以下為此次播客節目的精華版內容:
安德魯?梅恩:大家好,我是安德魯?梅恩,歡迎收聽OpenAI播客。今天的嘉賓是OpenAI首席科學家雅庫布?帕喬基與高級研究員西蒙?西多爾。我們將圍繞人工智能進展的衡量方式、通用人工智能(AGI)的定義,以及下一個可能出現的突破方向展開討論。
我們的模型已經能夠準確識別出自身在某些問題上尚未取得進展。同時,我們也開始嚴肅思考:作為一個組織,我們是否已準備好應對這種極為快速的發展節奏?在規劃 OpenAI的研究項目時,我們的目標是創造一種具備高度通用性的智能。
我想先了解一下你們的具體職責。帕喬基,你是OpenAI的首席科學家,對嗎?
帕喬基:是的,我擔任首席科學家一職。
安德魯?梅恩:首席科學家的具體工作內容是什么?
帕喬基:我的主要職責是為公司制定研究路線圖,即確定我們將押注的技術路徑,以及我們將長期推進的底層研究方向。
安德魯?梅恩:西多爾,你的工作內容是什么呢?
西多爾:我的工作比較繁雜。主要從事獨立貢獻者(Individual Contributor,指在組織中通過個人專業能力直接完成工作任務、創造價值,而不承擔管理他人職責的角色)的工作,偶爾也承擔一些領導職責。總體而言,就是做最有價值的事。
安德魯?梅恩:你們兩人在加入OpenAI之前就認識,是嗎?
帕喬基:是的,我們曾就讀于同一所高中。
西多爾:沒錯,是同一所高中。
安德魯?梅恩:你們在高中時就是朋友嗎?
西多爾:我認為我們是在離開高中后才成為摯友的。來到美國的經歷,某種程度上是一段建立深厚情誼的情感歷程。在高中時,我們更像是學業上的同伴。
安德魯?梅恩:什么樣的高中能培養出你們這樣的人才?
帕喬基:我們的高中位于波蘭。當時,我們都是被一位名叫里沙德?蘇博洛夫斯基(Ryszard Sobolewski)的計算機科學老師吸引到那所學校。在我們入學前,他就已經在培養計算機科學家和程序員方面有著出色的成績,尤其注重編程競賽,致力于讓學生在這一領域追求卓越。
西多爾:那段經歷對我們的成長影響深遠,他是一位非常優秀的導師。他在編程教學上的深度遠超普通高中課程,涉及圖論、矩陣等內容。我希望如今有了ChatGPT,人們能更容易進行這種深入學習,因為若沒有合適的導師和大量的努力,很難重現那樣的學習體驗。
01 AGI的演進與衡量標準
安德魯?梅恩:像ChatGPT 這樣能即時生成互動多媒體、解決教學問題的能力,到底該怎么定義和衡量?如果我們談AGI,你們會從技術角度和通俗角度如何解釋它?
帕喬基:以你剛提到的教學場景為例,ChatGPT確實能發揮重要作用——它可以更清晰地解釋概念,提供多樣化的教學方式,并且能很好地配合像蘇博洛夫斯基這樣的教育者使用。但需要強調的是,人工智能并不能取代教師,因為教師不僅傳授知識,還提供情感支持和學習氛圍,這是AI目前難以獨立完成的。
安德魯?梅恩:這一點很重要。人們常說人工智能會取代教育,但這一觀點往往忽略了這一點。我曾遇到過一些老師,他們的知識或許并不總是準確,但他們的用心和關懷是真摯的,并且愿意耐心解答問題。所以,這些工具其實是教育的輔助,教師使用這些工具能變得更高效。回到AGI的話題,我想先聽聽非技術性的描述,比如你會如何向申報的兄弟姐妹解釋它?
帕喬基:幾年前談論AGI時,盡管深度學習技術潛力巨大,但AGI的概念仍較為抽象,顯得遙不可及。當時,人類水平的智能、自然對話能力、解決數學問題的能力以及開展研究的能力,似乎都屬于同一范疇。但隨著技術的發展,我們發現這些其實是截然不同的能力。
目前,人工智能已能在廣泛的話題上進行自然對話,也能解決數學問題,比如在國際數學奧林匹克競賽(IMO)中獲得金牌,這是我們長期以來認定的AGI 發展里程碑之一,且這一目標已經實現。解決數學奧林匹克競賽的所有問題難度更高,這是另一個里程碑。
不過,我越發覺得這種點狀的衡量方式已不夠充分,因此我們開始關注人工智能對世界的實際影響。就我個人而言,在思考人工智能如何真正對世界產生有意義的影響時,首先想到的是它在自動化新技術的發現過程與生產方面所具備的潛力。
我們通常將新想法和基礎性技術進步歸功于人類的創造力,并通過重大發明和技術革命來衡量進步。但很難想象,這一過程的大部分是可以自動化的。一臺大型計算機有可能提出從根本上改變我們對世界認知的想法。我認為這一天并不遙遠。因此,思考我們與這一目標的差距以及這種技術可能帶來的影響,是我首要考慮的問題。
02 OpenAI的使命:通用智能優先
安德魯?梅恩:我剛訂購了一臺Mac Studio,想運行開源模型GPT4All(由Nomic AI開發的開源項目,旨在讓用戶能夠在個人設備上本地運行大語言模型,無需依賴云服務),讓它24小時不間斷地生成內容、處理任務,這個想法很吸引我。但你提到的是大規模自動化科學研究的問題。我們最早可能會看到哪些發現或成果呢?
帕喬基:在規劃OpenAI的研究項目進程中,我們將創造具有高度通用性的智能視作核心使命。我們優先致力于打造能夠實現自動化研究的人工智能系統,這并非是要將技術狹隘地限定在特定領域的應用上。雖說聚焦特定領域能夠相對快速地在局部取得成果,然而,縱觀科技發展歷程,真正具有變革性的重大發現以及那些對人類進步意義最為深遠的技術突破,通常都源自具備強大通用性的智能體系。
人工智能技術在不同領域的應用表現出了明顯的差異。像那些需要深度推理、緊密結合專業領域知識,同時還需依賴直覺判斷的領域,對當前的人工智能系統而言,展現出了更高的適配度。
以醫學領域為例,我們已經見證了諸多令人振奮的成果。人工智能在醫學影像分析、疾病診斷輔助、藥物研發等方面都發揮著越來越關鍵的作用,能夠幫助醫生更為精準地識別病癥、制定個性化治療方案,大幅提升了醫療服務的質量與效率,這讓我們對人工智能在醫學領域的未來充滿了期待。
作為專注于人工智能研究的專業公司,我們會思索如何將自身的研究工作實現自動化。設想一下,如果人工智能能夠達到自主開展人工智能研究的水平,這將極大地加快研究進程,帶來難以估量的價值,無疑是人工智能發展歷程中的一個重大飛躍。
同樣,深入探究如何借助人工智能技術推動人工智能對齊和安全研究的自動化,也是極具現實意義的。通過自動化手段,我們能夠更為高效地檢測和防范人工智能可能帶來的風險,確保人工智能系統與人類價值觀保持一致,朝著安全、可靠的方向發展,為其大規模應用奠定堅實的基礎。
安德魯?梅恩:IMO的成果顯然令人印象深刻。我想補充的是,幾年前我們談論帕喬基參與的IMO時,還在努力探索AGI的定義。我們曾考慮過一個標準,即能否解決數學奧林匹克的所有問題。之所以認為這個標準合適,是因為如果一個模型具備如此出色的數學推理能力,它應該能顛覆許多可數學建模的領域。
這個播客節目提供了一個很好的機會,讓我們能分享一些內部視角。我對人工智能的發展速度感到震驚。有時我們會看到一些報道稱,人工智能對經濟的影響僅為3%或5%,并隨之出現人工智能發展放緩、過度炒作等評論。看到這些報道時,我會想起大約十年前,我用深度學習進行自然語言處理的經歷,當時技術效果很差。我記得帕喬基曾來測試我們開發的一個句子情感識別技術,“這部電影很爛” 被正確分類為負面;“這部電影很好” 被正確分類為正面;但 “這部電影不爛” 卻被模型歸為負面。
西多爾:那是十年前的事了。從那以后,我們逐漸解決了這類任務,比如判斷一個詞是名詞還是動詞,也就是所謂的“情感神經元”(Sentiment Neuron)現象。
隨后,GPT-1、GPT-2問世,它們能生成有意義的文本段落,這在當時是一項重大突破,盡管現在看來很簡單。接著是GPT-3、GPT-4。對我而言,GPT-4出現時,我有了個人意義上的“AGI時刻”,因為它有時會說出令人驚訝的話,讓我不禁思考這個模型是否真的能帶來驚喜。那時,ChatGPT對我來說,感覺只是比谷歌稍好一點的工具,算不上特別重要。但突然間,在深入研究中,它能準確回答問題,很少編造內容,這就變得非常有用了。
如今,我們的模型已能參加編程競賽,這對我個人乃至整個團隊來說,都是來之不易的成就。從從事這項技術研究的人的角度來看,其發展速度令人驚嘆。所以,看到3%這個數字時,不妨想想十年前,這個比例可能僅為0.00001%左右。這些數字需要結合具體背景來看,沒有理由不相信一年后這個比例會達到10%,兩年后達到20%,依此類推。
03 基準測試的挑戰與未來方向
安德魯?梅恩:我曾聽說,如果我們查看20世紀90年代初以來的全球經濟圖表,很難找到互聯網影響經濟的明確拐點。沒有一個瞬間能讓人說:“這是蒂姆?伯納斯?李宣布互聯網誕生的時刻。” 我認為人工智能也是類似的,難以衡量,因為很難追蹤到底是誰在用、如何使用。
你提到的長期觀察讓我深有同感。我記得自己曾在電腦上訓練過一個簡單的下一個字符預測器,效果很差,部分原因是當時的計算能力有限。但即便如此,后來在情感分析和BERT模型中,情況已經有所改善。當GPT-2問世時,我甚至逐一閱讀了它在GitHub上的輸出,因為我意識到一件大事正在發生。
這也是我最終加入OpenAI的原因。接觸到GPT-3后,我更加確定這是正確的方向。但現在情況有些奇怪,如果六周內沒有新的突破,人們就會覺得“進展停滯”。問題在于,基準測試本身只能反映有限的進步,而且有些測試的答案甚至不準確,即便答對了也拿不到滿分。我們內部還討論過“飽和”(Saturation,指模型在基準測試中已達到或接近人類水平,即便進一步優化也難以顯著超越現有成績)這個概念——指的是模型在標準化測試中已達到或接近人類水平,即便進一步優化也難以顯著超越。你怎么看?
帕喬基:目前,我們在基準測試方面確實面臨一些問題。其中一個明顯的問題是飽和,即模型在許多標準化的智能或能力測試中,已達到人類水平。例如,在難度極高的高中競賽中,模型能與全球頂尖選手同臺競技,這使得嚴格的量化測量變得相當困難。
以前,在GPT-1到GPT-4的發展范式中,基準測試實際上只是在衡量整體水平的提升。如今,該領域已發展出許多更高效的數據訓練方法,能夠針對特定能力進行訓練,能訓練出在某方面(如數學)能力遠超其他方面(如寫作)的模型。這類模型在數學基準測試中表現更好,但這不能代表它們在其他領域的整體智能水平。綜合這兩個問題,我們確實需要關注這些模型的實際效用,尤其是它們發現新見解的能力。
安德魯?梅恩:沒錯。一個模型可能擅長應付考試,卻不一定實用。理想情況下,模型在測試中應有好表現,但高分并不等同于實際價值。當人們評價一個模型時,往往希望它在上百種不同應用場景中都表現優秀,這是很難的。有些模型擅長創意寫作,卻不擅長數學,反之亦然。這正是我們面臨的挑戰。我們之前討論過國際數學奧林匹克(IMO)等數學競賽:為什么這些基準重要?讓模型參與人類競賽又有何意義?
帕喬基:IMO、信息學奧林匹克等競賽是很有趣的測試案例。它們限制條件明確,不需要龐大的知識儲備,但能真正考察一個人在數小時內深入思考和推理的能力。題目難度極高,很多人會為此付出努力并參與競爭,這使得這些競賽成為人工智能發展道路上的重要里程碑。
安德魯?梅恩:在IMO中獲得金牌水平的模型沒有使用計算器、其他工具或框架,完全依靠推理完成任務。
帕喬基:是的,兩年前,這樣的模型甚至無法正確計算兩個四位數的乘積。而現在,它們在奧賽題中展現出的,是創造性的思維而非死板的公式套用。
安德魯?梅恩:但挑戰在于,一旦超出數學領域,事情就會變得更復雜。你可以設計出比如 “人類最后的考試” (Human's Last Exam,假設性說法)這樣的測試,雖然很巧妙,但會發現某些模型在學會使用特定工具后,可能更擅長解決這些問題。我想知道我們需要什么樣的基準測試?你會通過哪些方面來客觀衡量一種能力?
西多爾:我記得有件小事。當我因IMO的進展而興奮時,我的同事安娜?馬坎杜問:“那是什么?” 這讓我意識到我們可能有些“圈子化”。IMO和ICPC在我和許多同事的人生中很重要,但對其他人來說,他們可能更關心語言或歷史。例如,拉娜能說五種語言,她可能更看重語言類基準。這提醒我們,衡量標準因人而異。
安德魯?梅恩:ChatGPT雖不是完美的衡量標準,但至少能讓我們保持客觀,跳出圈子。因為每個人都在使用ChatGPT,涵蓋了各種應用場景。顯然,用它作為衡量標準有很多缺陷,但至少能避免因個人熟悉領域不同而產生的片面性,覆蓋范圍更廣泛。
西多爾:沒錯。ChatGPT的用戶群體非常多樣,這也讓我們能從更廣闊的角度觀察模型的能力。你提到的“更長時間推理”也是一個有趣的評估方式。
安德魯?梅恩:不過,僅以ChatGPT的使用情況或AI的廣泛采用作為標準,也有局限。目前這種情況還未真正大規模出現,但未來很快就會發生。屆時,能否利用遠超普通用戶的計算資源,創造出普遍有用的成果,將成為更重要的衡量標準。
帕喬基:在這些成就中,IMO的進展確實令人驚訝,比我們預期的更早實現。IMO的題目需要高度創造性思維,第六題更是突破常規的挑戰。過去我們區分“金牌水平”和“解決所有題目”,因為第六題往往無解。如今,我們和谷歌的模型都能完美解決前五題,但在第六題上仍未突破。這清楚地揭示了當前的挑戰。
安德魯?梅恩:我注意到,OpenAI的模型甚至會說“我認為我無法解決這個問題”,而不是胡亂回答,對嗎?
帕喬基:是的。我們的模型能夠準確識別出自己在這個問題上沒有取得進展。
安德魯?梅恩:這很有意思。人們常說“幻覺”問題,但我認為需要區分:流動思維指知識廣度,以及晶體思維指解決問題的能力。當模型能承認“我無法回答”時,這是一個新階段。
帕喬基:最近幾周,我們的模型在三項競賽中都有亮眼表現:ICPC、IMO,以及日本的AtCoder編程競賽。AtCoder面向所有人,不限年齡或身份,以其高水平和高質量著稱。參賽者需要在10小時內解決復雜的優化問題,沒有唯一正確答案,只有盡可能接近最佳的解法。
這對我有點個人意義。我過去更喜歡像ICPC這樣短時封閉的競賽,而我一位同事擅長這種長時賽。他曾開玩笑說,我喜歡的競賽會比他的更早被AI自動化,因為他的更耗時。結果在這次比賽中,他是頂尖選手,而我們的模型拿下了第二名,他是第一名。看到模型和老同事正面交鋒,對我來說非常特別。
比賽結束時,他已筋疲力盡。在接受采訪時,他調侃說:“你們的模型太差了,我只想睡覺”。
04 AI發展的根本,安全可靠比功能更重要
安德魯?梅恩:我們之前提到過“瓶頸”的說法。有趣的是,推理能力的出現似乎非常突然。雖然此前已有一些線索和論文,但沒人能明確界定它的發展邊界。隨后,o1模型問世,它不僅能給出答案,還能進行內部獨白,通過自我對話來解決問題。那么,這是否足以被視為AGI?還是說我們還需要新的突破?你認為未來可能會有哪些重大突破?
帕喬基:團隊在這方面付出了巨大努力。表面上看,好像只是延長了“思維鏈”,但要真正實現卻極其困難。回到你剛才提到的“令人驚訝的結果”,我記得我們第一次發現這種技術真的有效時,感到非常震撼。
當我們看到,通過訓練模型、增加數據,它們能夠顯著提升能力時,便開始認真思考:作為一個組織,我們是否已經準備好應對這種高速發展?我還記得有一次深夜11點,我們和山姆·奧特曼通電話,討論這些結果,有時甚至會被這些成果嚇到。
安德魯?梅恩:這種情況確實時有發生。發展速度太快了。正如我提到的,人們常開玩笑說,如果六周沒有進展,就覺得“發展放緩了”。但從更長時間的尺度來看,AI的進步其實非常迅猛。
這種觀點有其合理性:當你在內部參與多年研發,就會明白一篇論文背后是長期積累,而不是“一夜之間的突破”。可對外界來說,他們只看到某種“全新的方法”突然出現,讓模型在現有基礎設施下發揮了更強的能力。你認為下一個突破會出現在什么方向?
帕喬基:我認為不能低估“擴展”的重要性。即便是o1模型,也依賴此前的預訓練和擴展范式,這些能力會產生疊加效應。與此同時,我們也在探索新方向,尤其是延長模型的規劃與推理時間。從算力角度看,從GPT-4到GPT-4o,計算量大概提升了10到20倍。這雖然不算“天文數字”,但足以顯著提升模型的回答質量。
如果我們將算力投入到真正對人類重要的問題上,比如醫學研究或下一代模型開發,所需計算量還會大幅增加。因此,我認為增強模型的持久性、讓它能長時間專注于一個復雜問題,將是下一步明確的發展方向。
安德魯?梅恩:如果要向一位普通的ChatGPT用戶解釋——未來三到五年內,AGI的實際影響會是什么樣?五年聽起來很遠,但其實并不遙遠,因為五年前GPT-3才問世,仿佛就在眼前。那么,一個類AGI模型在五年內可能具備哪些能力?
帕喬基:我最近剛嘗試讓ChatGPT讀取我的Gmail日歷,這讓我意識到我們已經走了很遠。這讓我對它的應用前景感到興奮,而不是擔心它去幫人寫一些“伊沃克人小說伊沃克人(Ewoks,《星球大戰》中的角色)小說”之類的東西。
我認為這里存在一個關鍵的“信任門檻”。讓模型訪問個人數據,確實能帶來巨大的經濟與個人價值,但問題是,我們還無法做到百分之百可靠,確保它不會被惡意利用。這是一個根本性的挑戰,也是整個AI領域都必須持續解決的問題。
05 對年輕人的建議:推薦學習編程
安德魯?梅恩:如果回到高中,面對當時的自己,你會說些什么?如果回到過去的教室,你會做什么?你會如何描述未來?會給出什么建議?
西多爾:(開玩笑地說)投資比特幣。
安德魯?梅恩:我的意思是,即便是在2025年的今天,你會對現在的高中生說些什么?
西多爾:這是一個很好的問題,因為我在網上看到很多相關的錯誤信息。我想說的是,你一定要學習編程,這一種非常珍貴且會持續保值的技能,是擁有結構化的思維,能夠將復雜問題分解。未來,這種技能可能不一定體現為編程,但編程是掌握這種技能的有效方式。其他需要大量思考的領域也是如此。所以,不要聽信那些說不應該學編程的話。
安德魯?梅恩:我很晚才開始學習編程,這最終讓我成為OpenAI的一名工程師。我想向人們解釋,僅僅因為一個系統能完成某項任務,并不意味著就不需要了解它的工作原理了。
正如你所說,我在OpenAI從事提示工程時,編程知識幫助我更好地分解語言,讓模型發揮更好的作用。我認為能夠彌合這些差距的人確實具有優勢。所以,每當聽到有人說“不要學編程”,我就覺得這就像“想要一個不懂空氣動力學的飛行員”一樣不合理。
帕喬基:回想高中時的想法,會發現很多我們認為的限制其實并不存在。對我而言,第一個啟示或許是,若真的對計算機科學充滿熱情,就可以在這上面多花些時間,哪怕減少在其他學科上的時間。
后來我意識到,我可以去美國學習,這并非遙不可及。在硅谷的這段時間,看到人們滿懷雄心和信念去解決重大問題,相信自己能為世界帶來有意義的積極改變,這非常鼓舞人心,也是我珍視這個社區的原因。
安德魯?梅恩:有沒有一本書、電影或電視節目激勵過你?我認為“敢于做大事,去做能改變世界的事”這樣的信息很有幫助。我覺得越多的人意識到這一點,世界就會變得越好。
帕喬基:有幾本書對我有影響。其中一本現在想來很有趣,當時我并未過多聯想。我15歲左右,還不確定自己想做什么,父親給了我一本波蘭語版的書,作者我當時并不認識,書名叫《黑客與畫家》(Hackers and Painters)。沒錯,作者是保羅?格雷厄姆(Paul Graham)。這個社區的氛圍很鼓舞人,這本書對我影響很大。
西多爾:如果說電影,我的答案可能有點傻,尤其是帕喬基的答案那么深刻。我看了《鋼鐵俠》,它激勵我去攻讀機器人學博士。但當我真的進入機器人學時才發現,現實中的機器人遠比電影里遜色,這讓我有些失望。
幸運的是,我遇到了一位對深度學習感興趣的朋友。起初,我覺得機器學習有些被炒作,但它涉及很多系統性問題,很有意思。后來AlphaGo出現了——這并不是憑空的突破,而是多年積累的結果。這讓我大受震撼,從那以后我就再也無法忽視深度學習。
一開始,我很難接受深度學習不是曇花一現。畢竟,它的底層優化機制并不完全可解釋,對受過傳統計算機科學訓練的人來說,這是難以接受的。但我花了一段時間才接受,并最終被它吸引。
安德魯?梅恩:我記得在AlphaGo之前,帕喬基就曾跟我談過“擴展凸優化原則”(Scaling up Principled Convex Optimization)。AlphaGo很有意思,最初它解決了圍棋問題,我們覺得很酷,但它更多是通過觀察學習。后來出現的AlphaGo Zero實現了自學,我們才意識到,發展的趨勢已經非常明顯,而且還在繼續。
如果當時你看的不是《鋼鐵俠》,而是《雷神》,或許你就會走上另一條路(開玩笑的說法)。不過我自己有點后悔沒更早學數學,因為它可能更有用。至于學什么?數學、理論計算機科學,或者物理學,都是很好的選擇。



