圖靈獎 得主 Richard S. Sutton:AI 受困于人類數(shù)據(jù)

2025 年 6 月 6 日,第七屆北京智源大會在北京正式開幕,強化學(xué)習(xí)奠基人、2025年圖靈獎得主、加拿大計算機科學(xué)家Richard S. Sutton以“歡迎來到經(jīng)驗時代”為題發(fā)表主旨演講,稱我們正處在人工智能史上從“人類數(shù)據(jù)時代”邁向“經(jīng)驗時代”的關(guān)鍵拐點。
Sutton指出,當今所有大型語言模型依賴互聯(lián)網(wǎng)文本和人工標注等“二手經(jīng)驗”訓(xùn)練,但高質(zhì)量人類數(shù)據(jù)已被快速消耗殆盡,新增語料的邊際價值正急劇下降;近期多家研究也觀察到模型規(guī)模繼續(xù)膨脹卻收效遞減的“規(guī)模壁壘”現(xiàn)象,以及大量科技公司開始轉(zhuǎn)向合成數(shù)據(jù)。
在Sutton看來,要突破這一極限,智能體必須像嬰兒學(xué)習(xí)玩具、足球運動員在賽場決策那樣,通過與環(huán)境交互不斷生成并利用第一手經(jīng)驗,而非單純模仿人類舊有文本。這一觀點呼應(yīng)了Alan Turing1947年就已提出的預(yù)言——“我們想要的是一臺能夠從經(jīng)驗中學(xué)習(xí)的機器”——為人工智能奠定了早期哲學(xué)基礎(chǔ)。Sutton與長期合作者Andrew Barto憑借強化學(xué)習(xí)框架將這一理念工程化,并因此榮膺2024/25年度圖靈獎,強化學(xué)習(xí)也在AlphaGo、機器人控制等里程碑項目中反復(fù)驗證其可行性。
他進一步闡釋“經(jīng)驗時代”的技術(shù)特征:智能體需要在真實或高保真模擬環(huán)境中持續(xù)運行,用環(huán)境回饋而非人類偏好作為原生獎勵信號,發(fā)展能夠長期復(fù)用的世界模型與記憶體系,并通過高并行交互大幅提升樣本效率。
超越技術(shù)維度,Sutton把視角拓展到社會治理,強調(diào)“去中心化合作”優(yōu)于“中心化控制”。他警示,要求用單一目標束縛 AI 的論調(diào)與歷史上出于恐懼而試圖控制人類行為的思路驚人相似;真正的進步源于多元目標并存的生態(tài)系統(tǒng),通過分布式激勵與競爭協(xié)作保持創(chuàng)新活力。
在他看來,讓智能體和人類都保持多樣化追求,不僅能降低單點失效與僵化風(fēng)險,也為未來AI治理提供了更具韌性的框架。
劃重點:
當前大型模型已逼近“人類數(shù)據(jù)”邊界,唯有讓智能體通過與環(huán)境實時交互來生成可隨能力指數(shù)級擴張的原生數(shù)據(jù),AI 才能邁入“經(jīng)驗時代” 。
真正的智能應(yīng)像嬰兒或運動員那樣在感知-行動循環(huán)中憑第一人稱經(jīng)驗自我學(xué)習(xí) 。
強化學(xué)習(xí)范例(如 AlphaGo、AlphaZero)已證明從模擬經(jīng)驗到現(xiàn)實經(jīng)驗的演進路徑,未來智能體將依靠自生獎勵和世界模型實現(xiàn)持續(xù)自我提升 。
基于恐懼的“中心化控制”會扼殺創(chuàng)新,多主體維持差異化目標并通過去中心化合作實現(xiàn)雙贏,這是人類與 AI 共同繁榮的制度根基 。
面向超越人類的智能體與人機共生的遠景,我們應(yīng)保持理性樂觀——這是一場需要幾十年耐心長跑的工程,其成敗取決于更強的持續(xù)學(xué)習(xí)算法與開放共享的生態(tài)。
以下為演講全文:
01 從人類數(shù)據(jù)時代邁向經(jīng)驗時代
剛才聽了Bengio教授的演講,現(xiàn)在確實是AI發(fā)展的激動人心的時代。
我想分享兩句引言,它們指向了我今天要表達的兩個重要觀點。第一句來自雷·庫茲韋爾:“智能是宇宙中最強大的現(xiàn)象。”這讓我們感受到AI的重要性以及今天AI領(lǐng)域正在發(fā)生的事情的重要性。
第二句來自阿蘭·圖靈,他說:"我們想要的是一臺能夠從經(jīng)驗中學(xué)習(xí)的機器。"他在1947年倫敦數(shù)學(xué)學(xué)會的演講中說了這句話。據(jù)我們所知,這是有史以來第一次關(guān)于人工智能的公開演講。
當時還沒有AI這個領(lǐng)域,我認為這是第一次有人在公開場合展示AI。圖靈強調(diào)的是一臺能夠從自己的第一人稱經(jīng)驗中學(xué)習(xí)的機器,這就是我們今天真正在談?wù)摰膬?nèi)容。
現(xiàn)在,我們正處在人類數(shù)據(jù)時代。我們所有的人工智能都是在人類生成的文本和來自互聯(lián)網(wǎng)的圖像上訓(xùn)練的,然后被人類專家根據(jù)他們的偏好進行微調(diào)。整個系統(tǒng)都被訓(xùn)練來預(yù)測人類的下一個詞,而不是試圖預(yù)測世界。
我認為我們開始達到人類數(shù)據(jù)的極限,幾乎達到這種策略的極限。高質(zhì)量的人類數(shù)據(jù)源已經(jīng)被消耗殆盡,而生成真正新的知識超出了模仿人類的方法范圍。要做真正新的事物,必須與世界互動。
因此我們正在進入經(jīng)驗時代。AI需要一個新的數(shù)據(jù)源,這個數(shù)據(jù)源會隨著智能體變得更強而增長和改善。任何靜態(tài)數(shù)據(jù)集都將是不夠的。你可以從經(jīng)驗中獲得這種數(shù)據(jù),從與世界的第一人稱互動中獲得。
經(jīng)驗意味著從進入傳感器和輸出到執(zhí)行器的數(shù)據(jù),這是人類和其他動物學(xué)習(xí)的正常方式。觀察一個嬰兒與世界互動的例子:它依次與世界的不同部分互動,與不同的玩具互動,試圖學(xué)習(xí)如何使用那些玩具。
注意它正在做出決定來確定自己的輸入。它會與一個玩具互動一段時間,直到學(xué)會了所有能學(xué)的,然后繼續(xù)前進。隨著成長和變得更加復(fù)雜,它能從每樣?xùn)|西中學(xué)到的量會改變,行為也會不同。它自己的行為決定了它的經(jīng)驗和數(shù)據(jù),這就是我們需要的。
再看其他例子,人類和動物在學(xué)習(xí),比如踢足球、實現(xiàn)目標。想想流入足球運動員眼睛、耳朵和身體感覺器官的數(shù)據(jù):一切都在變化,一切都在快速移動,流入大腦的數(shù)據(jù)流是巨大的。
運動員無法關(guān)注一切,必須做出快速決定來實現(xiàn)目標。這就是足球運動員的生活,或者動物在森林中飛行、逃離捕食者、揮動棒球棒擊球或進行對話的生活——都需要高帶寬信號處理,這構(gòu)成了技能、感知和行動。這就是經(jīng)驗,我指的不是任何抽象概念,只是指進出大腦的數(shù)據(jù)。
數(shù)據(jù)源會根據(jù)大腦的能力變得可變,就像兩個游戲系統(tǒng)互動時一樣。隨著它們的改進,數(shù)據(jù)也變得更好和不同。這就是AlphaGo學(xué)會做出創(chuàng)造性移動的方式——著名的第37手。
這對于從經(jīng)驗中學(xué)習(xí)至關(guān)重要,在這種情況下,經(jīng)驗是通過模擬可能的移動和這些移動的后果產(chǎn)生的。在AlphaProof中也是類似的,這是在國際數(shù)學(xué)奧林匹克競賽中獲得獎牌的系統(tǒng)。在數(shù)學(xué)中,你可以看到操作的后果,并向前看很多步。
關(guān)于經(jīng)驗思維模式:智能體與世界交換信號,這些就是它的經(jīng)驗,然后從那種經(jīng)驗中學(xué)習(xí)。更深層的觀察是,智能體知道的任何東西都是關(guān)于經(jīng)驗的。即使提前給智能體一些知識,它仍然必須是關(guān)于經(jīng)驗的——不是關(guān)于文字的,而是關(guān)于如果要做事情會發(fā)生什么。
知識是關(guān)于經(jīng)驗的,因此可以從經(jīng)驗中學(xué)習(xí)。智能體的智能程度取決于它們能夠預(yù)測和控制其輸入信號的程度,特別是獎勵信號的預(yù)測和控制。
這就是AI應(yīng)該關(guān)注的核心。智能是關(guān)于經(jīng)驗的,是所有智能的焦點和基礎(chǔ)。強化學(xué)習(xí)領(lǐng)域就是基于這種思維模式,讓智能體成為能夠做決定、實現(xiàn)目標、與世界互動的一流智能體。
02 AI發(fā)展的三個時代
我們可以回顧現(xiàn)在所處的時間線。第一個時代是AlphaGo時代、Atari時代,這是模擬時代,強化學(xué)習(xí)智能體從模擬經(jīng)驗中學(xué)習(xí),變得更好,有AlphaGo和AlphaZero這些震撼世界的著名例子。然后我們進入了ChatGPT和大型語言模型的人類數(shù)據(jù)時代。我們現(xiàn)在可能正處于那個時代的末期,所有數(shù)據(jù)都來自人類。
接下來我們將進入經(jīng)驗時代,通過與世界互動的經(jīng)驗學(xué)習(xí)。我們在AlphaProof中看到了這一點的第一個暗示,當大型語言模型現(xiàn)在使用計算機、訪問API并實際在世界中采取行動時,我們也看到了這種暗示。
這是我關(guān)于AI未來視角的第一點。我的觀點是,創(chuàng)造超級智能智能體和超級智能增強人類,對世界來說將是純粹的好事。我不擔(dān)心安全問題,不擔(dān)心失業(yè)問題,這只是轉(zhuǎn)型和世界發(fā)展的正常部分。我認為這需要時間,需要幾十年,并且在那之后還會持續(xù)幾十年。這是一場馬拉松,不是短跑,但我們?yōu)榇俗龊脺蕚涫敲髦堑摹?/p>
完全智能的智能體將必須從經(jīng)驗中學(xué)習(xí),這超出了我們當前的智能體能力。它們將作為世界知識的可定制接口。我們已經(jīng)使用強化學(xué)習(xí)進入了這個新的經(jīng)驗時代。然而,實現(xiàn)其全部力量將需要更好的深度學(xué)習(xí)算法,這些算法能夠持續(xù)學(xué)習(xí)。
03 去中心化合作與中心化控制的發(fā)展哲學(xué)
現(xiàn)在我想轉(zhuǎn)換話題,談?wù)摪l(fā)展問題。我們必須問這個基本問題:在智能體社會中,是只有一個每個人都分享的目標,還是有許多目標?
作為強化學(xué)習(xí)研究者,思考智能體問題對我來說很自然。在強化學(xué)習(xí)中很明顯,每個智能體都有自己的目標,有自己的獎勵信號進入大腦,試圖最大化那個目標。沒有理由要求不同智能體的獎勵信號必須相同。
在自然界中,每個動物都有類似的信號進入大腦,這實際上是在下丘腦中計算的,包括疼痛傳感器和快樂傳感器。在AI和自然界中,不同的智能體有不同的目標。我們可以談?wù)撍鼈內(nèi)绾畏窒砟繕耍热缑總€動物都關(guān)心食物,但一個動物的食物不是另一個動物的食物,這些是對稱的目標,不是相同的目標。人類也是如此,我們關(guān)心自己的家庭、食物和安全,超過共同目標。
反思我們的經(jīng)濟體系如何最好地工作:我認為當人們有不同的目標和不同的能力時,它們工作得最好。目標不必沖突,但可以不同,差異是好的。我們的社會并不真正依賴于人們有相同的目標,而是依賴于人們追求個人角色然后互動。我們社會的明顯特點是我們可以和平共存,即使我們都想要不同的東西。我們交易、專業(yè)化、互動。
讓我做一些定義以便簡單討論。我定義去中心化為這種現(xiàn)象:有許多智能體,每個都追求自己的目標。這與中心化形成對比:許多智能體都被約束為有相同的目標。例如,蜜蜂群是中心化社會,有許多智能體,但它們都在追求蜂巢的目標,螞蟻也是如此。
去中心化意味著許多智能體,每個都追求自己的目標,每個都被允許有自己的目標。合作是當有不同目標的智能體互動以獲得互利時,每個智能體實現(xiàn)自己的目標,并通過互動促進自己的目標,形成雙贏關(guān)系。這是去中心化的合作。
我認為合作是我們的超能力。人類比任何其他動物合作得更多,合作由語言和金錢促進,這兩樣?xùn)|西都是人類獨有的。人類最大的成功是我們的合作,比如經(jīng)濟、市場和政府,這些是我們合作的方式。
我們最大的失敗是合作的失敗,比如戰(zhàn)爭、盜竊和腐敗。去中心化合作是社會組織的另一種觀點。在我看來,它比中心化觀點更優(yōu)雅,去中心化合作更強大、更可持續(xù)、更靈活,對作弊者和異常值更有抵抗力。
必須承認,我們在合作方面仍然很糟糕。我們?nèi)匀挥袘?zhàn)爭、盜竊和欺詐。我們必須努力合作,但合作并不總是可能的。它至少需要兩個值得信賴的智能體,總會有一些不值得信賴的。那些從不合作中獲得優(yōu)勢的——作弊者、小偷、武器制造商和獨裁者,他們從不合作中受益。
合作需要機構(gòu)來促進它,懲罰作弊者、欺詐者和小偷。中心化權(quán)威可以幫助合作,提供促進合作所需的機構(gòu)。但那些中心化權(quán)威也可能在長期內(nèi)毒害合作,當權(quán)威變得專制或僵化時。這種對比就是中心化控制和去中心化合作之間的差異。
如果觀察控制AI的呼吁和控制人類社會的呼吁,會發(fā)現(xiàn)這兩者驚人得相似。
關(guān)于AI,有很多呼吁。有暫停或停止AI研究的呼吁,有限制可以用來制造AI的算力的呼吁,有確保AI安全制造和要求披露的呼吁。
與此相似的是控制人類的呼吁。我們時代的大問題包括:言論應(yīng)該自由嗎?人們可以被允許聽到其他人的觀點嗎?我們可以有自由貿(mào)易還是必須被控制?如何控制就業(yè)?如何控制金融和資本?是否對某些國家實施關(guān)稅和經(jīng)濟制裁?
這基本上是一個社會問題:我們將如何處理人們有多個不同目標的現(xiàn)實?我們要去中心化嗎,還是要朝著中心化控制發(fā)展?
中心化控制的呼吁非常相似,都基于恐懼,都基于"我們對他們"的思維。在每個社會中,都有一些不能被信任的人,但也有通常可以被信任的大多數(shù)。
總結(jié)一下,我認為所有人類和AI的繁榮都來自去中心化合作。人類在合作方面很出色,但也有不足。合作會遇到阻礙和挫折,但它是世界上所有美好事物的源泉。我們必須尋找和支持合作,并尋求將其制度化。
現(xiàn)在,我必須呼吁人類使用自己與世界的經(jīng)驗,用自己的眼睛觀察。我認為如果大家這樣做,很容易看到誰在呼吁不信任,誰在呼吁不合作。



