一级黄网站_波多野结衣片子_欧美性极品_熟女高潮一区二区三区_亚洲最大成人在线_xxx在线播放

圖靈獎得主 Richard S. Sutton：AI 受困于人類數(shù)據(jù)

人工智能AI2025-06-07

2025 年 6 月 6 日，第七屆北京智源大會在北京正式開幕，強化學(xué)習(xí)奠基人、2025年圖靈獎得主、加拿大計算機科學(xué)家Richard S. Sutton以“歡迎來到經(jīng)驗時代”為題發(fā)表主旨演講，稱我們正處在人工智能史上從“人類數(shù)據(jù)時代”邁向“經(jīng)驗時代”的關(guān)鍵拐點。Sutton指出，當今所有大型語言模型依賴互聯(lián)網(wǎng)文本和人工標注等“二手經(jīng)驗”訓(xùn)練，但高質(zhì)量人類數(shù)...

圖靈獎得主 Richard S. Sutton：AI 受困于人類數(shù)據(jù).jpg

Sutton指出，當今所有大型語言模型依賴互聯(lián)網(wǎng)文本和人工標注等“二手經(jīng)驗”訓(xùn)練，但高質(zhì)量人類數(shù)據(jù)已被快速消耗殆盡，新增語料的邊際價值正急劇下降；近期多家研究也觀察到模型規(guī)模繼續(xù)膨脹卻收效遞減的“規(guī)模壁壘”現(xiàn)象，以及大量科技公司開始轉(zhuǎn)向合成數(shù)據(jù)。

在Sutton看來，要突破這一極限，智能體必須像嬰兒學(xué)習(xí)玩具、足球運動員在賽場決策那樣，通過與環(huán)境交互不斷生成并利用第一手經(jīng)驗，而非單純模仿人類舊有文本。這一觀點呼應(yīng)了Alan Turing1947年就已提出的預(yù)言——“我們想要的是一臺能夠從經(jīng)驗中學(xué)習(xí)的機器”——為人工智能奠定了早期哲學(xué)基礎(chǔ)。Sutton與長期合作者Andrew Barto憑借強化學(xué)習(xí)框架將這一理念工程化，并因此榮膺2024/25年度圖靈獎，強化學(xué)習(xí)也在AlphaGo、機器人控制等里程碑項目中反復(fù)驗證其可行性。

他進一步闡釋“經(jīng)驗時代”的技術(shù)特征：智能體需要在真實或高保真模擬環(huán)境中持續(xù)運行，用環(huán)境回饋而非人類偏好作為原生獎勵信號，發(fā)展能夠長期復(fù)用的世界模型與記憶體系，并通過高并行交互大幅提升樣本效率。

超越技術(shù)維度，Sutton把視角拓展到社會治理，強調(diào)“去中心化合作”優(yōu)于“中心化控制”。他警示，要求用單一目標束縛 AI 的論調(diào)與歷史上出于恐懼而試圖控制人類行為的思路驚人相似；真正的進步源于多元目標并存的生態(tài)系統(tǒng)，通過分布式激勵與競爭協(xié)作保持創(chuàng)新活力。

在他看來，讓智能體和人類都保持多樣化追求，不僅能降低單點失效與僵化風(fēng)險，也為未來AI治理提供了更具韌性的框架。

劃重點：

當前大型模型已逼近“人類數(shù)據(jù)”邊界，唯有讓智能體通過與環(huán)境實時交互來生成可隨能力指數(shù)級擴張的原生數(shù)據(jù)，AI 才能邁入“經(jīng)驗時代” 。

真正的智能應(yīng)像嬰兒或運動員那樣在感知-行動循環(huán)中憑第一人稱經(jīng)驗自我學(xué)習(xí) 。

強化學(xué)習(xí)范例（如 AlphaGo、AlphaZero）已證明從模擬經(jīng)驗到現(xiàn)實經(jīng)驗的演進路徑，未來智能體將依靠自生獎勵和世界模型實現(xiàn)持續(xù)自我提升。

基于恐懼的“中心化控制”會扼殺創(chuàng)新，多主體維持差異化目標并通過去中心化合作實現(xiàn)雙贏，這是人類與 AI 共同繁榮的制度根基。

面向超越人類的智能體與人機共生的遠景，我們應(yīng)保持理性樂觀——這是一場需要幾十年耐心長跑的工程，其成敗取決于更強的持續(xù)學(xué)習(xí)算法與開放共享的生態(tài)。

以下為演講全文：

01 從人類數(shù)據(jù)時代邁向經(jīng)驗時代

剛才聽了Bengio教授的演講，現(xiàn)在確實是AI發(fā)展的激動人心的時代。

我想分享兩句引言，它們指向了我今天要表達的兩個重要觀點。第一句來自雷·庫茲韋爾：“智能是宇宙中最強大的現(xiàn)象。”這讓我們感受到AI的重要性以及今天AI領(lǐng)域正在發(fā)生的事情的重要性。

第二句來自阿蘭·圖靈，他說："我們想要的是一臺能夠從經(jīng)驗中學(xué)習(xí)的機器。"他在1947年倫敦數(shù)學(xué)學(xué)會的演講中說了這句話。據(jù)我們所知，這是有史以來第一次關(guān)于人工智能的公開演講。

當時還沒有AI這個領(lǐng)域，我認為這是第一次有人在公開場合展示AI。圖靈強調(diào)的是一臺能夠從自己的第一人稱經(jīng)驗中學(xué)習(xí)的機器，這就是我們今天真正在談?wù)摰膬?nèi)容。

現(xiàn)在，我們正處在人類數(shù)據(jù)時代。我們所有的人工智能都是在人類生成的文本和來自互聯(lián)網(wǎng)的圖像上訓(xùn)練的，然后被人類專家根據(jù)他們的偏好進行微調(diào)。整個系統(tǒng)都被訓(xùn)練來預(yù)測人類的下一個詞，而不是試圖預(yù)測世界。

我認為我們開始達到人類數(shù)據(jù)的極限，幾乎達到這種策略的極限。高質(zhì)量的人類數(shù)據(jù)源已經(jīng)被消耗殆盡，而生成真正新的知識超出了模仿人類的方法范圍。要做真正新的事物，必須與世界互動。

因此我們正在進入經(jīng)驗時代。AI需要一個新的數(shù)據(jù)源，這個數(shù)據(jù)源會隨著智能體變得更強而增長和改善。任何靜態(tài)數(shù)據(jù)集都將是不夠的。你可以從經(jīng)驗中獲得這種數(shù)據(jù)，從與世界的第一人稱互動中獲得。

經(jīng)驗意味著從進入傳感器和輸出到執(zhí)行器的數(shù)據(jù)，這是人類和其他動物學(xué)習(xí)的正常方式。觀察一個嬰兒與世界互動的例子：它依次與世界的不同部分互動，與不同的玩具互動，試圖學(xué)習(xí)如何使用那些玩具。

注意它正在做出決定來確定自己的輸入。它會與一個玩具互動一段時間，直到學(xué)會了所有能學(xué)的，然后繼續(xù)前進。隨著成長和變得更加復(fù)雜，它能從每樣?xùn)|西中學(xué)到的量會改變，行為也會不同。它自己的行為決定了它的經(jīng)驗和數(shù)據(jù)，這就是我們需要的。

再看其他例子，人類和動物在學(xué)習(xí)，比如踢足球、實現(xiàn)目標。想想流入足球運動員眼睛、耳朵和身體感覺器官的數(shù)據(jù)：一切都在變化，一切都在快速移動，流入大腦的數(shù)據(jù)流是巨大的。

運動員無法關(guān)注一切，必須做出快速決定來實現(xiàn)目標。這就是足球運動員的生活，或者動物在森林中飛行、逃離捕食者、揮動棒球棒擊球或進行對話的生活——都需要高帶寬信號處理，這構(gòu)成了技能、感知和行動。這就是經(jīng)驗，我指的不是任何抽象概念，只是指進出大腦的數(shù)據(jù)。

數(shù)據(jù)源會根據(jù)大腦的能力變得可變，就像兩個游戲系統(tǒng)互動時一樣。隨著它們的改進，數(shù)據(jù)也變得更好和不同。這就是AlphaGo學(xué)會做出創(chuàng)造性移動的方式——著名的第37手。

這對于從經(jīng)驗中學(xué)習(xí)至關(guān)重要，在這種情況下，經(jīng)驗是通過模擬可能的移動和這些移動的后果產(chǎn)生的。在AlphaProof中也是類似的，這是在國際數(shù)學(xué)奧林匹克競賽中獲得獎牌的系統(tǒng)。在數(shù)學(xué)中，你可以看到操作的后果，并向前看很多步。

關(guān)于經(jīng)驗思維模式：智能體與世界交換信號，這些就是它的經(jīng)驗，然后從那種經(jīng)驗中學(xué)習(xí)。更深層的觀察是，智能體知道的任何東西都是關(guān)于經(jīng)驗的。即使提前給智能體一些知識，它仍然必須是關(guān)于經(jīng)驗的——不是關(guān)于文字的，而是關(guān)于如果要做事情會發(fā)生什么。

知識是關(guān)于經(jīng)驗的，因此可以從經(jīng)驗中學(xué)習(xí)。智能體的智能程度取決于它們能夠預(yù)測和控制其輸入信號的程度，特別是獎勵信號的預(yù)測和控制。

這就是AI應(yīng)該關(guān)注的核心。智能是關(guān)于經(jīng)驗的，是所有智能的焦點和基礎(chǔ)。強化學(xué)習(xí)領(lǐng)域就是基于這種思維模式，讓智能體成為能夠做決定、實現(xiàn)目標、與世界互動的一流智能體。

02 AI發(fā)展的三個時代

我們可以回顧現(xiàn)在所處的時間線。第一個時代是AlphaGo時代、Atari時代，這是模擬時代，強化學(xué)習(xí)智能體從模擬經(jīng)驗中學(xué)習(xí)，變得更好，有AlphaGo和AlphaZero這些震撼世界的著名例子。然后我們進入了ChatGPT和大型語言模型的人類數(shù)據(jù)時代。我們現(xiàn)在可能正處于那個時代的末期，所有數(shù)據(jù)都來自人類。

接下來我們將進入經(jīng)驗時代，通過與世界互動的經(jīng)驗學(xué)習(xí)。我們在AlphaProof中看到了這一點的第一個暗示，當大型語言模型現(xiàn)在使用計算機、訪問API并實際在世界中采取行動時，我們也看到了這種暗示。

這是我關(guān)于AI未來視角的第一點。我的觀點是，創(chuàng)造超級智能智能體和超級智能增強人類，對世界來說將是純粹的好事。我不擔(dān)心安全問題，不擔(dān)心失業(yè)問題，這只是轉(zhuǎn)型和世界發(fā)展的正常部分。我認為這需要時間，需要幾十年，并且在那之后還會持續(xù)幾十年。這是一場馬拉松，不是短跑，但我們?yōu)榇俗龊脺蕚涫敲髦堑摹?/p>

完全智能的智能體將必須從經(jīng)驗中學(xué)習(xí)，這超出了我們當前的智能體能力。它們將作為世界知識的可定制接口。我們已經(jīng)使用強化學(xué)習(xí)進入了這個新的經(jīng)驗時代。然而，實現(xiàn)其全部力量將需要更好的深度學(xué)習(xí)算法，這些算法能夠持續(xù)學(xué)習(xí)。

03 去中心化合作與中心化控制的發(fā)展哲學(xué)

現(xiàn)在我想轉(zhuǎn)換話題，談?wù)摪l(fā)展問題。我們必須問這個基本問題：在智能體社會中，是只有一個每個人都分享的目標，還是有許多目標？

作為強化學(xué)習(xí)研究者，思考智能體問題對我來說很自然。在強化學(xué)習(xí)中很明顯，每個智能體都有自己的目標，有自己的獎勵信號進入大腦，試圖最大化那個目標。沒有理由要求不同智能體的獎勵信號必須相同。

在自然界中，每個動物都有類似的信號進入大腦，這實際上是在下丘腦中計算的，包括疼痛傳感器和快樂傳感器。在AI和自然界中，不同的智能體有不同的目標。我們可以談?wù)撍鼈內(nèi)绾畏窒砟繕耍热缑總€動物都關(guān)心食物，但一個動物的食物不是另一個動物的食物，這些是對稱的目標，不是相同的目標。人類也是如此，我們關(guān)心自己的家庭、食物和安全，超過共同目標。

反思我們的經(jīng)濟體系如何最好地工作：我認為當人們有不同的目標和不同的能力時，它們工作得最好。目標不必沖突，但可以不同，差異是好的。我們的社會并不真正依賴于人們有相同的目標，而是依賴于人們追求個人角色然后互動。我們社會的明顯特點是我們可以和平共存，即使我們都想要不同的東西。我們交易、專業(yè)化、互動。

讓我做一些定義以便簡單討論。我定義去中心化為這種現(xiàn)象：有許多智能體，每個都追求自己的目標。這與中心化形成對比：許多智能體都被約束為有相同的目標。例如，蜜蜂群是中心化社會，有許多智能體，但它們都在追求蜂巢的目標，螞蟻也是如此。

去中心化意味著許多智能體，每個都追求自己的目標，每個都被允許有自己的目標。合作是當有不同目標的智能體互動以獲得互利時，每個智能體實現(xiàn)自己的目標，并通過互動促進自己的目標，形成雙贏關(guān)系。這是去中心化的合作。

我認為合作是我們的超能力。人類比任何其他動物合作得更多，合作由語言和金錢促進，這兩樣?xùn)|西都是人類獨有的。人類最大的成功是我們的合作，比如經(jīng)濟、市場和政府，這些是我們合作的方式。

我們最大的失敗是合作的失敗，比如戰(zhàn)爭、盜竊和腐敗。去中心化合作是社會組織的另一種觀點。在我看來，它比中心化觀點更優(yōu)雅，去中心化合作更強大、更可持續(xù)、更靈活，對作弊者和異常值更有抵抗力。

必須承認，我們在合作方面仍然很糟糕。我們?nèi)匀挥袘?zhàn)爭、盜竊和欺詐。我們必須努力合作，但合作并不總是可能的。它至少需要兩個值得信賴的智能體，總會有一些不值得信賴的。那些從不合作中獲得優(yōu)勢的——作弊者、小偷、武器制造商和獨裁者，他們從不合作中受益。

合作需要機構(gòu)來促進它，懲罰作弊者、欺詐者和小偷。中心化權(quán)威可以幫助合作，提供促進合作所需的機構(gòu)。但那些中心化權(quán)威也可能在長期內(nèi)毒害合作，當權(quán)威變得專制或僵化時。這種對比就是中心化控制和去中心化合作之間的差異。

如果觀察控制AI的呼吁和控制人類社會的呼吁，會發(fā)現(xiàn)這兩者驚人得相似。

關(guān)于AI，有很多呼吁。有暫停或停止AI研究的呼吁，有限制可以用來制造AI的算力的呼吁，有確保AI安全制造和要求披露的呼吁。

與此相似的是控制人類的呼吁。我們時代的大問題包括：言論應(yīng)該自由嗎？人們可以被允許聽到其他人的觀點嗎？我們可以有自由貿(mào)易還是必須被控制？如何控制就業(yè)？如何控制金融和資本？是否對某些國家實施關(guān)稅和經(jīng)濟制裁？

這基本上是一個社會問題：我們將如何處理人們有多個不同目標的現(xiàn)實？我們要去中心化嗎，還是要朝著中心化控制發(fā)展？

中心化控制的呼吁非常相似，都基于恐懼，都基于"我們對他們"的思維。在每個社會中，都有一些不能被信任的人，但也有通常可以被信任的大多數(shù)。

總結(jié)一下，我認為所有人類和AI的繁榮都來自去中心化合作。人類在合作方面很出色，但也有不足。合作會遇到阻礙和挫折，但它是世界上所有美好事物的源泉。我們必須尋找和支持合作，并尋求將其制度化。