一级黄网站_波多野结衣片子_欧美性极品_熟女高潮一区二区三区_亚洲最大成人在线_xxx在线播放

李飛飛最新對(duì)話：沒有空間智能，AGI 就不完整

人工智能AI2025-07-05

在我看來，沒有空間智能，通用人工智能就不完整。這是“AI教母”李飛飛在最新訪談中對(duì)AGI的判斷——是的，李飛飛也開始談?wù)揂GI了。不過她有自己的表述，從進(jìn)入人工智能領(lǐng)域開始，她就確定了她終身奮斗的夢(mèng)想：讓智能體能夠講述世界的故事。而這，離不開空間智能。正如她本人所說：我整個(gè)職業(yè)生涯都在追逐那些極其困難、近乎瘋狂的問題。李飛飛如今聚焦于空間智能領(lǐng)域——這個(gè)人工...

在我看來，沒有空間智能，通用人工智能就不完整。

這是“AI教母”李飛飛在最新訪談中對(duì)AGI的判斷——是的，李飛飛也開始談?wù)揂GI了。

不過她有自己的表述，從進(jìn)入人工智能領(lǐng)域開始，她就確定了她終身奮斗的夢(mèng)想：讓智能體能夠講述世界的故事。

而這，離不開空間智能。

李飛飛最新對(duì)話：沒有空間智能，AGI 就不完整-1.jpg

正如她本人所說：

我整個(gè)職業(yè)生涯都在追逐那些極其困難、近乎瘋狂的問題。

李飛飛如今聚焦于空間智能領(lǐng)域——這個(gè)人工智能最艱難的領(lǐng)域之一。

她認(rèn)為3D世界建模對(duì)于實(shí)現(xiàn)AGI至關(guān)重要，并表示：

理解三維世界、生成三維世界、推理三維世界、在三維世界中做事，是人工智能的基本問題。

她的目標(biāo)是創(chuàng)建一個(gè)超越平面像素、跨越語言障礙、能夠真正捕捉三維世界結(jié)構(gòu)和空間智能的世界模型。

在這次對(duì)話中，她從ImageNet的起源和影響說起，講述了AI范式轉(zhuǎn)變與關(guān)鍵突破，并提到了3D建模面臨的挑戰(zhàn)以及空間智能的數(shù)據(jù)缺失問題。

量子位翻譯并總結(jié)了全文，讓我們一起來學(xué)習(xí)李飛飛的最新認(rèn)知和分享。

01 ImageNet為現(xiàn)代計(jì)算機(jī)視覺搭建數(shù)據(jù)骨架

Q：你最早創(chuàng)建的項(xiàng)目之一是2009年的ImageNet，距今已有16年了。那篇文章有超過8萬次引用，真正觸及了人工智能的一個(gè)關(guān)鍵問題，即數(shù)據(jù)問題。請(qǐng)告訴我們那個(gè)項(xiàng)目是如何產(chǎn)生的——在那會(huì)兒，這可是開創(chuàng)性的工作。

李飛飛：實(shí)際上，我們構(gòu)思這個(gè)（ImageNet）已經(jīng)是幾乎18年前的事情了。我曾在普林斯頓大學(xué)擔(dān)任助理教授，當(dāng)時(shí)人工智能和機(jī)器學(xué)習(xí)的世界完全不同，數(shù)據(jù)非常少，至少在計(jì)算機(jī)視覺領(lǐng)域，算法并不起作用——那里沒有產(chǎn)業(yè)。你知道，就公眾而言，AI這個(gè)詞并不存在。

但是我們中間仍有一些人——從AI的創(chuàng)始人開始——然后是John McCarthy、Geoffrey Hinton等人。我想我們只是做了一個(gè)人工智能的夢(mèng)：我們真的真的想讓機(jī)器能夠思考和行動(dòng)。而我個(gè)人的夢(mèng)想就是想讓機(jī)器能夠看見，因?yàn)榭匆娛侵悄艿幕?/p>

視覺智能不僅僅是感知，它的真正意義在于理解世界并在世界中行動(dòng)。我癡迷于讓機(jī)器看見的問題，在我當(dāng)時(shí)癡迷地開發(fā)機(jī)器學(xué)習(xí)算法時(shí)，我們嘗試了神經(jīng)網(wǎng)絡(luò)，但它沒有成功，然后我們轉(zhuǎn)向基礎(chǔ)網(wǎng)絡(luò)來支持向量機(jī)。

但有一個(gè)問題一直困擾著我，那就是泛化的問題：如果你在機(jī)器學(xué)習(xí)領(lǐng)域工作，你必須認(rèn)識(shí)到泛化是機(jī)器學(xué)習(xí)的核心數(shù)學(xué)基礎(chǔ)或目標(biāo)。為了泛化，這些算法需要數(shù)據(jù)。但當(dāng)時(shí)還沒有人在計(jì)算機(jī)視覺領(lǐng)域有數(shù)據(jù)，而我是第一批開始接觸數(shù)據(jù)的研究生，因?yàn)槲沂亲钤缈吹交ヂ?lián)網(wǎng)、物聯(lián)網(wǎng)大發(fā)展的那一代研究生。

時(shí)間快進(jìn)到21世紀(jì)，大約在2007年前后，我和我的學(xué)生決定，我們必須進(jìn)行一次大膽的賭注：我們必須賭機(jī)器學(xué)習(xí)需要一次范式轉(zhuǎn)變，而這個(gè)轉(zhuǎn)變必須由數(shù)據(jù)驅(qū)動(dòng)的方法引領(lǐng)，但當(dāng)時(shí)根本沒有數(shù)據(jù)。

所以我們想，好吧，去互聯(lián)網(wǎng)上下載十億張圖片——那是當(dāng)時(shí)我們能獲取到的最大數(shù)量——然后創(chuàng)建整個(gè)世界的視覺分類體系，并用這個(gè)來訓(xùn)練和評(píng)估機(jī)器學(xué)習(xí)算法。這就是ImageNet被構(gòu)想出來并誕生的原因。

02 自然語言與視覺信號(hào)的融合，讓智能體能夠講述世界的故事

Q：這個(gè)過程持續(xù)了一段時(shí)間，才發(fā)展出一些有前景的算法，直到2012年AlexNet出現(xiàn)，這才構(gòu)成了通往人工智能的第二個(gè)關(guān)鍵部分——獲得計(jì)算能力，并投入足夠的資源到算法中。請(qǐng)告訴我們，您是什么時(shí)候開始意識(shí)到這一點(diǎn)的？就是當(dāng)你發(fā)現(xiàn)“用數(shù)據(jù)播種”的方法開始奏效，整個(gè)AI社區(qū)在此基礎(chǔ)上取得了更多突破性進(jìn)展的那個(gè)時(shí)刻。

李飛飛：在2009年，我們發(fā)表了一個(gè)非常小的CVPR海報(bào)，然后在2009年到2012年之間，那三年我們真的相信數(shù)據(jù)會(huì)驅(qū)動(dòng)人工智能，但我們幾乎沒有關(guān)于它是否有效的信號(hào)。所以我們做了一些事情，其中一件就是開源。從一開始我們就相信，必須將這個(gè)項(xiàng)目開源給整個(gè)研究界，讓所有人都能參與進(jìn)來。

另一件事情是，我們發(fā)起了一個(gè)挑戰(zhàn)賽，希望全世界最聰明、最優(yōu)秀的學(xué)生和研究人員都能來解決這個(gè)問題。這就是我們所說的ImageNet挑戰(zhàn)賽。我們每年都會(huì)發(fā)布一個(gè)測(cè)試數(shù)據(jù)集，然后公開邀請(qǐng)所有人參與。最初幾年其實(shí)是在建立基準(zhǔn)線——當(dāng)時(shí)的識(shí)別錯(cuò)誤率徘徊在30%左右，雖然不算完全隨機(jī)猜測(cè)的水平，但確實(shí)不盡如人意。

李飛飛最新對(duì)話：沒有空間智能，AGI 就不完整-2.jpg

但是，在第三年也就是2012年（我在一本我出版的書中寫到了這一點(diǎn)），我依然記得那是在夏天快要結(jié)束的時(shí)候，我們正在處理ImageNet挑戰(zhàn)賽的所有結(jié)果，并在我們的服務(wù)器上運(yùn)行，然后有一天深夜，我收到了我研究生的消息：他說我們得到了一個(gè)特別特別突出的結(jié)果，我應(yīng)該看看。于是我們仔細(xì)研究了它，那是卷積神經(jīng)網(wǎng)絡(luò)（convolutional neuronet network）之類的。

當(dāng)時(shí)Geoffrey Hinton的團(tuán)隊(duì)還不叫Alex這個(gè)名字，他們當(dāng)時(shí)命名為“SuperVision”，這是對(duì)“超級(jí)視覺”和“監(jiān)督學(xué)習(xí)”的巧妙雙關(guān)，所以“SuperVision”。

讓我們看看他們做了什么——這是一個(gè)老算法，卷積神經(jīng)網(wǎng)絡(luò)在20世紀(jì)80年代問世，而他們?cè)谒惴ㄉ献龀隽艘恍┱{(diào)整。最初看到這樣的飛躍變化，對(duì)我們來說還是挺令人驚訝的，嗯，你們知道，我們?cè)谀且荒甑囊獯罄鹆_倫薩ICCV挑戰(zhàn)研討會(huì)上展示了這個(gè)，Alex Krizhevsky和很多研究者都來了。

李飛飛最新對(duì)話：沒有空間智能，AGI 就不完整-3.jpg

如今這一刻已經(jīng)被載入史冊(cè)，被稱為“ImageNet挑戰(zhàn)賽的AlexNet時(shí)刻”——這不僅僅是一個(gè)卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用，這是Alex和他的團(tuán)隊(duì)第一次將兩個(gè)GPU并聯(lián)用于深度學(xué)習(xí)計(jì)算的壯舉。所以這實(shí)際上是數(shù)據(jù)、GPU和神經(jīng)網(wǎng)絡(luò)第一次結(jié)合的時(shí)刻。

Q：現(xiàn)在，順著計(jì)算機(jī)視覺智能發(fā)展的趨勢(shì)，ImageNet真正成為解決物體識(shí)別概念的關(guān)鍵，然后緊接著，人工智能也達(dá)到了能夠解析視覺場(chǎng)景的程度。因?yàn)槟愫湍愕膶W(xué)生，比如Andrej Kaparthy，做了很多重要工作，讓AI首次實(shí)現(xiàn)了場(chǎng)景描述的能力。請(qǐng)告訴我們物體到場(chǎng)景是如何轉(zhuǎn)變的。

李飛飛：ImageNet解決的核心問題是：當(dāng)系統(tǒng)接收一張圖像時(shí)，能夠準(zhǔn)確識(shí)別其中的物體，比如“這里有一只貓”“那是一把椅子”等等。這是視覺識(shí)別中的一個(gè)基本問題。

從我作為研究生進(jìn)入人工智能領(lǐng)域開始，我就有一個(gè)夢(mèng)想，我認(rèn)為這是一個(gè)長達(dá)一百年的夢(mèng)想，即讓智能體能夠講述世界的故事：當(dāng)你在這個(gè)房間睜開眼睛時(shí)，你看見的不僅僅是人、椅子、椅子和椅子，你實(shí)際上可以看到一整個(gè)會(huì)議室，有屏幕、有舞臺(tái)、有人、有觀眾，還有攝像機(jī)……你實(shí)際上能描述你看到的整個(gè)場(chǎng)景。這是人類視覺智能的基礎(chǔ)能力，對(duì)我們的日常生活來說至關(guān)重要。

所以我真的認(rèn)為這個(gè)問題會(huì)困擾我的一生，字面意義上的，當(dāng)我作為研究生畢業(yè)時(shí)，我告訴自己，如果我在臨終前能夠創(chuàng)造一個(gè)能夠講述場(chǎng)景故事的算法，我就成功了。

隨著Alex時(shí)刻的到來，深度學(xué)習(xí)迎來了爆發(fā)式發(fā)展。當(dāng)Andrej和后來的Justin Johnson進(jìn)入我的實(shí)驗(yàn)室時(shí)，我們開始觀察到自然語言與視覺信號(hào)相互融合的跡象。隨后，我和Andrej提出了為圖像添加字幕或講故事的問題。長話短說，2015年左右，Andrej和我發(fā)表了一系列論文，同期也有幾篇類似研究，關(guān)于制造一臺(tái)可以為圖像添加字幕的計(jì)算機(jī)。那時(shí)我的感受是，天啊，我該怎么度過我的余生？那是我一生的目標(biāo)，那對(duì)我們兩個(gè)人來說都是難以置信的時(shí)刻。

去年我做了一個(gè)TED演講，我實(shí)際上使用了Andrej幾年前在完成圖像字幕工作時(shí)發(fā)的推文，基本上就是他的論文。我還和他開了個(gè)玩笑，我說：“嘿Andrej，我們?yōu)槭裁床环催^來做呢？取一個(gè)句子然后生成一張圖片?！碑?dāng)然他知道我在開玩笑，他說：“哈哈，我要走了~這個(gè)世界還沒有準(zhǔn)備好?！笨爝M(jìn)到今天，我們都知道生成式AI了，現(xiàn)在我們可以用一句話生成美麗的圖片。所以這個(gè)故事的寓意是，AI已經(jīng)取得了不可思議的增長。

我個(gè)人認(rèn)為我是世界上最幸運(yùn)的人，因?yàn)槲业恼麄€(gè)職業(yè)生涯始于AI寒冬結(jié)束的初期，也就是AI開始騰飛的起點(diǎn)，而我自己的工作、我自己的職業(yè)生涯有很大一部分都參與了這一變革，或者為這一變革提供了助力。所以我感到非常幸運(yùn)和自豪。

03 沒有空間智能，通用智能就不完整

Q：我認(rèn)為最瘋狂的事情是，即使你實(shí)現(xiàn)了你一生的夢(mèng)想——描述場(chǎng)景，甚至用擴(kuò)散模型生成它們——你實(shí)際上還在夢(mèng)想更大的事情，因?yàn)檎麄€(gè)計(jì)算機(jī)視覺的發(fā)展歷程從物體變成了場(chǎng)景，而現(xiàn)在這個(gè)概念是整個(gè)世界，而你決定從學(xué)術(shù)界成為教授，到現(xiàn)在成為World Labs的創(chuàng)始人和CEO。請(qǐng)告訴我們，有什么是比看見物體更難的事情？

李飛飛：要總結(jié)過去五六年的經(jīng)歷真的很難，我們正生活在科技進(jìn)步的這樣一個(gè)文明時(shí)刻，對(duì)吧？而作為計(jì)算機(jī)視覺科學(xué)家，我們見證了計(jì)算機(jī)視覺從圖像識(shí)別到圖像描述再到使用擴(kuò)散技術(shù)進(jìn)行圖像生成的驚人發(fā)展，這一切都在以一種非常令人興奮的方式發(fā)生。

我們還有另一個(gè)同樣令人興奮的領(lǐng)域，那就是語言，也就是LLMs，2022年11月，ChatGPT打開了真正能夠通過圖靈測(cè)試的工作生成模型的大門。對(duì)我來說，這個(gè)進(jìn)展非常鼓舞人心，即使是像我這樣年紀(jì)的人，也會(huì)大膽地思考未來會(huì)怎樣。

作為一名計(jì)算機(jī)視覺科學(xué)家，我有一個(gè)習(xí)慣——我的很多靈感其實(shí)都來自進(jìn)化論和腦科學(xué)——在我的職業(yè)生涯中，我常常在尋找下一個(gè)要解決的目標(biāo)問題，我問我自己，進(jìn)化論做了什么，腦發(fā)育做了什么。有一點(diǎn)非常值得注意或者說值得欣賞的事情是，非常寬泛地來說，人類語言的進(jìn)化發(fā)展大約花了3億年到5億年，還不到十億年，而且基本上人類是唯一擁有復(fù)雜語言的動(dòng)物。我們可以爭(zhēng)論動(dòng)物是否具有語言，但就語言作為交流、推理、抽象的工具而言，真正擁有語言的是人類，這花費(fèi)的時(shí)間還不到5億年。

但想想視覺，想想理解三維世界的能力，弄清楚在這個(gè)三維世界中該做什么、導(dǎo)航三維世界、與三維世界互動(dòng)、理解三維世界、交流三維世界……這個(gè)進(jìn)化持續(xù)了5.4億年。5.4億年前，首批三葉蟲在水下進(jìn)化出了視覺感知能力，而正是視覺的出現(xiàn)引爆了這場(chǎng)進(jìn)化的軍備競(jìng)賽。在視覺誕生前的五億年間，地球上的生物都極其簡單。但在隨后的5億年，也就是在這5.4億年里——正因生物獲得了觀察世界、理解世界的能力——進(jìn)化競(jìng)賽正式開啟，動(dòng)物智能開始相互競(jìng)爭(zhēng)。

所以對(duì)我來說，解決空間智能的問題：如何理解三維世界、生成三維世界、推理三維世界、在三維世界中做事，是人工智能的基本問題。在我看來，沒有空間智能，通用人工智能就不完整。我想要解決這個(gè)問題：這涉及到創(chuàng)造性的世界模型，它超越了平面像素、超越了語言，是真正捕捉三維世界的結(jié)構(gòu)和空間智能的世界模型。

我一生中最幸運(yùn)的事，就是無論我年紀(jì)多大，總能和最優(yōu)秀的年輕人共事。所以，你知道的，我和三位了不起的年輕但世界級(jí)的技術(shù)專家——Justin Johnson、Ben Mildenhall和Christoph Lassner共同創(chuàng)立了一家科技公司，我們即將嘗試解決在我看來目前AI領(lǐng)域中最困難的問題。

Q：那真是令人難以置信的天賦，我是說，Chris，他是Pulsar的創(chuàng)造者，而Pulsar是Gosh和Splats的雛形，可以進(jìn)行大量可區(qū)分的渲染；你的前學(xué)生Justin Johnson擁有超強(qiáng)的系統(tǒng)工程思維，實(shí)現(xiàn)了實(shí)時(shí)神經(jīng)風(fēng)格遷移；然后是Ben，他是Nerf的作者。所以這是一支超級(jí)精銳團(tuán)隊(duì)，而你需要這樣的一支超級(jí)精銳團(tuán)隊(duì)。我們之前稍微聊過，實(shí)際上，視覺任務(wù)在某些方面比LLM更難——也許這話說出來有些爭(zhēng)議，但畢竟LLMs基本上是一維的，而你談?wù)摰氖抢斫馊S世界的結(jié)構(gòu)。為什么這會(huì)如此困難并且落后于語言的研究呢？

李飛飛：我很感謝你能體會(huì)到我們的問題有多困難，哈哈。語言在本質(zhì)上是一維的對(duì)吧？那些音節(jié)按照順序排列，這就是為什么序列到序列、序列建模如此經(jīng)典。還有一些人們沒有意識(shí)到的語言方面的東西：語言純粹是生成性的。自然界中不存在語言，你無法觸碰或者看見語言，語言源自每個(gè)人的大腦，而這是一種純粹的生成信號(hào)——當(dāng)然，你把它寫在紙上，它就存在了。

但是語言的生成、構(gòu)建和效用是非常具有創(chuàng)造性的，現(xiàn)實(shí)世界遠(yuǎn)比這復(fù)雜得多。首先，現(xiàn)實(shí)世界是3D的。如果加上時(shí)間，那就是4D，但就讓我們局限于空間吧，認(rèn)為世界本質(zhì)上是3D的，這本身就是一個(gè)組合難度更大的問題；

其次，視覺對(duì)世界的感知和接收是一種投射，無論是你的眼睛、視網(wǎng)膜還是相機(jī)，它總是將3D轉(zhuǎn)換為2D，你得明白這有多難，從數(shù)學(xué)角度來說這是錯(cuò)誤的，這就是為什么人類和動(dòng)物有很多個(gè)傳感器；

第三，世界并非完全是生成性的，我們可以生成虛擬的3D世界，它仍然必須遵守物理規(guī)律等等，但外面也有一個(gè)真實(shí)的世界。現(xiàn)在虛擬世界突然以一種非常流暢的方式在生成和重建之間切換，而且用戶行為、實(shí)用性、使用場(chǎng)景都大不相同——如果你把時(shí)間撥到這一代，我們就可以談?wù)動(dòng)螒颉⒃钪嬷惖脑掝}，如果你一路撥入現(xiàn)實(shí)世界，你就會(huì)發(fā)現(xiàn)我們正在談?wù)摼呱碇悄艿鹊?。但這一切都處于世界建模和空間智能的連續(xù)體上。

李飛飛最新對(duì)話：沒有空間智能，AGI 就不完整-4.jpg

一個(gè)顯而易見卻常被回避的問題是：互聯(lián)網(wǎng)上充斥著大量的語言數(shù)據(jù)，而空間智能的數(shù)據(jù)在哪里呢？當(dāng)然，這些信息都存在于人類大腦中，但它不像語言那樣容易獲取，這些都是它如此困難的原因。但坦白說，這讓我興奮，因?yàn)槿绻苋菀?，那別人早就解決了。我的整個(gè)職業(yè)生涯都在追逐那些極其困難、近乎瘋狂的問題，我認(rèn)為這就是那個(gè)瘋狂的問題。

Q：即使從最基本的原理來思考這個(gè)問題，人類大腦視覺皮層中處理數(shù)據(jù)的神經(jīng)元數(shù)量遠(yuǎn)多于處理語言的神經(jīng)元數(shù)量，人腦的這種架構(gòu)與LLMs有很大差別，你也逐漸發(fā)現(xiàn)了這一點(diǎn)，對(duì)吧？

李飛飛：這實(shí)際上是個(gè)非常好的問題，現(xiàn)在仍然存在很多不同的觀點(diǎn)，我們?cè)诖笳Z言模型中看到的很多內(nèi)容實(shí)際上是在寫作，通過寫作技能將故事擴(kuò)展到完美的結(jié)局，你幾乎可以一路通過暴力手段進(jìn)行自監(jiān)督。

而建設(shè)性世界模型可能會(huì)更復(fù)雜一些，世界更加結(jié)構(gòu)化，可能需要我們用來引導(dǎo)它的信號(hào)，你可以把它看成一種先驗(yàn)形式，或者是數(shù)據(jù)監(jiān)督。

我認(rèn)為以上這些是我們必須解決的一些開放性的問題，而且，我們甚至都不能完全理解人類的所有感知，我們還沒有解決3D在人類視覺中如何運(yùn)作這個(gè)問題，雖然從機(jī)械原理上，我們用眼睛對(duì)物體進(jìn)行三維測(cè)量，但在此之后，數(shù)學(xué)模型又在哪里呢？

人類并不像3D動(dòng)物那么偉大，所以還有很多問題有待解答，我只是在指望一件事：我期待我們之中最聰明的人來解決這個(gè)問題。

Q：那是否可以認(rèn)為你們的World Labs正在構(gòu)建的是全新的基礎(chǔ)模型，它輸出的是3D世界。你們?cè)O(shè)想的應(yīng)用有哪些？因?yàn)槟阋呀?jīng)列出了從感知到生成的所有內(nèi)容，但生成模型和判別模型之間始終存在著矛盾，那么（輸出的）這些3D世界有什么作用呢？

李飛飛：就空間智能而言，就像語言模型一樣，從創(chuàng)作的角度來看這個(gè)模型用例非常廣泛，比如，可以當(dāng)設(shè)計(jì)師、建筑師、工業(yè)設(shè)計(jì)師，以及藝術(shù)家，還有從創(chuàng)作到游戲開發(fā)者，再到機(jī)器人、機(jī)器人學(xué)習(xí)等方面，空間智能模型或者說是世界模型的實(shí)用性非常大。

實(shí)際上，我對(duì)元宇宙非常感興趣，我知道很多人仍然覺得它不管用，雖然我也知道它仍然無法運(yùn)作，但我認(rèn)為硬件和軟件的融合即將到來，這也是未來的另一個(gè)絕佳用例。

Q：我個(gè)人對(duì)于你正在解決元宇宙的問題感到非常興奮，因?yàn)槲乙苍谥暗墓緡L試過（這個(gè)問題）。

李飛飛：我認(rèn)為硬件是目前元宇宙障礙的一部分，在元宇宙中需要內(nèi)容生成，而內(nèi)容生成需要世界模型。

04 思想上要有無畏精神

Q：對(duì)于一些觀眾來說，他們可能會(huì)覺得你從學(xué)術(shù)界到現(xiàn)在成為創(chuàng)始人兼CEO的轉(zhuǎn)變很突然，但實(shí)際上你一生都有著非凡的經(jīng)歷，這不是你第一次從0到1了，你曾移民到美國時(shí)，青少年時(shí)期不會(huì)說英語的情況下甚至開了好幾年洗衣店，跟我們講講這些經(jīng)歷是如何塑造現(xiàn)在的你的吧。

李飛飛：我當(dāng)時(shí)19歲，我需要去普林斯頓大學(xué)學(xué)物理，所以我沒有辦法養(yǎng)家糊口，于是我開了一家還不錯(cuò)的干洗店，用硅谷的話說，我開始籌集資金。

我曾是創(chuàng)始人、CEO，也曾做過收銀員等。但不管怎樣，我看著你們感到無比興奮，因?yàn)槟銈兊哪挲g差不多只有我的一半，甚至，可能只有我年齡的30%，而你們又如此優(yōu)秀，你們放手去做想做的事情就好。

在我剛開始當(dāng)教授的時(shí)候，我也不顧很多人的反對(duì)，去了那些我是首個(gè)計(jì)算機(jī)視覺教授的學(xué)院——雖然我知道，作為一名年輕教授，我本應(yīng)該去哪些有學(xué)術(shù)氛圍和資深導(dǎo)師的地方。當(dāng)然，我也很希望那些地方有資深導(dǎo)師，如果沒有的話，我就開辟自己的道路，闖出自己的一片天，我并不害怕。

后來，我去了谷歌，了解了很多谷歌企業(yè)方面的知識(shí)，然后在斯坦福大學(xué)創(chuàng)辦了一家初創(chuàng)公司。大約在2018年，AI成了一個(gè)全人類的問題，人類不斷推動(dòng)著科技的進(jìn)步，但是我們不能失去人性，我很在意AI發(fā)展進(jìn)程中的一些積極導(dǎo)向，我想讓AI以人類為中心來造福人類。

于是我回到斯坦福創(chuàng)立了以人為本AI研究院（HAI），并且運(yùn)營了5年，可能有些人不理解，但我對(duì)此感到非常自豪。某種程度上，我覺得自己就是熱愛當(dāng)企業(yè)家。

我喜歡那種一切歸零的感覺，就像站在零點(diǎn)一樣，忘掉過去所做的一切，不在意別人對(duì)你的看法，只管埋頭苦干，努力建設(shè)，那是我的舒適區(qū)。

Q：你還有一個(gè)非常了不起的地方，除了你所做的所有令人贊嘆的事情之外，你還指導(dǎo)了很多傳奇的研究人員，比如Andrej Kaparthy、英偉達(dá)的Jim Fan、與你共同完成ImageNet的鄧嘉，他們后來都取得了非凡的職業(yè)生涯。他們學(xué)生時(shí)代真正突出的地方是什么？

李飛飛：首先，我是個(gè)幸運(yùn)的人。我認(rèn)為學(xué)生對(duì)我而言意義更大，他們真的讓我成為了一個(gè)更好的人、更好的老師、更好的研究者。就像你說的，能與這么多傳奇學(xué)生共事，真的是我一生的榮幸。

他們非常不同，他們中的一些人是純粹的科學(xué)家，試圖埋頭解決一個(gè)科學(xué)問題；有些人是行業(yè)領(lǐng)袖；還有一些人，是最偉大的AI知識(shí)傳播者。但我認(rèn)為有一件事能將它們統(tǒng)一起來。

我鼓勵(lì)他們每一個(gè)人都思考一下這個(gè)問題，這也是我為那些正在招聘的創(chuàng)始人提一些建議，包括我的招聘標(biāo)準(zhǔn)：我尋找的是思想上的無畏精神。

我認(rèn)為無論你來自哪里，無論我們?cè)噲D解決什么問題，都無關(guān)緊要。那種勇于接受困難之事、全力以赴并想盡辦法去解決問題的勇氣和無畏精神，是成功人士的核心特質(zhì)。我從他們身上學(xué)到了這一點(diǎn)，而且我真的在尋找具備這種特質(zhì)的年輕人——作為World Labs的CEO，在招聘時(shí)，我會(huì)尋找具備這種特質(zhì)的人。

Q：所以你們也在為World Labs大量招聘。

李飛飛：是的，我們正在招聘工程人才、產(chǎn)品人才、3D人才和生成模型人才。所以，如果你覺得自己無所畏懼，并且熱衷于解決空間智能問題，那就跟我聊聊，或者訪問我們的網(wǎng)站。

05 通過梯度下降法找到生活最優(yōu)解

觀眾1：嗨，飛飛，我是你的超級(jí)粉絲。我的問題是，二十多年前，您從事過視覺識(shí)別方面的工作，如果我想現(xiàn)在開始攻讀博士學(xué)位，我應(yīng)該選擇什么方向，才能成為像你一樣的傳奇人物呢？

李飛飛：雖然我可以說，做任何讓你興奮的事，但我更想給你一個(gè)深思熟慮的答案：首先，我認(rèn)為AI研究已經(jīng)發(fā)生了變化，因?yàn)閷W(xué)術(shù)界不再擁有大部分的AI資源，這和我那個(gè)時(shí)代大不一樣了。芯片、算力和數(shù)據(jù)在學(xué)術(shù)界的資源配置方面確實(shí)非常匱乏。

作為一名博士生，我建議你去尋找那些不用通過更好的計(jì)算、更好的數(shù)據(jù)就能更好解決的問題的團(tuán)隊(duì)，在學(xué)術(shù)界，我們?nèi)匀豢梢园l(fā)現(xiàn)一些非常根本性的問題：無論你有多少芯片都能取得很大的進(jìn)展。

其次，跨學(xué)科AI是學(xué)術(shù)界一個(gè)非常令人興奮的領(lǐng)域，尤其是在科學(xué)發(fā)現(xiàn)方面。有太多學(xué)科可以與AI交叉，我認(rèn)為這是理論方面一個(gè)大有可為的領(lǐng)域。

很有意思的是，AI能力已經(jīng)100%超越了理論：我們不知道如何做、我們?nèi)狈山忉屝浴⑽覀儾恢廊绾握页鲆蚬P(guān)系、我們有太多不理解的事情……所以人們可以繼續(xù)推進(jìn)。

而且這個(gè)清單可以一直列下去：在計(jì)算機(jī)視覺領(lǐng)域，仍然存在一些我們尚未解決的表征問題。另外，小數(shù)據(jù)也是另一個(gè)非常有趣的領(lǐng)域，這些就是可能性。

觀眾2：再次祝賀你獲得耶魯大學(xué)的榮譽(yù)博士學(xué)位，一個(gè)月前，我有幸在那里見證了那一刻。我的問題是：在你看來，AGI更有可能統(tǒng)一模型或作為多智能體系統(tǒng)，以統(tǒng)一、單一的形式出現(xiàn)嗎？

李飛飛：你提出這個(gè)問題的方式本身就已經(jīng)是兩種定義了。其中一種定義更具理論性，即如果存在一個(gè)智商測(cè)試，通過該測(cè)試就可定義為AGI；另一個(gè)定義則更具功能性，如果它是基于智能體的，它是否具備功能性，能執(zhí)行哪些任務(wù)？

老實(shí)說，我也對(duì)這個(gè)AGI的定義感到困惑。1956年齊聚達(dá)特茅斯的AI先驅(qū)們，像John McCarthy和Marvin Minsky這樣的人，他們想要解決機(jī)器思考的問題。而這是圖靈早在10年前就提出的問題，在那個(gè)陳述中，它不是狹義的AI，而是一種智能的表述。

所以我不太清楚如何區(qū)分關(guān)于AI和這個(gè)新詞AGI的定義。對(duì)我來說，它們是一回事。但我明白，如今的行業(yè)喜歡把AGI稱為超越AI的東西，我對(duì)此感到困惑，因?yàn)槲也恢繟GI與AI究竟有何不同。

如果我們說如今AGI的系統(tǒng)比80、70、90年代或其他時(shí)期的狹義AI系統(tǒng)表現(xiàn)更好，我認(rèn)為這只是該領(lǐng)域的發(fā)展進(jìn)程。但從根本上說，我認(rèn)為AI的規(guī)模即智能的規(guī)模，我們是要?jiǎng)?chuàng)造出能夠像人類一樣智能，甚至比人類更加智能地思考和做事的機(jī)器。

我不知道如何定義AGI，不定義它我就不知道它是否是單一的。你把大腦看作一個(gè)整體，但它確實(shí)有不同的功能。甚至還有專門的語言區(qū)域，有視覺皮層，也有運(yùn)動(dòng)皮層。所以我真不知道該怎么回答那個(gè)問題。

觀眾3：看到一位女性在這個(gè)領(lǐng)域發(fā)揮主導(dǎo)作用真的很鼓舞人心。我想問，在AI迅速崛起的當(dāng)下，你作為一名研究者、教育者和企業(yè)家，認(rèn)為什么樣的人應(yīng)該攻讀研究生學(xué)位？

李飛飛：這是個(gè)很棒的問題。這是一個(gè)連家長都會(huì)問我的問題。我認(rèn)為研究生階段是你充滿強(qiáng)烈好奇心的4到5年。你被好奇心引領(lǐng)。那種好奇心非常強(qiáng)烈，以至于沒有比這個(gè)時(shí)期更好的時(shí)期來滿足。

讀研究生與創(chuàng)業(yè)不同，因?yàn)閯?chuàng)業(yè)不能僅僅靠好奇心來引領(lǐng)，這樣你的投資者會(huì)對(duì)你發(fā)火的。一家有著明確商業(yè)目標(biāo)的初創(chuàng)公司，其中一部分原因是好奇心，但又不只是好奇心。

而對(duì)于基層人員來說，解決問題或提出正確問題的好奇心很重要，我認(rèn)為那些帶著強(qiáng)烈好奇心投身其中的人會(huì)享受這四五年研究生時(shí)光，即便外界正以光速發(fā)展，你依然會(huì)感到快樂，因?yàn)槟阍谀抢镒穼ぶ欠莺闷嫘摹?/p>

觀眾4：你提到開源是ImageNet發(fā)展的重要組成部分，而現(xiàn)在，隨著大語言模型的最新發(fā)布，我們看到各組織在開源方面采取了不同的做法，有些組織完全采用閉源模式，有些組織則完全公開其整個(gè)研究棧，還有些組織處于中間狀態(tài)，開放權(quán)重或采用限制性許可等類似做法。所以我想問，你如何看待這些不同的開源方法，以及你認(rèn)為作為一家AI公司，正確的開源方式是什么？

李飛飛：我并不拘泥于你必須開源或必須閉源這種教條。這取決于公司的業(yè)務(wù)戰(zhàn)略。

例如，F(xiàn)acebook、Meta想要開源的原因很明顯，他們目前的商業(yè)模式并不是通過銷售模型來盈利。他們正在利用它來發(fā)展生態(tài)系統(tǒng)，以便人們來到他們的平臺(tái)。所以開源很有意義。

而其他公司通過開源或者閉源賺錢。所以我對(duì)這個(gè)問題挺開放的。我認(rèn)為開源應(yīng)該受到保護(hù)，如果公共部門（如學(xué)術(shù)界）和私營部門都有開源，那對(duì)創(chuàng)業(yè)生態(tài)系統(tǒng)非常重要。我認(rèn)為應(yīng)該受到技術(shù)保護(hù)。

觀眾4：我有一個(gè)關(guān)于數(shù)據(jù)的問題：既然你現(xiàn)在正在研究世界模型，你指出了機(jī)器學(xué)習(xí)向以ImageNet為代表的數(shù)據(jù)驅(qū)動(dòng)方法的轉(zhuǎn)變，并且你提到互聯(lián)網(wǎng)上沒有這種空間數(shù)據(jù)，它只存在于我們的頭腦中，那么你是如何解決這個(gè)問題的呢？你是從現(xiàn)實(shí)世界收集這些數(shù)據(jù)嗎？還是合成數(shù)據(jù)？還是你相信那些古老的先驗(yàn)知識(shí)呢？謝謝。

李飛飛：你應(yīng)該加入World Labs，我會(huì)告訴你的。

作為一家公司，我沒辦法透露太多，但我承認(rèn)我們正在采取混合方式，擁有大量數(shù)據(jù)固然重要，但擁有大量高質(zhì)量數(shù)據(jù)同樣重要，說到底，如果不注意數(shù)據(jù)質(zhì)量，仍然會(huì)出現(xiàn)“輸入垃圾，輸出垃圾”的情況。

觀眾5：在你的書《我看見的世界》中，你談到了作為移民女孩和女性在STEM所面臨的挑戰(zhàn)。我很好奇，你是否有過在工作場(chǎng)所感覺自己是少數(shù)群體的時(shí)刻，如果有，你是如何克服這種情況或說服他人的？

李飛飛最新對(duì)話：沒有空間智能，AGI 就不完整-5.jpg

李飛飛：感謝你提出這個(gè)問題。我想非常謹(jǐn)慎或深思熟慮地回答你，因?yàn)槲覀兌紒碜圆煌谋尘?，每個(gè)人的感受都非常獨(dú)特。其實(shí)，我們是什么人都無關(guān)緊要，我們所有人都有過感覺自己是少數(shù)人群的時(shí)刻。

有時(shí)這取決于我是誰，有時(shí)這基于我的想法，有時(shí)候就只是在于我穿的襯衫顏色之類的，但這正是我想要鼓勵(lì)大家的地方，我從小來到這個(gè)地方，我已經(jīng)檢驗(yàn)了這件事情的本質(zhì)，那就是作為一名移民女性，我?guī)缀跖囵B(yǎng)出了一種不過度關(guān)注此事的能力——和你們每個(gè)人一樣，我來這里是為了學(xué)習(xí)、做事或創(chuàng)造。

在訪談的最后，李飛飛給所有年輕人送上了美好的祝愿：

你們即將踏上一段征程，或者正處于征程之中，你們會(huì)有脆弱的時(shí)刻，或者遇到奇怪的事情，在創(chuàng)業(yè)過程中，我每天都有這樣的感受，有時(shí)候我會(huì)想，“天哪，我不知道自己在做什么”。但你們只管專注去做，通過梯度下降法找到最優(yōu)解。

標(biāo)簽李飛飛 AI 空間智能 AGI

上一篇：傳京東探索具身智能，近期將有 AI潮玩產(chǎn)品發(fā)布

下一篇：英偉達(dá) GeForce 宣布參展 BW2025，RTX 5080/5070公版顯卡限量發(fā)售