20位 AI 領(lǐng)導者的年度洞察|WAIC2025
機器人開始成為今年世界人工智能大會(WAIC2025)的主角,這是WAIC自2018年首次舉辦以來的第一次。

無論在WAIC現(xiàn)場哪里,機器人都是明星。
包括智元、宇樹科技、銀河通用、靈初等在內(nèi)的幾乎所有人形機器人公司都有在上海世博展覽館設立展臺,展示它們的機器人在過去一年中取得的進展。與一年前比,這些機器人的本體,即身體硬件變化并不大,形態(tài)依然以雙足人形、輪式人形為主,但軟件部分開始出現(xiàn)范式變化——讓機器人可以從遙控進化到自主行走。
包括智元、騰訊、商湯、生數(shù)科技等在內(nèi)的公司,都推出了應用于指導機器人行動的感知行動模型,或用于預測下一步環(huán)境狀態(tài)的世界模型,這些模型都意在解決機器人與環(huán)境的交互問題,幫助機器人決定如何在真實物理世界中行走和執(zhí)行動作。其中騰訊的加入可能是今年機器人領(lǐng)域的最大變量,它已在該領(lǐng)域投入7年,比現(xiàn)有多數(shù)人形機器人公司都久。
相較而言,大模型公司則低調(diào)很多。百川智能和零一萬物都沒有參加這次大會;MiniMax和智譜除了設展臺,沒有新品發(fā)布或產(chǎn)品進度更新;月之暗面則與另一家公司共用展位——只占據(jù)了整個展臺的一個側(cè)面;只有階躍星辰在展會期間推出了新一代多模態(tài)模型Step 3。

月之暗面的展臺格外簡樸
參與WAIC2025的模型類公司中,有一半公司在展示其模型對構(gòu)建agent類產(chǎn)品的支持能力,阿里巴巴、騰訊、百度、亞馬遜都給出了它們的agent開發(fā)平臺,以及可以幫助普通用戶低代碼地開發(fā)一個應用程序的AI Coding工具。另一半,就是在為機器人提供具身智能模型。
大模型公司的低調(diào)與這個領(lǐng)域的節(jié)奏有關(guān)——它們基本都在今年上半年交出了追趕DeepSeek的成果。就在WAIC2025舉辦前一個月,國內(nèi)估值最高的兩家大模型公司MiniMax和月之暗面都剛剛才發(fā)布其類DeepSeek的模型。其中MiniMax一步到位發(fā)布了類DeepSeek R1的推理模型M1,月之暗面則發(fā)布了類DeepSeek R1前身——DeepSeek V3——的模型K2。在DeepSeek的模型矩陣中,V3是個普通的預訓練模型,而R1是基于V3進行強化學習后得到的有推理能力的模型。月之暗面內(nèi)部人士稱,月之暗面將在接下來的某個時間推出類R1的推理模型。

「中國前三的大學有五個」的故事又上演了
MiniMax和月之暗面目前正在爭奪開源模型社區(qū)的第一名。兩家公司分別聲稱,它們在開源社區(qū)取得了優(yōu)異成績,接近或超越DeepSeek。其中,MiniMax稱其M1模型目前在Artificial Analysis榜單的開源模型中排名第二,僅次于DeepSeek R1。而月之暗面稱,其K2模型的綜合表現(xiàn)在另一個名為LMArena的榜單中已經(jīng)超過DeepSeek R1,成為開源模型的首位。
目前階段,大模型領(lǐng)域最具代表性的兩家公司的精力都在爭奪P(Professional)端專業(yè)開發(fā)者的注意力,而非C端。這可以解釋大模型公司為什么在WAIC2025上沒那么高調(diào),簡單說,大模型競賽沒有熄火,只是戰(zhàn)場轉(zhuǎn)移了。
以下是WAIC2025期間值得一聽的行業(yè)洞察:
01 具身智能
星動紀元創(chuàng)始人兼CEO陳建宇:
人形機器人真正做到大規(guī)模、高產(chǎn)值的商業(yè)化,差不多在今明兩年。規(guī)模化生產(chǎn)的標準線是萬臺,這不是指整個行業(yè),是指我們一家,(達到)這個數(shù)量級基本上就是頭部的工業(yè)機器人公司。
宇樹推出了3.99萬元的人形機器人,這是因為它面向拳擊、文娛等用戶找到了商業(yè)化場景,它的降價不會對整個行業(yè)普遍產(chǎn)生壓力。星動紀元正往工業(yè)方向探索,我們跟宇樹做的不算同一類事情,我們是全尺寸,更大,性能更強,有雙手雙腳,需要它真的干活,能夠做靈巧的操作。
智元機器人合伙人、具身業(yè)務部總裁姚卯青:
過去一年,我們在實踐中得到了很多苦澀的教訓:
第一點,機器人還是要回歸到執(zhí)行器本身,高頻跟隨、高精度跟隨以及低延遲的執(zhí)行器至關(guān)重要。我們還需要高精度高分辨率的力控,實現(xiàn)工業(yè)場景里的作業(yè)。
第二點,傳感器不僅需要在多維度信息上有效融合,在標定、時間同步以及多機之間的一致性也非常關(guān)鍵。
第三點,本體的構(gòu)型很重要。算法與模型再強,也無法替代一個高自由度靈活本體帶來的優(yōu)勢,我們希望本體將越來越逼近人類的構(gòu)型,同時提供更靈活的自由度。最后,機器人本體中傳感器、軟件鏈路上的各種誤差會層層疊加、不斷放大,最終變成算法難以承受的痛點。
這正是我們在邁向大規(guī)模應用的過程中,必須直面的核心挑戰(zhàn)之一,也是我們?yōu)槭裁匆獔?zhí)著追求量產(chǎn)一致性的根本原因。
前騰訊混元大模型技術(shù)負責人、Video Rebirth CEO劉威:
世界模型需具備模擬、預測和探索三大核心能力。世界模型和多模態(tài)模型的區(qū)別在于:
第一,多模態(tài)模型擅長理解和生成內(nèi)容,但缺乏對環(huán)境的整體建模與預測能力,屬于感知智能,世界模型則追求對環(huán)境更深的因果認知與推演;
第二,多模態(tài)模型的交互是被動響應,需要由用戶觸發(fā),世界模型可在內(nèi)部生成交互式環(huán)境,主動預測變化;
第三,多模態(tài)模型為一問一答的單步輸出交互,世界模型則支持長序列的行動規(guī)劃。
亞馬遜應用科學、前沿人工智能與機器人部門負責人陳曦:
得益于最近一輪AI 與機器人熱潮,愿意在機器人硬件上投入資源的公司變多了,我們有了更多可用的實體機器人平臺,可以在上面運行模型、采集數(shù)據(jù)。但歸根結(jié)底,沒有什么比讓機器人在真實環(huán)境中自主運行、親自采集的數(shù)據(jù)更有價值。
Physical Intelligence(Pl)聯(lián)合創(chuàng)始人、UCBerkeley副教授Sergey Levine:
未來我們可以將強化學習技術(shù)融入到VLA模型中,以提升魯棒性與性能。VLA模型擁有廣泛的泛化能力,而基于強化學習的專家系統(tǒng)能在特定任務上達到極高的熟練度。通過將高效的強化學習方法生成的數(shù)據(jù)「蒸餾」進通用模型,我們有希望推出更可靠、性能更強的機器人系統(tǒng)。這類研究仍處于早期階段,但我認為它非常有前景。
Intrinsic(Alphabet)科學與Al事務負責人Stefan Schaal:
機器人發(fā)展的關(guān)鍵在于路徑選擇:是追求快速落地的專用機器人,還是深耕通用型機器人的長遠目標?
現(xiàn)在,在工業(yè)領(lǐng)域?qū)W⒂谔囟ㄈ蝿眨瑫絹碓筋l繁地應對所謂高混合、低產(chǎn)量(High Mix, Low Volume Production)的生產(chǎn)挑戰(zhàn),頻繁的變化要求模型快速適應,在半個小時內(nèi)重新訓練模型勉強可以接受,但如果需要數(shù)小時甚至數(shù)天,就難以忍受。短期內(nèi)的泛化與基礎模型構(gòu)建至關(guān)重要,關(guān)鍵在于權(quán)衡要走哪條路。我認為所有方法都合理,多元并行的路徑探索要優(yōu)于單一模式。
藍馳創(chuàng)投合伙人曹巍:
我們走訪海外機器人團隊的時候,發(fā)現(xiàn)他們的產(chǎn)品迭代速度比國內(nèi)的平均速度慢50%左右。中國跑出來的具身智能團隊很有可能是全球最好的企業(yè)。
美團龍珠合伙人王新宇:
中國具身智能領(lǐng)域不是泡沫太大了,反而是泡沫太小了,我們投的錢太少了。中國有硬件優(yōu)勢,有望引領(lǐng)這個產(chǎn)業(yè)的發(fā)展,我們應當投入更多的錢。
光源資本創(chuàng)始人、CEO鄭烜樂:
未來一年左右的時間,整個具身智能行業(yè)都要回答一個問題:形成單位泛化能力所需要的成本,是不是符合規(guī)模經(jīng)濟的特征?你多長時間可以完成產(chǎn)業(yè)端落地?
02 Agent
Flowith市場負責人拐子:
首先我認為一個合格的Agent要在技術(shù)定義上滿足四個要素:主動思考、規(guī)劃路徑、調(diào)用工具、長期記憶——用戶可以通過這幾點判斷一個所謂的「Agent」是否符合標準。通用Agent在這個基礎上更進一步,能處理各種事情,甚至要能感知自然環(huán)境、和物理世界交互。
Flowith最終想做的是一個AI時代的終極創(chuàng)作工具,Agent、畫布、知識庫,其實都是我們產(chǎn)品當中的一環(huán)。單就Agent而言,我們想做的是創(chuàng)作領(lǐng)域的Agent,并非通用Agent。通用Agent要有和物理世界交互的能力,比如你讓它給你點外賣,它不僅要幫你下單,還要送到你面前來,在理想情況下,就像《鋼鐵俠》里的賈維斯一樣。而我們所定義的「創(chuàng)作」領(lǐng)域,既包括用AI撰寫研報、制作PPT、制作網(wǎng)頁、拍攝短片等專業(yè)場景,也包括發(fā)朋友圈和小紅書、日常聊天等生活化的文字表達,還涉及跨模態(tài)創(chuàng)作。用戶可以在移動端、Web端、PC端完成這些事情。
騰訊云副總裁、騰訊云智能及騰訊優(yōu)圖實驗室負責人吳運聲:
to B和to C的智能體開發(fā)平臺差異很大。to B在于它有非常多嚴肅的場景,我們需要用非常多的手段保證嚴肅問答的準確率以及引用的正確性;to C的特點是要讓用戶使用起來很方便,即便能力差一點。
關(guān)于Agent的記憶機制,如果僅機械存儲用戶過往(如一周或一個月)的全部聊天記錄,并在后續(xù)交互中全盤調(diào)用,會因大量一次性、臨時或無關(guān)信息的干擾而影響效果。因此,如何從長期記錄中提煉出對后續(xù)問答真正有價值的內(nèi)容,是當前短期與長期記憶研究中需要不斷攻克的關(guān)鍵方向。
Lovart CTO陳志博:
生成式AI會大幅擴展個人能力邊界,形成「超級個體」, 讓普通人無需設計、編程等專業(yè)背景,也能完成高質(zhì)量創(chuàng)作。
阿里巴巴國際數(shù)字商業(yè)集團AI業(yè)務副總裁駱衛(wèi)華:
面向生產(chǎn)環(huán)境的Al Agent對輸出質(zhì)量有很高要求,通用Agent幾乎無法滿足。垂直場景對特定關(guān)鍵數(shù)據(jù)識別和分析精度的要求遠超頭部模型直出結(jié)果。除模型能力,Agent的可用性對工程框架、底層Al Infra的要求也很高。
03 大模型
生數(shù)科技CEO駱怡航:
視頻生成需要保持生成效果的一致性,這一訴求與應用場景深度相關(guān)。對大眾而言,用手機拍攝的視頻多為日常記錄或自娛自樂,對畫面連貫性、主體穩(wěn)定性的要求較低。但在廣告、動漫、影視等商業(yè)與專業(yè)創(chuàng)作中,一致性是不可妥協(xié)的基礎——人物形象、核心道具、場景等參考要素必須在全片所有鏡頭、所有時長里保持連貫,甚至每一幀的細節(jié)都需符合設定邏輯。一致性是實現(xiàn)視頻生成商用的前提,若無法滿足,相關(guān)技術(shù)便難以在產(chǎn)業(yè)級場景中落地。
視頻生成的爆點不會突然出現(xiàn)。在廣告和動漫行業(yè),AI視頻的滲透率在逐步提高,2到3年后可以實現(xiàn)全流程AI化;影視行業(yè)到明年可能有30%至50%的AI滲透率。長期來看,在5到10年后,所有內(nèi)容和文化相關(guān)產(chǎn)業(yè)可能會完全實現(xiàn)「生成式AI化」,到那時,AI將成為創(chuàng)作的常規(guī)工具,「內(nèi)容是否由AI生成」不再是關(guān)注的焦點。
可靈AI產(chǎn)品及運營負責人李楊:
當前視頻模型還正處于快速迭代階段,3個月或半年后,模型性能和當下相比會有明顯差異。AI工具產(chǎn)品需要在模型能力和用戶需求之間找到平衡,既要不斷探索模型能力的邊界,也要滿足用戶的實際需求。
04 AI產(chǎn)業(yè)
光源資本創(chuàng)始人、CEO鄭烜樂:
創(chuàng)業(yè)公司最大的機會是在模型的水面上。如果你是礁石,可能會被淹沒,但是如果是船,模型能力上漲,你也會上漲。怎么變成船?我認為有很多的方法,有專業(yè)數(shù)據(jù)的循環(huán)、對場景的理解(指對工作流的拆解)、獨特的交付方式等等。在大廠的射程外也是非常重要的。
2025年上半年,中國的AI投資熱度在大幅度提升,融資額同比增加45.3%,投資事件數(shù)同比增加59.9%,財務投資人占比58.6%,又回到了主流。大家開年以后都在跑,很多項目都在搶,很多人開始要抬估值了,跟去年完全不一樣。現(xiàn)在這個市場給我們的感覺是非常像移動互聯(lián)網(wǎng)09到14年的時候。
九合創(chuàng)投創(chuàng)始人王嘯:
在中國做AI應用要有閉環(huán)的數(shù)據(jù),這樣才能產(chǎn)生獨立應用的機會。在一些相對垂直但又不太垂直的行業(yè),形成大量自有數(shù)據(jù),而且這個數(shù)據(jù)隨著用戶的增長對基模能力的提升是顯著的,就能建立壁壘,也不會被基模公司吃掉。編程的數(shù)據(jù)太公開了,你能做,別人也能做,大模型公司做的更有優(yōu)勢。
云啟資本合伙人陳昱:
目前國內(nèi)比較確定的機會還是在視頻領(lǐng)域。還有就是上一代SaaS的重新洗牌——在中國大模型的加持下用AI全部重新做一次,更便宜、更智能、效率更高。
通用型的AI應用特別火熱,問題在于最后基模公司肯定會自己下場做,而且它們有巨大優(yōu)勢,因為一旦上量,總的token成本會非常可怕。我聽說Cursor的毛利是負的,別看它現(xiàn)在這么厲害,到后面也會面臨盈利的挑戰(zhàn)。
美團龍珠合伙人王新宇:
AI應用的口子,我個人體感首先是太難了,比具身要難。這個行業(yè)難投,我們希望創(chuàng)始人懂技術(shù),此外也要懂產(chǎn)品、懂年輕人,或者懂新的地域(現(xiàn)在更多是面向海外市場做AI應用)。
君聯(lián)資本聯(lián)席首席投資官葛新宇:
我們要換一個思維來看,AI發(fā)展中的一些「臟活苦活」不是大廠和基模公司會下場做的,比如數(shù)據(jù)標注,適合一些沒有太多產(chǎn)業(yè)背景、大額資金投入的創(chuàng)業(yè)者。如果還能結(jié)合具體的細分場景,再跟上技術(shù)發(fā)展的節(jié)奏,是更好的。
藍馳創(chuàng)投合伙人曹巍:
國內(nèi)做大B生意,核心成功要素的構(gòu)成是非常復合的,不是一個純產(chǎn)品、純技術(shù)驅(qū)動的生意;反而一些非常工具類導向的小B生意更好做,這也是國內(nèi)最市場化的生意。我們也嘗試著做了一些AI應用方面的投資,應該講做國內(nèi)市場的都活得很苦,賣掉的基本也是成本價賣掉的。我們也有一些賣掉的公司,創(chuàng)始人去了某大廠做戰(zhàn)略規(guī)劃。此外我還認為,當下模型側(cè)還有很多能力沒有被挖掘出來,模型還要再迭代一波。
藍色光標CEO潘飛:
目前,營銷行業(yè)正在從工具效率革命走向生產(chǎn)模式革命。最終,可批量化的內(nèi)容將實現(xiàn)AI全自動生產(chǎn),而有人性洞見的內(nèi)容會更有稀缺價值。AI發(fā)展當前的進度僅加載10%到15%,未來將誕生AI時代原生的營銷公司。
無問芯穹發(fā)起人汪玉:
AI基礎設施的能效評價指標已隨技術(shù)演進發(fā)生變化:在AI 1.0時代,核心指標是「算力」(TOPS),通過垂類數(shù)據(jù)訓練垂類模型,即可支撐簡單任務;而進入AI 2.0時代,「token」成為核心生產(chǎn)要素。目前,端側(cè)應用的算力需求與現(xiàn)有能力之間仍存在10倍左右的差距,云端的算力使用效率也有進一步提升的空間。



