圖形用戶界面(GUI)將死?
大模型之后,AI不僅擁有了大腦,長出了眼睛、耳朵和嘴巴,現在還有了“手”——它可以代替人類操作電腦和手機了。
10月24日,智譜推出一個叫AutoGLM的智能體(agent),它可以根據用戶的口頭吩咐完成一系列操作:比如想點咖啡外賣,過去你需要打開外賣應用程序、輸入咖啡店名稱、找到自己喜歡的口味、添加購物車、跳轉付款頁面完成支付。現在,有了AutoGLM,對它說一句“幫我點一杯xx的美式咖啡”,它就會自動完成上述一系列操作,你只需要在它選好商品和需要付款時確認一下就行。

這個功能和10月22日Anthropic發布的“計算機操作”(computer use)功能相似,后者允許AI像人類一樣操作計算機——查看屏幕、移動光標、單擊按鈕和輸入文本。人需要做的同樣只是下個命令即可。差別在于,Anthropic的這項能力目前僅用于PC,而智譜的AutoGLM既可用于PC,也能用于智能手機(目前只適用于安卓系手機,不適用于iPhone)。
Anthropic和智譜帶來的功能其實不是新事物,微軟上半年就推出的Copilot和蘋果已發布的Apple Intelligence工具包中,都包含讓AI代替人跨App地完成相對復雜的任務的意圖——比如訂機票、給某人發郵件等操作,而人只需要口頭交代這些待辦事項即可。
不過,Anthropic用一個更聰明的命名方式開啟了一個AI應用的新品類——設備代操作(hardware use),意思是過去需要人親自操作的設備,以后可以由AI代替人去操作。在這一新概念下,過去用戶躺著喊一聲“小愛同學”或者“天貓精靈”,然后就可以口頭交代它們打開電視機并調到自己喜歡的頻道的AI功能,說是“升級”為了“TV use”也不為過。
智譜顯然很快意識到了新命名模式的商業價值。在此前發布的與AutoGLM有關的論文中,智譜都稱其為“agent”(智能體),比如可以用于操作PC的AutoWebGLM模型,被稱作“Web Navigating Agent”,意思是它是個用于網上沖浪的的智能體,區別于龐大智能體陣營中擁有各種功能的其他智能體——專門幫用戶訂票的智能體、為用戶管理社交媒體的智能體或者用于收發郵件的智能體。
但很快,智譜就不再叫它們agent,而改口稱CogAgent和AutoGLM-Web為“computer use”、稱AutoGLM為“phone use”了。
被“computer use”改變的不止是智譜,還將包括我們已經習慣的采用圖形用戶界面(GUI)的操作系統本身,以及業界過去對AIPC和AI手機的定義。這些潛在的變化意味著,“computer use”的勝利不會只是命名的勝利。
01 圖形用戶界面(GUI)已越來越臃腫,AI可能玩得更好
你可能已經對電腦和手機中的圖標、菜單、視窗等習以為常。但事實上我們今天在PC和手機上使用的由這些視覺元素組成的圖形用戶界面(GUI),1973年才被第一次被美國的打印機公司施樂創造出來,然后在1984年1月隨著蘋果旗下的麥金塔(Mac)電腦上市以及1985年微軟推出的Windows操作系統才開始普及。

1973年,施樂公司旗下的帕洛阿爾托研究中心(PARC)開發了全球首臺圖形用戶界面電腦“Alto”,不過由于母公司專注于打印機業務,這款電腦從未商業化。
正是因為施樂公司的發明者們想到了把“桌面”的概念應用到電腦屏幕上,讓屏幕像我們辦公室的桌面一樣可以擺放文件和文件夾,同時讓用戶可以移動鼠標來點擊自己想要的內容,計算機——這種原本只在高級實驗室里由專業的程序員敲入程序才能使用的大型、復雜設備,才變得每個普通人都可以使用。

1984年,蘋果推出首款圖形用戶界面電腦,部分想法來自于施樂。
這種交互革命帶來了PC市場的繁榮,然后是智能手機、pad等更多設備。反過來可以說,今天我們買回家的設備的操作系統及其交互界面都是為了便于我們人類操作而構建的,但接下來就不好說了。
Anthropic和智譜的computer use、phone use正逐步將人類使用者從一些為人類視覺和行為習慣而構建的應用程序中“解放”出來,尤其一些工具型應用。
比如智譜AutoGLM的phone use首先上線的8款App是:微信、美團、淘寶、大眾點評、小紅書、高德地圖、12306和攜程。像是打開微信發送消息、給朋友圈點贊評論、在美團上點外賣、寫評價、訂車票或者酒店,這些工具性的操作現在都可以通過智譜的AutoGLM完成。
智譜所展示的使用案例中,一位繁忙的程序員的時間完全被眼前的工作填滿,但當妻子讓他記得買牙膏時,他拿起手機對著AutoGLM說了一句“幫我下單淘寶里上個月買過的牙膏”,AutoGLM就自動打開這位程序員手機里的淘寶、查看購物記錄、篩選出買過的牙膏的訂單、打開同款牙膏的購買鏈接、程序員確認下單,整個過程不到1分鐘。
圖形用戶界面(GUI)正迎來自問世以來的最大危機。當操作這些設備和應用程序的不再是人類,而是變成了AI,那圖標、菜單、視窗、鼠標(光標)還有沒有必要存在將是個問題——AI不需要看到一個東西長得像文件夾才知道它是文件夾。
不過危機其實早就存在。隨著互聯網信息大爆炸、應用程序增多、功能增加以及商業利益的左右,完成很多事項需要的操作早已變得越來越復雜,否則今天不會有那么多人既難以學會使用智能手機也不會開電視機了。Anthropic在推出computer use的使用范例中舉了一個例子,如果用戶想要使用網上的數據填寫表格,需要打開瀏覽器、進入相關網頁、找到相關數據、一個一個復制到表格中。如果將如此復雜的程序如果交給AI,人可以省很多事。
“CogAgent和AutoGLM-Web是智譜構建GLM-OS(以大模型為中心的通用計算系統)的不同嘗試,盡管基于不同的技術路線,但兩者均瞄向同樣一個目標:實現模仿人類的Plan-Do-Check-Act(計劃-執行-檢查-行動)循環,形成自我反饋和自我提升——恰如人類自己所做的一樣。”智譜在發布用于操作電腦設備的AI文章中稱。言下之意是,在操作為人類設計的設備及其操作系統和應用程序這一問題上,AI可能比人學得更快、玩得更好。
現在,人工智能公司們承諾,AI可以讓人從這些復雜的設備操作中解脫出來。這些“代操作”工具可能只是個人機交互歷史上的過渡性產品,因為如果以后所有設備都不需要人去親自操作,口頭交待一下AI就行,那設計一個更適合AI操作的界面也許效率更高。
不過另一種可能性仍然存在,即這種從人的使用角度設計的交互界面可能將長期存在,萬一AI出錯,人需要隨時可以接管,就像自動駕駛汽車仍然需要方向盤和剎車一樣。但也和高階自動駕駛汽車中的方向盤和剎車一樣,如果被人使用得越來越少,這些工具的商業價值就會越來越低。
反過來,像Anthropic和智譜提供的這些“代操作”AI,可能會成為新的超級入口,就像Siri想做的事一樣,它們作為你的AI管家,在更了解你之后,未來可能在代為選擇商品或服務時發揮推薦作用——是否加入了它們自己的意志還不好說,但在作為一種超級入口的意義上,它們將成為現有操作系統之上的一層AI操作系統——如果你留意的話,前面提到過智譜已經將它發布的這些“代操作”工具稱作“構建GLM-OS(以大模型為中心的通用計算系統)的不同嘗試”。
02 重新定義AI設備
“代操作”AI的出現也將重新定義AI設備。
去年以來,初創大模型公司忙著將它們的模型參數不斷擴大(行話是scaling up)的時候,技術巨頭忙著爭奪把這些模型塞進硬件設備以及“AIPC”“AI手機”的定義權。
最開始是微軟,它在OpenAI剛發布GPT-4o模型僅一周后,就把名為Copilot的智能體塞進了基于Windows 11操作系統的電腦,并同時心急地要求配備Windows 11系統的電腦廠商在各自的鍵盤中新增一個按鍵,專門用于啟動Copilot。在Copilot中,用戶可以用自然語言要求它打開一些應用程序,而不用自己去在菜單欄中尋找和點擊,比如當用戶說“幫我找回專注力吧”,Copilot就會在對話框中跳出音樂應用Spotify的鏈接;當用戶要求Copilot“管理下我的桌面”,它會自動將用戶桌面上的諸多窗口排列得更有秩序。但你如果讓它為你做些更為復雜的事,比如訂一張機票,它會“編造”出一些機票價格、假裝取得你的支付許可,而無法真的打開任何機票訂購軟件。
作為操作系統級的AI,Windows Copilot所做的事仍然僅限于文字總結或者圖像生成,盡管能找到相應的應用程序,但它無法進入應用程序內部操作。不過微軟對于AIPC的定義很嚴格:電腦廠商若要成為AIPC、獲得“Copilot+PC”商標,在硬件方面除了要配備常規的CPU和GPU,還要為跑大模型準備專門的神經處理單元(NUP),指標方面要求算力至少達到40TOPs,并擁有16GB內存和256TB硬盤。蘋果的新款MacBook Air滿足不了這些指標,因為它只有18TOPs算力以及低配版的8GB內存。
Google與三星合作的Galaxy S24號稱全球首款AI手機,搭載Google的Gemini Nano模型,這個模型直接跑在Galaxy S24手機的本地芯片上。除了在通話時提供實時雙向語音翻譯,這款AI手機還承諾用戶“所看即所得”,也就是在聊天、瀏覽社交媒體,甚至查看PPT文檔時,只要你對屏幕上的任何內容有進一步了解的意愿,都可以伸出手指、圈中它,按下Home鍵——這項功能被稱作“Google Search”,相當于一鍵召喚Google,無需切換應用程序,Galaxy S24能即時給出相應的搜索結果。同樣地,用戶需要換成與Google合作的新款手機,才能用上這些功能。

圖片、網頁、屏幕、聊天過程中……一切皆可先圈住(Circle),再用生成式AI搜索。
蘋果的AI手機方案承諾了用戶更多AI功能,從更好地總結郵件形成摘要、取代過去那種直接把郵件前幾行提取出來作為摘要的簡單做法,到理解用戶使用場景的上下文、跨App地使用信息,再到用一個新增按鍵充當“視覺智能”的啟動鍵,讓用戶按下去就能獲得一個實時的、長了眼睛的AI助手……這些打包起來被稱作Apple Intelligence(蘋果智能)的功能都需要用戶丟掉手上設備、換上有更先進的芯片支持的新硬件才能實現。

蘋果新款手機采用3nm制程,號稱可以支持在手機端跑大模型。
從微軟、Google到蘋果,三大巨頭都沒有將“代操作”作為一臺AI設備的重點,而Anthropic和智譜用一個“代操作”工具讓大量既有的、沒那么先進的設備直接變成了AI機器。
03 從推理問題變為模仿問題
理論上,“代操作”類agent是巨頭們的自留地,因為訓練這類agent需要大量屏幕數據,這些系統級數據通常掌握在傳統巨頭——從操作系統廠商到手機廠商手中。而且,這些agent若要發揮功能,傳統思路上被認為需要具備規劃能力,并能獲得取得進入各應用程序的API權限。
但是通過把“推理問題”變成“模仿問題”,大模型公司們一定程度上把這些障礙都繞過了。
Anthropic的論文顯示,Claude模型在實現computer use功能時,沒有調取被操作應用程序的API,僅僅是通過大量分析用戶的屏幕截圖,理解了用戶如何完成任務分解和分步驟實現目標,就學會了“代操作”。整個過程相當于模擬人的操作,也就是說AI完成復雜任務也可以不需要有推理能力,它只需要模仿。基于Transformer的AI最擅長的就是模仿。
而且,這種基于“純視覺”的技術方案還獲得了打破了應用壁壘的優勢,哪怕某個應用程序不提供入口和數據,AI也可以通過屏幕分析介入其中。
去年下半年以來,蘋果也已推出至少兩款專為理解移動UI屏幕而開發的多模態模型,一款叫ReALM,另一款叫Ferret-UI,兩款模型都能“看懂”手機的UI界面并執行相應任務。
不過蘋果迄今尚未推出“代操作”AI功能,最新消息稱,Google、Meta和微軟也在開發能夠操作電腦的AI技術。
中國大模型公司和設備廠商在這一技術上的進度更快。目前,Anthropic的computer use功能還處于公測階段,測試成功率只有15%,還不具備任何生產力。用Anthropic自己的話來說,“有時很麻煩且容易出錯”但“將在未來幾個月內迅速提高”。人類毫不費力便能完成的滾動、拖動、縮放操作,對Anthropic的Claude模型來說也還是挑戰。
智譜的AutoGLM目前也在測試階段,但已和手機廠商榮耀達成了合作。今年9月,兩家公司共同成立了AI大模型技術聯合實驗室。榮耀10月23日發布的AI操作系統MagicOS 9.0和智能體YOYO,可以根據用戶平時的習慣,結合時間、地點,直接進入外賣App幫用戶下單一杯咖啡。在發布會的現場演示中,YOYO還親自關掉了一個開屏廣告。



