Kimi 官宣,國內首個對標 OpenAI 的數學模型來了

一年前的11月16日,Kimi全面開放,隨后憑借“長文本”功能迅速占領市場,成為中國首個因技術創新而廣受歡迎的AI應用。如今,Kimi迎來了技術的重大升級。
11月16日,在Kimi正式上線一周年之際,月之暗面發布了最新數學模型k0-math,在多項基準能力測試中,k0-math的數學能力已經可以與全球領先的OpenAI o1-mini和o1-preview模型相媲美,甚至在中考、高考、考研以及入門競賽題MATH等4個數學基準測試中超越了它們。

尤其值得一提的是,在業界最常使用的數學能力基準測試MATH中,k0-math模型得分93.8,超過o1-mini的90分和o1-preview的85.5分。k0-math這一成績在全球僅次于暫未開放使用的o1完全版94.8分。
這是Kimi推出的首款推理能力強化模型,k0-math采用了強化學習和思維鏈推理技術,這也是Open AI o1系列背后的關鍵技術。
官方演示顯示,k0-math通過模擬人腦的思考和反思過程,顯著提升了解決數學難題的能力。即使在經歷多次失敗后,k0-math也能意識到之前使用了過于復雜的方法,并最終得出正確結果。
“訓練這個模型的過程,最重要的是去看它的思路,是不是真正具備深度思考的能力,這一點非常重要。”月之暗面創始人楊植麟表示,對于一些非常難的競賽題目,k0-math能夠提供完整的思路,并在推導過程中不斷給出新的思路,展現出強大的推理能力。
k0-math雖然已經展露出不俗的能力,但AI技術仍處于快速迭代中,它還有很大的提升空間。在兩個難度更大的競賽級別數學題庫OMNI-MATH和AIME的基準測試中,k0-math初代模型的表現與最好的o1-mini相比尚有15%左右的差距。
楊植麟也指出,在一些過于簡單的數學問題上,比如,1+1等于幾,k0-math可能會過度思考,接下來的研究重點是讓它有更好的泛化能力,能在更多場景中落地使用。
作為國內最受矚目的AI獨角獸,月之暗面此時推出k0-math,不僅僅是一次常規技術發布,更代表了Kimi在技術范式上的一次重大迭代。
“我們接下來會越來越關注基于強化學習(Reinforcement Learning, RL)的方法去‘Scale’。”楊植麟認為,Scaling是支撐AI技術過去幾年發展的根本原因,但Scaling并不是簡單地把模型做得更大就好,核心是找到有效方法。
這也會帶來大量工作,比如,重新平衡好數據、算法和算力。楊植麟表示,以前做Next—Token Prediction,是靜態數據,但對強化學習來講,學習數據可能都是自己生成的,會對獎勵模型效果提出挑戰,同時還要把獎勵模型用到學習過程中,減少學習錯誤。
好在楊植麟早已預見到,隨著訓練數據到達上限,推理的比例將遠遠超過訓練,因為需要生成數據,就需要用到強化學習,這是必然會發生的事情。“Open AI o1的變化其實可以預測。”
為此,月之暗面在人才和技術上提前做了儲備,這也為Kimi推出數學模型k0-math奠定了基礎。今年9月,OpenAI發布首款具有推理能力的模型o1,只用2個月,k0-math就已問世,并即將上線,可見速度之快。
“長文本”讓月之暗面一戰成名,邁出登月第一步,如今,公司邁出以深度推理能力為標志的第二部。事實上,在云棲大會上,楊植麟就已表示,行業接下來最重要的里程碑是強化學習,新的Scaling范式會形成一些突破機會。
如今來看,新的強化學習技術范式帶來的推理能力提升,也將應用到更多日常任務上,而能否讓模型在廣泛的場景里使用,這是衡量模型市場前景和商業價值的核心。
楊植麟認為,數學模型可以應用到教育領域,K12、大學甚至是競賽。同時,為了把推理模型進行更多的泛化,他把強化學習用在了搜索場景里,跟Kimi探索版進行結合。
數據顯示,Kimi探索版的搜索量是普通版的10倍,一次搜索可精讀超過500個頁面。在信息調研和分析場景的搜索問題測試中,Kimi探索版綜合性能超過國內外同類產品至少30%。
Kimi探索版在搜索過程中的推理能力顯著提升,意圖增強、信源分析和鏈式思考方面的能力顯著提升,以鏈式思考為例,Kimi探索版可以更好地基于思維鏈推理能力處理產品、公司、行業等研究問題。尤其受到程序員、科學家、咨詢顧問、投資人、律師等專業人群的歡迎。
過去一年多,月之暗面經歷了飛速發展,無論是產品技術還是估值,都成為“AI六小虎”中發展勢頭最迅猛的公司之一。
楊植麟透露,Kimi在10月月活躍用戶已經超過3600萬,并還在持續增長中。業內人士表示,Kimi在PC網頁端是國內第一的AIGC生產力工具,手機端在國內目前僅次于繼承了抖音娛樂基因的豆包,且頭部優勢愈發明顯,不過,相較Open AI幾億量級的用戶而言,Kimi還有很長一段路要走。
華爾街見聞獲悉,月之暗面的多模態產品已經處于內測當中,預計很快會對外公布,疊加推理模型的推出,這些動作無疑會吸引更多用戶。
在這場全球AI競賽中,楊植麟要帶領Kimi在一個裹挾著巨大希望和時刻被質疑的行業里,闖出一條通往AGI的漫漫長路,這場征程才剛剛開始。



