一级黄网站_波多野结衣片子_欧美性极品_熟女高潮一区二区三区_亚洲最大成人在线_xxx在线播放

9.11和9.9哪個大，12個大模型8個都答錯？

互聯網2024-07-17

一道小學生難度的數學題難倒了一眾海內外AI大模型。9.11和9.9哪個更大？就此問題，記者測試了12個大模型，其中阿里通義千問、百度文心一言、Minimax和騰訊元寶答對，但ChatGPT-4o、字節豆包、月之暗面kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智能百小應、商湯商量都答錯了，錯法各有不同。大部分大模型在問答中都錯誤地比較了小數點后的數字，...

AI_副本.jpg

一道小學生難度的數學題難倒了一眾海內外AI大模型。

9.11和9.9哪個更大？就此問題，記者測試了12個大模型，其中阿里通義千問、百度文心一言、Minimax和騰訊元寶答對，但ChatGPT-4o、字節豆包、月之暗面kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智能百小應、商湯商量都答錯了，錯法各有不同。

大部分大模型在問答中都錯誤地比較了小數點后的數字，認為9.11大于9.9，考慮到數字涉及的語境問題，記者將其限定為在數學語境下，如ChatGPT這樣的大模型也照樣答錯。

在這背后，大模型數學能力較差是長期存在的問題，有行業人士認為，生成式的語言模型從設計上就更像文科生而不是理科生。不過，針對性地語料訓練或許能在未來逐步提升模型的理科能力。

01 8個大模型答錯

大模型這一算術問題最開始被艾倫研究機構(Allen Institute)成員林禹臣發現，他在X平臺上發布的截圖顯示，ChatGPT-4o在回答中認為13.11比13.8更大。“一方面AI越來越擅長做數學奧賽題，但另一方面常識依舊很難。”他表示。

隨后Scale AI的提示工程師萊利·古德賽德（Riley Goodside）基于此靈感變換了問法，拷問了可能是目前最強的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪個更大？這幾家主流大模型通通答錯，他也成功將此話題傳播開來。

1_副本.jpg

實際上，如果追根溯源，引發這一問題的是上周末國內一個綜藝相關的熱搜。7月13日，在最新一期的《歌手》公布的排名中，國內歌手孫楠與外國歌手香緹莫的得票率分別是13.8%和13.11%，有網友質疑排名有問題，認為13.11%大于13.8%。隨后，關于13.8和13.11大小比較的話題沖上熱搜。

當時就有網友提出，自己不會的話，“實在不行問問AI呢”？結果顯示，不少AI還真的不行。

記者拿“9.11和9.9哪個大”的問題一一測試了ChatGPT以及目前國內的主流大模型，包括阿里、百度等5家大廠模型，月之暗面等6家AI獨角獸的模型。阿里通義千問、百度文心一言、Minimax和騰訊元寶4家大模型答對，其他8家則答錯。

答對的大模型解題都比較相似，但答錯的模型則各有各的邏輯和表達。同時，對于答錯的大模型記者進一步追問或者否認，幾乎所有大模型在被追問后都承認自己之前回答錯誤，并給出了正確的答案。

首先是目前全球公認第一梯隊的大模型ChatGPT，在被問到“9.11和9.9哪個大”時回復稱，小數點后面的數字“11大于9”，因此9.11大。

2_副本.jpg

記者追問ChatGPT有沒有其他比較方法，它將小數轉化成分數比較，得出 “11/100比90/100小”，這一步是對的，但它接著下結論稱“因此9.11比9.9大”。

有人提出，大模型回答錯誤可能是語境問題，比如從軟件版本迭代的語境來說，9.11可能就會比9.9版本更大。因此記者加上限定詞“從數學上”比較，ChatGPT仍然回答錯誤。

再看國內的大模型，詢問月之暗面旗下kimi，它在比較小數部分時認為，9.11的第一位小數是1，而9.9的第一位小數是0，錯誤地給出了小數，得出結論9.11更大。

3_副本.jpg

當記者質疑并提出常識后，kimi轉而開始表示自己回答有誤，并給出了正確的比較方法。

詢問字節豆包，它不僅給出了答案，還舉了生活中的例子方便理解，單看似有理有據實則胡說八道。豆包舉例認為，假設有兩筆錢，“9.11元比9.9元多0.21元”，并且測量長度時“9.11 米要比 9.9 米長”。

4_副本.jpg

智譜清言在答題中，成功提到了9.11的十分位是1，而9.9的十分位是9，但仍然得出結論“9.11整體大于9.9”。并且還特意強調，“這個結果可能讓人感到意外，因為直覺上可能會認為9.9更大，但根據數學規則，9.11確實是更大的數字。”

5_副本.jpg

在記者質疑答案后，智譜清言首先表示“您的理解是常見的誤解”，隨后自己推演了一遍后，得出了正確的答案，并承認自己之前的回答錯誤。

商湯商量大模型首先給出了錯誤答案，記者追問具體是如何比較的，它在推演過程中成功得出小數0.11小于0.9，但話鋒一轉稱“所以9.11大于9.9”。記者指出了這個前后邏輯問題，商量隨后承認“解釋有誤”。

6_副本.jpg

階躍星辰躍問同樣給出了錯誤答案9.11比9.9大，錯誤地比較了小數點大小，記者進一步質疑，有趣的是，在解釋中，躍問前后語言表達邏輯開始混亂，似乎沒有意識到自己答案發生了變化。

7_副本.jpg

躍問在解釋中首先稱“理解你的困惑”，并表示日常生活中9.9確實比9.11大，但是在數學中“需要更精確地比較兩個數的大小”，結果躍問隨后推演得出結論稱根據數學規則“9.11小于9.9”，絲毫沒有提及自己之前回答錯誤。

還有兩家大模型百川智能和零一萬物，首先給出了錯誤答案，但在記者追問“為什么”的時候，就在推演后默默改變了答案。

8_副本.jpg

在記者提醒時，大模型才提到自己之前答案有誤。

9_副本.jpg

從答案來看，幾個答對了的大模型解題過程都很相似，以文心一言為例，成功地分開比較了整數部分和小數部分。

10_副本.jpg

另外，這幾家里面騰訊元寶除了回答了正確答案外，還整理了目前公開的一些討論，并注明了引用來源和鏈接。

11_副本.jpg

02 “文科生”數學差

為什么號稱智能的大模型答不好小學生數學題？這并非一個新出現的問題，數學能力一直是大模型的短板，此前行業也多次討論過大模型的數學和復雜推理能力較差，即便是目前最好的大模型GPT-4也仍然有很大進步空間。

最近的一次，第一財經曾在6月報道過，根據司南評測體系OpenCompass的高考全卷測試，包括GPT-4在內，7個大模型在高考測試中語文和英語考試水平普遍不錯，但數學這科全不及格，最高分也只有75分。

在批閱大模型的數學試卷時，老師們發現，大模型的主觀題回答相對凌亂，且過程具有迷惑性，甚至出現過程錯誤但得到正確答案的情況。這意味著，大模型的公式記憶能力較強，但是無法在解題過程中靈活應用。

一些行業人士將數學不好的原因歸結于LLM（大語言模型）的架構問題，大語言模型往往是通過預測下一個詞的監督學習方式進行訓練。簡單來說，向大模型輸入大規模的文本數據集，模型在訓練學習后會根據當前輸入的文本來預測下一個詞的概率分布。通過不斷比較模型預測和實際的下一個詞，語言模型逐步掌握了語言規律，學會了預測并生成了下一個詞。

一位算法工程師認為，生成式的語言模型更像文科生而不是理科生。實際上語言模型在這樣的數據訓練過程中學到的是相關性，使得AI在文字創作上達到人類平均水平，而數學推理更需要的是因果性，數學是高度抽象和邏輯驅動的，與語言模型處理的語言數據在本質上有所不同。這意味著大模型要學好數學，除了學習世界知識外，還應該有思維的訓練，從而具備推理演繹能力。

此外，針對簡單數學題出現的大模型集體錯誤，大部分行業人士都會第一時間想到Tokenizer（分詞器）的數字切分問題。在大語言模型中，Tokenizer會將輸入文本拆分轉換成更小的部分（詞元tokens）供模型處理。而Tokenizer并沒有專門為數學設計，這導致數字在分割時可能被拆成不合理的部分，破壞了數字的整體性，使得模型難以理解和計算這些數字。

新浪微博新技術研發負責人張俊林對此解釋道，早期LLM的Tokenizer一般不會對數字進行特殊處理，經常把連續的若干數字切在一起形成一個Token，比如“13579”，可能被切成3個Token ,“13”是一個，“57”是一個，“9”是一個，哪些數字被切在一起組成Token，這取決于數據集合里的統計情況，在這種不確定哪些數字片段組成一個Token的情況下，LLM要想做多位數字數值計算，是非常困難的。

不過，上述問題也正在慢慢被解決，在思維能力上更核心的可能還是訓練語料的問題。大語言模型主要通過互聯網上的文本數據進行訓練，而這些數據中數學問題和解決方案相對較少，導致模型在數學推理和問題解決技能上的訓練機會有限。

針對大模型復雜推理能力的短板，上海人工智能實驗室領軍科學家林達華此前在采訪中表示，未來大模型的訓練不能單純只依靠互聯網數據的收集和灌注，而要更體系地構建。

在復雜推理上關鍵是要構造很多過程性的內容。例如，構造上億條解幾何題具體過程的數據，拿去給大模型訓練后，模型就能逐漸學會解題過程。而從互聯網上很難去大量獲取這些數據，“未來在模型的訓練數據上面，尤其是突破更高層次的智能的過程中，會越來越依賴構造型的數據，不是直接爬取下來的數據。”林達華認為。

值得一提的是，大模型的復雜推理能力尤為重要，這關乎可靠性和準確性，是大模型在金融、工業等場景落地需要的關鍵能力。

“現在很多大模型的應用場景是客服、聊天等等，在聊天場景一本正經胡說八道影響不太大，但它很難在非常嚴肅的商業場合去落地。”林達華此前表示，復雜推理關系到落地應用時大模型的可靠性，例如在金融這樣的場景下不能在數字上有差錯，會對數學上的可靠性有較高的要求。另外隨著大模型進入商用，若要分析一家公司的財報，甚至是工業領域要去分析一些技術文檔，這時數學方面的計算能力就會成為一個壁壘。

標簽大模型

上一篇：漢堡王中國將關閉線下數據中心，全部遷至阿里云

下一篇：公開怒懟美加州州長，馬斯克宣布公司“SpaceX”和“X”總部全都要搬走