一级黄网站_波多野结衣片子_欧美性极品_熟女高潮一区二区三区_亚洲最大成人在线_xxx在线播放

DeepSeek 開源周：一場技術普惠的嘉年華，極限提升大模型效率

人工智能AI2025-03-03

在2025年開年，DeepSeek的發布，在全社會造成了轟動。這是因為，DeepSeek通過一系列技術革新，大大降低了生成式AI的研發與使用成本，使得生成式AI有望在近期走入千家萬戶，從而幫助全社會提升工作效率。2022年，OpenAI開發的ChatGPT被認為是具有革新意義的生成式AI工具，可以幫助用戶提升工作效率；在2025年，國產生成式AI——Deep...

DeepSeek 開源周：一場技術普惠的嘉年華，極限提升大模型效率.jpg

在2025年開年，DeepSeek的發布，在全社會造成了轟動。這是因為，DeepSeek通過一系列技術革新，大大降低了生成式AI的研發與使用成本，使得生成式AI有望在近期走入千家萬戶，從而幫助全社會提升工作效率。

2022年，OpenAI開發的ChatGPT被認為是具有革新意義的生成式AI工具，可以幫助用戶提升工作效率；在2025年，國產生成式AI——DeepSeek，被認為是比ChatGPT更優的生成式AI工具，在成本、能力和開放性方面均優于ChatGPT，并在一定程度上影響到了金融市場。社會上甚至出現了一種觀點，認為DeepSeek能夠賦予計算機情感等構成人格的要素，甚至得出計算機很快將統治甚至取代人類的結論。

事實上，稍有計算機與數學基礎的讀者，可以很容易地理解：無論是DeepSeek，還是其他生成式AI，對人類語言的“理解”與“生成”，實際上只是將其通過一定的算法，轉化為一串數字（在計算機科學中可稱為“向量”），再經過一系列算法轉化為輸出的內容。在這一過程中，計算機并不會擁有人類獨有的“情感”與“人格”等要素，只是解決了一個略微復雜的數學計算問題。

顯然，將人類語言轉化為“向量”，再生成輸出的內容，需要非常復雜的計算機算法。如果完全由人類來編寫這一算法，是不現實的。因此，工程師們將這些算法簡化為一系列矩陣（所謂的“模型”與“參數”）的乘法，讓計算機使用暴力窮舉法嘗試這些矩陣的值（也就是“調參”或“訓練”，最終得到發布的“模型”。在得到“模型”后，讓計算機基于這一“模型”和用戶的輸入，得到輸出的內容，就是所謂的“推理”。

目前，所有的生成式AI，都是基于Google在2017年發布的論文《Attention is All You Need》實現的“Transformer”模型。Transformer模型孵化出了以ChatGPT為代表的一系列生產式AI，但其訓練與推理所需要的海量計算資源，令個人用戶和一般的企業用戶都難以接受。特別地，即使是經濟實力雄厚的大型政企用戶，也有可能受到復雜的外部環境影響，在采購組建高性能集群的硬件時出現困難。這成為了使用生成式AI幫助全社會提升生產效率的重大障礙。

DeepSeek的出現改變了這一切。在過去的一周里，DeepSeek為開發者公開發布了一系列非常有價值的創新成果。那么，它到底實現了哪些關鍵創新呢？為了系統解讀DeepSeek開源周的貢獻與突破，騰訊科技聯合騰訊云、鵝廠技術派，特別邀約騰訊云技術專家方天戟在開源周進行到第二天的時候進行了解讀。而本文是方天戟基于直播內容，在DeepSeek開源周結束后又補充的開源周后半部分，進行的系統性整理與解讀，希望盡可能以通俗的語言呈現這些創新為業界帶來的價值與影響。

01 DeepSeek開源周，開源了哪些重要內容？

DeepSeek選擇了2025年2月的最后一周作為“開源周”，公布了FlashMLA（優化語句解析算法），DeepEP（優化多機協作機制），DeepGEMM（提升矩陣乘法效率），DualPipe（壓榨計算機資源的手段），EPLB（實現生成不同領域內容）和3FS（高性能存儲）。同時，DeepSeek還公開了一些研發過程中的分析數據。

我們在文章開頭提到過，無論是DeepSeek，ChatGPT，還是其他的生成式AI，本質上都是讓計算機進行一系列矩陣運算。那么，想提高生成式AI算法的執行效率，就應當從三個方面著手：縮小矩陣規模，提高運算效率，減少等待時間。在過去精彩的一周里，DeepSeek公布的這些核心技術，都是聚焦在這三個方面。

1、FlashMLA：語言解析加速器

我們知道，生成式AI的輸入，一般是人類的自然語言。在Transformer模型中，將自然語言進行編碼與分析的機制，就是所謂“Attention”機制——先將每個詞編碼為512個數字組成的“向量”，再使用Q，K，V三個矩陣對每個詞和全文中其他所有詞，進行關聯分析。顯然，隨著輸入長度的增加，總的計算量會以平方律上升，同時，還需要消耗寶貴的GPU內存，用于保存整句話中每個詞的K和V矩陣。

FlashMLA針對這一問題的解決思路是，設法把K和V兩個矩陣壓縮，例如將矩陣中相對過于小的數，以及一部分為0的數去掉，來節約內存，減少計算工作量。進一步地，FlashMLA還針對Nvidia 的H800 GPU進行了優化，考慮到H800卡間通信帶寬限制，減少了讀寫其他卡上數據的需求，避免了卡間通信帶寬限制計算性能。

在FlashMLA加持下，H800單卡能發揮的FP8計算性能從300T FLOPS提升到了580T FLOPS，并且把內存帶寬壓榨到了理論極限的90%。那么，如何進一步提升計算的性能呢？

2、DeepGEMM：跨時代的AI基石

幾乎所有的AI計算都離不開矩陣乘法。由于矩陣乘法可以分解為多組沒有相互依賴關系的重復計算，工程師們定義了GEMM（GEneral Matrix Multiply，通用矩陣乘法）算子，而Nvidia也在cuBLAS和NVBLAS這兩種數學庫中，基于自身的GPU實現了這一算子的并行運算。可以認為，GEMM是包括Transformer模型在內的所有AI算法的基石，其重要程度堪比動力裝置對機械化與工業化體系的意義。

DeepSeek對GEMM做了革命性的優化。DeepSeek考慮到Nvidia Hopper系列GPU內部的Tensor Core（專用的矩陣運算電路）可以支持8-bit浮點數計算，但精度不如16-bit和32-bit浮點數，DeepGEMM將中間過程暫存為32-bit浮點數以提升精度，同時計算速度與8bit相差無幾。

值得注意的是，實現這一運算，需要繞開一切現有的開發庫，直接寫機器指令實現，其開源行為實際上對Nvidia的“護城河”——CUDA生態，發出了直接的挑戰。我們甚至可以認為，DeepGEMM的意義，就如同蒸汽機-內燃機-電動機的迭代驅動歷次工業革命那樣，會驅使生成式AI技術進入一個普惠大眾的時代，從而成為跨時代的AI基石。

3、EPLB和DualPipe：驅動工業革命的效率大師

社會科學工作者在分析美國崛起的原因時，往往提到20世紀初在美國出現的泰勒管理制度和福特生產流水線這兩個概念。在工業生產中，泰勒管理制能讓每個工作者充分發揮自己的專長，而福特生產流水線能避免人的工作時間浪費在等待中。EPLB和DualPipe在DeepSeek中起到的作用就類似于泰勒管理制度和福特生產流水線。

生成式AI的核心技術之一，是所謂“專家模型”。它的工作原理是，把計算機對自然語言理解的結果輸入到描述“專家模型“的矩陣，經過一系列矩陣乘法運算，得到生成的答案。為了讓專家模型在通信能力受限的H800 GPU集群上取得更好的效果，DeepSeek使用的是MoE模型，也就是使用多個專注于特定領域的小型專家模型來生成內容——這類似于醫院的不同科室，在初步識別患者的問題后讓最匹配的專家進行診療。

在醫院中，不同科室有可能會有分工合作，各科室的繁忙程度也可能會有較大差異。那么，如果將密切合作的科室安排在同一樓層，同時，對繁忙的科室，多聘請一些專家坐診，就可以有效減少患者就診等待時間。EPLB在設計時，就借鑒了這一思路，將頻繁互動的幾個專家模型放在同一個GPU，從而減少卡間通信，同時，如果發現某些專家模型調用量顯著多于其他專家模型，就多復制幾個這些專家模型來扛住并發的計算。

而DualPipe的作用則是，借鑒福特生產流水線的改進思路，在訓練這些專家模型時，盡量減少流水線各個環節的等待時間（所謂的“流水線氣泡”）。它的思路是，讓兩個任務進行交叉排布。當下一個計算任務在等待通信任務結束的時候，讓計算機先執行其他的任務。具體而言，就是把訓練過程中，求解方程的環節（所謂的“前向計算”），和驗算反饋（所謂的“后向計算”）的環節，共用一條流水線。這樣，在求解方程環節的計算任務，等待通信任務完成后才能繼續執行的期間，讓GPU進行驗算反饋環節的計算，反之亦然。

DeepSeek在AI大模型訓練與推理算法的工程化工作中，引入EPLB和DualPipe，對業界的貢獻，可以類比為泰勒管理制度和福特生產流水線對工業生產的貢獻，實現了進一步地解放生產力和發展生產力。

4、DeepEP：邃密群科的破壁者

看過電影《橫空出世》的讀者們，一定會對“算盤打出原子彈”的情節記憶猶新。在缺乏大型計算機的制約下，我國的科技工作者們將復雜的核物理仿真計算，拆解為可分布式并行計算的任務，動員了數以千計的工作人員，使用算盤完成了多輪仿真計算，最終支撐了原子彈的成功研發。

在多輪次的仿真計算中，一項重要的任務就是，將大家計算的結果收集匯總，作為下一輪計算的輸入。在AI模型的訓練算法中，這一任務被稱為“AllReduce”。在DeepSeek開源DeepEP之前，這一任務需要依賴Nvidia開發的NCCL（Nvidia Collective Communications Library，英偉達集合通信庫）。

DeepEP實際上是對傳統的AllReduce做了深度的定制和優化。首先，由于DeepSeek手頭的GPU是通信帶寬受限的H800，因此，DeepEP設法限制了對卡間通信資源的消耗量，讓部分GPU作為中繼節點，進行合并處理后，再把合并后的計算結果傳輸到其他GPU，以避免不必要的通信開銷。

考慮到GPU在執行方程求解的任務時，如果切換到AllReduce任務，需要重新將指令和數據加載到緩存（Cache），DeepEP還增加了一項機制，讓GPU內的一些處理核心（SM，Streaming Multiprocessor）來專門處理這項任務，并動態調整承擔AllReduce任務的核心數量。

我們可以看出，DeepEP打破了三大壁壘：首先是GPU通信的NVLink網（服務器內部）和RDMA網（服務器之間）的壁壘；其次是GPU內部SM分工的壁壘；最重要的一點是，DeepEP通過直接對硬件編程的方式，打破了Nvidia壟斷的集合通信庫等技術壁壘。

DeepEP與戈壁灘上算盤打出原子彈的科技工作者們一樣，是邃密群科的破壁者。

5、FS：懼滿溢，則思江海下百川

計算，網絡和存儲，是構成計算機系統的三大基礎支柱。3FS的開源，也補上了DeepSeek所使用的大型分布式系統的最后一塊拼圖。

以生成式AI為代表的機器學習算法，實質上是海量的矩陣運算。在運算過程中需要經常保存草稿（也就是“Checkpoint”）。數千塊GPU卡并行保存Checkpoint數據的時候，對存儲子系統的性能提出了嚴峻的考驗。因此，業界出現了所謂的“并行高性能文件系統”，利用多臺服務器分擔存儲數據的任務，也就是分布式存儲。

分布式系統需要解決的最重要問題之一，就是讓系統關鍵性能，可以隨服務器數量的增長，而接近正比例增長，特別是需要避免多個并行任務阻塞在單點。特別地，為了保證關鍵數據不丟失，需要保證一份數據能夠寫入多份冗余的存儲介質，且數據內容保持一致。

目前，業界有LustreFS等開源的并行文件系統，但在性能、高可用與一致性等方面依然有較大的改進空間。DeepSeek研發的3FS（Fire-Flyer File System，螢火蟲文件系統）基于軟硬件協同的思想，采用RDMA網絡和SSD存儲盤實現了自己的高性能并行文件系統。由于RDMA網絡和SSD存儲盤本身就可以通過NVMe協議來協同工作，且RDMA網絡可以繞過遠端CPU的中斷處理，直接讀取遠端SSD/內存中的數據，3FS能夠在180個存儲節點構成的集群上，取得6.6TiB/s的吞吐性能，把并行文件系統的吞吐量壓榨到了網絡吞吐量理論值的80%以上，這是非常了不起的成就。這不禁讓我們想起來初唐政治家魏征在《諫太宗十思疏》中的一句話：懼滿溢，則思江海下百川?！绻麚拇鎯ο到y成為瓶頸，就要讓它像江海容納來自眾多河川的水一樣。

02 為什么只有DeepSeek做到了？

對機器學習與數學有一定認知的讀者很容易理解，DeepSeek在這一周里開源的幾項技術，并不是非常難以實現的。那么，為什么只有DeepSeek做到了這些呢？

從公開信息可以得知：DeepSeek用于訓練的GPU是限制了GPU卡間通信帶寬的H800，且數量只有2048張，比業界頭部的大型企業有數量級的差距。而部署DeepSeek推理模型所需要的GPU資源數量，可以精簡到消費級PC單機可運行的地步。DeepSeek所做的工作，就是將Transformer模型進行優化，減少浪費，使其能夠在受限的硬件資源上順利運行。

由于DeepSeek手頭的GPU是通信帶寬受限的版本，DeepSeek針對這一點的改進就是FlashMLA，EPLB和DeepEP。同時，在DeepGEMM和DualPipe的壓榨下，DeepSeek使用了2048張卡實現了萬卡集群的訓練效果。最后，3FS進一步降低了訓練過程中的存儲開銷。

有人可能會問，DeepSeek團隊將付出了大量心血的成果，無保留地對全社會公開，這一利他行為的動機是什么呢？我們不妨將視線轉向人文社科領域的書海尋求可能的答案。

馬克思在《關于費爾巴哈的提綱》中指出：“人的本質，是社會關系的總和?！痹隈R克思做出這一論斷后，又過了100多年，美國社會學家馬斯洛提出，人的需求的最高層次是自我實現的需要，次之的是尊重的需要。幾乎與馬斯洛同一時代，在風云激蕩的東半球，毛澤東主席也在《紀念白求恩》中寫道：“我們大家要學習他毫無自私自利之心的精神。從這點出發，就可以變為大有利于人民的人。一個人能力有大小，但只要有這點精神，就是一個高尚的人，一個純粹的人，一個有道德的人，一個脫離了低級趣味的人，一個有益于人民的人?！蔽覀冇欣碛上嘈牛珼eepSeek將自身的工作成果向全社會無償貢獻出來，說明這是一個脫離了短期利益得失和其他低級趣味的團隊，是為自我成就和尊重而努力奮斗的團隊，是積極回饋社會的團隊。

DeepSeek站在Transformer的肩膀上，讓生成式AI技術得以普惠大眾，同時也將自行研發的技術開源回饋社會。如果這樣的正向循環得以持續，全社會能夠得到的，不僅是基于AI技術的生產力提升，還能夠通過這種價值觀的傳播，讓大家更好地為共同的目標團結奮斗，讓世界的將來更加美好。

標簽DeepSeek

上一篇：騰訊推出快思考模型：API 成本只有 deepseek 不到一半

下一篇：美國擬全面封殺 AI 芯片，H20B20 將被禁？