比 英偉達 快20倍!哈佛輟學生發布大模型芯片

你還記得加密貨幣的礦機嗎?2013年,專為比特幣挖礦而設計的ASIC芯片問世,與之前占主導地位的CPU和GPU相比,ASIC的挖礦效率實現了質的飛躍,革命性地改變比特幣挖礦格局。
而近日,一家叫做Etched的硅谷初創公司憑借其用于AI的ASIC芯片,從最底層的架構層面為主流AI大模型公司所采用的Transformer計算提供更優性價比的選擇,在AI硬件領域掀起了波瀾。
Etched由哈佛輟學生Gavin Uberti和Chris Zhu于2022 年創立,他們開發了一款名為Sohu的專為Transformer模型設計ASIC芯片。
Etched聲稱,Sohu芯片推理Llama-3 70B的速度比英偉達的H100快20倍,而功耗卻大大降低。
Etched剛剛獲得了1.2億美元的新融資,由 Primary Venture Partners 和 Positive Sum Ventures 領投,Peter Thiel、Github首席執行官Thomas Dohmke和前Coinbase首席技術官Balaji Srinivasan等知名投資者也參與了本輪融資。
隨著Transformer模型不斷推動生成式AI突破,Sohu芯片被認為有望在AI推理側打破英偉達GPU一家獨大的格局,重塑AI計算的格局。
專用于Transformer
GPU中包含多種運算單元,如FP64、FP32、INT、TensorCore等結構。處理任意CUDA代碼需要復雜的編譯器,芯片開發商往往需要在軟件開發上投入了超過數十億美元的成本,但成效有限。
而Etched則縮小了焦點。通過專用于運行Transformers,Etched可以簡化軟件開發,并側重TensorCore,針對性地提升AI運算能力。
由于大多數AI公司使用特定的Transformer推理庫,如TensorRT-LLM、vLLM或HuggingFace的TGI,這些框架足以滿足大多數需求。
而文本、圖像或視頻等不同應用中的Transformer模型基本相似,這使得客戶可以在不改變核心模型代碼的情況下調整模型超參數。
頂尖AI公司通常需要定制解決方案,聘請工程師對GPU內核進行精心優化。而Etched通過開放從驅動程序到內核的整個軟件棧,消除逆向工程的需要。這種開放性允許工程師根據需要實施定制Transformer層,提高了靈活性。
此外,Sohu芯片減少了用于存儲器的空間,而將更多空間用于計算用途的晶體管,并通過只有一個大內核的設計,減少了用來協調不同內核的低效計算。
不過,如果迅速出現替代Transformer的新算法,則Sohu芯片將失去價值。“我們正在人工智能領域下最大的賭注,”Gavin Uberti在接受采訪時說。”如果Transformer消失了,我們就會死。但如果它們繼續存在,我們就是有史以來最大的公司。”



