英偉達發布“空氣CPU”:ARM架構 性能超X86十倍

30系顯卡買不到?英偉達老黃剛剛又發布一款“空氣CPU”。

不過就算你搶不到也沒關系,因為這款CPU專門為服務器設計,到2023年才能發布,

剛剛,在英偉達舉辦的GPU技術大會上(其實會場就是老黃家的廚房),黃仁勛發布了全新ARM架構CPU,也是英偉達首款服務器CPU——Grace。

這款CPU專為處理大量數據的AI任務而生,老黃說,如果服務器用上這款CPU,那么AI性能將超過x86架構CPU的10倍,

去年,老黃就是在這里發布了A100、RTX 30系列GPU。今年,這位皮衣男的頭發更長了,也更白了。

除推出首款服務器GPU外,英偉達還要把ARM架構帶到筆記本上,

如果用一句話概括這場發布會,那就是老黃想用ARM革x86的命,畢竟英偉達是準備用400億美元收購ARM的。

PPT級CPU

全新的CPU以女程式員先驅Grace Hopper的名字命名,有趣的是英偉達的GPU是以男性科學家的名字來命名的:圖靈、安培……現在英偉達的兩條產品線實現了夢幻聯動。

RTX 30系顯卡是因為買不到而被叫做“空氣”,那么Grace CPU被叫做空氣的原因是,這款產品實在是“太PPT”了。

正式發布時間在2年后,什么整數浮點運算性能、主頻參數統統沒有,連制程工藝也語焉不詳,如果不出意外,應該是5nm。

英偉達只在發布會上透露,Grace在SPECrate2017_int_base基準測試中超過300分,可以與AMD第二代64核EPYC中的某些CPU相媲美,

再看看這一個月里AMD和Intel發布的服務器GPU那一大串參數,這不就是“空氣”嗎!

既然什么參數都沒有,唯一參數也只和AMD上一代ETPC持平,老黃為何敢拍著胸脯說Grace比其他x86架構強10倍呢?

因為,在數據傳輸速度這件事上,Grace比AMD和Intel跑得快多了。

這對于AI任務太重要了。英偉達的GPU用于深度學習,而CPU、內存和GPU之間的通信速度往往拖了AI的后腿。

過去,CPU和GPU之間靠PCIe總線進行數據傳輸,兩種不同架構硬件之間的溝通太慢。

而x86架構CPU又不支持英偉達自有的NVLink,所以最好的辦法是自己造一個CPU,專門為大量數據的AI任務而生。

Grace和英偉達GPU之間通過NVLink 4進行通信,從GPU到CPU之間的傳輸速度高達900GB/s,比AMD EPYC 2+NVIDIA A100的搭配快14倍,


△ Grace與AMD CPU傳輸速率對比(圖片來自AnandTech)

另外,Grace也有著最高的內存帶寬500GB/s,且支持LPDDR5x ECC內存,能效比其他產品高10倍。

這款CPU我們何時才能見到呢?

現在已經有兩個大客戶了,其中瑞士國家計算中心正在建造全球最快AI超算算力達20EFLOPS;美國洛斯阿拉莫斯國家實驗室也將為其研究人員配備搭載Grace的新AI超算,

至于Grace的一個可能用途,是用來訓練下一代超過1萬億參數的NLP模型,GPT-4就靠它了。

ARM筆記本也能有獨顯

取代x86的野心不僅在服務器端,英偉達還要把ARM帶到PC平臺上。

但英偉達不是自己制造筆記本CPU,而是與聯發科合作。

未來英偉達RTX筆記本顯卡將支持ARM架構CPU,將光追和AI技術帶到ARM平臺上。目前雙方已經開發了支持Chromium、Linux兩種開源系統的SDK參考平臺,

聯發科CEO表示,GPU加速將對整個Arm生態系統產生巨大的推動作用,

希望Windows能在ARM軟體生態上給力,用上ARM架構的獨顯游戲本也許不是夢了,

自動駕駛芯片

老黃在發布會上表示,將于2022年投產Orin自動駕駛芯片,

雖然我們到明年才可能看到搭載Orin的汽車,但是這不妨礙英偉達發布下一代自動駕駛芯片Atlan。

Atlan算力達到1000TOPS,是上一代Orin芯片的4倍,為2025年誕生的汽車設計,

英偉達宣布與沃爾沃深化合作,明年沃爾沃將從新款XC90開始搭載Orin系統,并在2025年款車型中搭載最新的Atlan系統,

更多AI落地

Nvidia發布了用于訓練大規模Transformer模型的“威震天”——Megatron Triton推理服務器,

Transformer模型的參數規模正以指數級增長,每兩個半月翻一倍,Nvidia預計明年將會出現萬億級參數的模型。

以GPT-3為例,使用雙路CPU的服務器進行一次128個單詞的查詢就要超過一分鐘。

Megatron Triton通過多GPU、多節點推理,可以在1秒內同時進行16次這樣的查詢。

會上還發布了藥物研發領域的Clara Discovery產品,包括醫學影像、基因組分析、量子化學、尋找新化合物等方面,

CuQuantum,用GPU加速量子電路模擬,適用于張量網路求解和狀態向量求解。在測試中,將雙CPU需要10天完成的任務縮短到2小時。

除此之外,還有多模態實時對話AI平臺Jarvis的1.0公測版,能夠實現語音識別、語言理解、翻譯,以及在合成語音中表現出情緒。

以及開源推薦系統框架Merlin。在測試中實現10-50倍的ETL加速,

Jarvis和Merlin都已可以在Nvidia NGC中下載。

還要打造虛擬世界

Nvidia還宣布夏季推出元宇宙產品Omniverse企業授權許可,用于讓團隊在虛擬世界中異地實時協作。

元宇宙(Metaverse),1992年由尼爾·斯蒂芬森于在科幻小說《雪崩》中提出,是一個與現實世界相互影響的虛擬世界,就像《頭號玩家》中展示的那樣,

NVIDIA Omniverse是一個云原生平臺,除了視覺模擬外、還進行高精度的材料和物理學模擬并與NVIDIA AI完全集成。

除了娛樂外,Omniverse可用于機器人訓練,通過創造工廠的數字重建,在虛擬環境中訓練好的機器人AI可以直接部署到真實環境中,

老黃還展示了與寶馬公司合作的項目,通過模擬了31家寶馬工廠的生產流程,并在數字環境中進行優化,將生產效率提升了30%。

顯卡呢?

說了這么多亂七八糟的,老本行顯卡呢?

Nvidia公布了8款為下一代筆記本電腦、臺式機和服務器推出八款全新安培架構顯卡RTX A系列,

A系列為用于圖形設計的專業卡,搭載下一代RTX技術。

其中RTX A5000桌面卡提供24G顯存,而A2000-A5000的移動版將搭載第三代MAX-Q技術,在不影響筆記本輕薄屬性下提供更高性能。

0 条回复 A文章作者 M管理員
    暫無討論,說說你的看法吧