AMD全新GPU架構揭秘：從零起步、三殺NVIDIA

昨日晚間，AMD正式發布了新一代Instinct MI100計算卡，首次采用針對HPC高性能計算、AI人工智能全新設計的CDNA架構，和游戲向的RDNA架構截然不同，

Instinct MI100計算卡采用臺積電7nm工藝制造，集成120個計算單元、7680個流處理器，核心頻率最高1502MHz，并專門加入了Matrix Core(矩陣核心)，用于加速HPC、AI運算。

它整合封裝了32GB HBM2顯存，位寬4096-bit，頻率1.2GHz，帶寬1228.8GB/s，支持ECC。

該卡支持PCIe 4.0 x16，具備三條Infinity Fabric互連總線，峰值帶寬92GB/s，整卡熱設計功耗300W，雙8針輔助供電。

這塊卡的特殊之處還在于頂部設置了橋接金手指，通過橋接器可以將四塊卡綁定在一起，而搭配雙路的AMD霄龍處理器，可以實現八卡并行。

類似之前的計算卡，甚至是R9 Fury X、Vega 64/56這樣的游戲卡，Instinct MI110也是將GPU芯片、HBM芯片整合封裝在了一起，不過如今的HBM2單顆容量已達8GB。

對比CDNA(上)、RDNA(下)架構圖，可以發現二者整體框架有些相似之處，但各種單元模塊和布局已經截然不同，

Infinity Fabric互連總線、顯存控制器、PCIe 4.0控制器、多媒體引擎、著色器引擎、ACE異步計算引擎等等都還在(當然也不完全一樣了)，而和圖形渲染輸出相關的都沒了，比如圖形指令處理器、幾何處理器、光柵器、顯示引擎、原語單元等等，同時增加了XGMI連接控制器用于多卡互連，一二級緩存也完全不同，

作為AMD GPU的最基本模塊，計算單元(CU)也完全不同了，現在叫做增強型計算單元(XCU)，組成模塊包括調度器、分支與資訊單元、12.8KB ECC標量單元、512KB ECC標量寄存器、矢量寄存器、矢量ALU操作單元、矩陣數據操作單元、四個矢量/矩陣SIMD單元、64KB ECC本地數據共享單元、載入/存儲單元、16KB ECC一級緩存等等。

顯然，這一些都是為計算服務的，而用于圖形的著色器、紋理相關單元自然都不見了，即便有些單元名字一樣，規格和作用也不同了。

計算性能方面，FMA64/FP64雙精度為11.5TFlops(每秒1.15億億次)，FMA32/FP32單精度為23.1TFlops(每秒2.31億億次)，FP32 Matrix單精度矩陣計算為46.1TFlops(每秒4.61億億次)，FP16 Matrix半精度矩陣計算為184.6TFlops(每秒18.46億億次)，Bfloat16浮點為92.3TFlops(每秒9.23億億次)。

這樣的一塊卡，已經相當于20年前的世界頂級超級計算機，而體積、功耗都不可同日而語。

對比NVIDIA安培架構的最新計算卡A100，AMD也給出了一些對比數據，FP32單精度性能領先18.5％，FP64雙精度性能領先18.6％，AI與機器學習性能更是領先兩倍多，而且功耗低了足足100W。

而對比上代產品MI50，新卡的FP64雙精度、FP32單精度性能均提升74％，FP32矩陣性能提升接近2.5倍，AI負載性能更是幾乎7倍的飛躍，

當然，除了紙面計算性能優秀，軟體開發也必須跟上，尤其是這種計算性的產品。NVIDIA在這方面要強得多，生態更加穩固和豐富，AMD ROCm平臺正在奮起直追中，

AMD全新GPU架構揭秘：從零起步、三殺NVIDIA

綠市集：免費活動歌頌永續生活

CT檢查免顯影劑 AI只花90秒鎖定腦傷區與體積精準即時搶救

捲假包風波！王思佳親解「不回小S留言」原因：不想拖下水

日本長野殺警案！霰彈槍射殺4人「2警1女亡」議長兒凌晨落網

網路紅什麼／汙衊老闆性騷擾！纏訟近3年千萬粉絲帳號被封小慧君嘴硬：只是違規而已

疫情中斷後首次重啟！塔利班宣布恢復阿富汗對中國直飛航線