本周三,Arm發布了最新一代架構Armv9,這一架構是在目前已經廣泛使用的Armv8的基礎上,面向未來十年的新一代架構。
雷鋒網了解到,Armv9架構有三個系列,分別是針對通用計算的A系列,實時處理器的R系列,微控制器的M系列,預計未來兩代移動基礎設施CPU的性能提升將超過30%,首款基于Armv9架構CPU的移動處理器最快將在今年底問世,可能來自MediaTek,
Armv9架構的初代版本增強了安全性、機器學習、DSP性能,Armv9架構未來也將持續增強這些性能,并將加入新特性,
最近幾年,Arm架構處理器已經從智能行動電話為代表的終端向對性能要求更高的PC、數據中心延伸。從最新的發布可以看到,Arm希望Armv9架構 CPU以及基于其GPU、NPU處理器能夠無處不在,如果Arm的目標能夠實現,是否可以實現CPU計算統治?Arm的第三個1000萬出貨目標多久能夠達成?
安全是發揮計算架構潛能最大的挑戰
Armv9架構的發布會上,安全性被頻頻提及,與安全相關的技術和介紹的篇幅也很長。Arm高級副總裁、首席架構師兼技術院士Richard Grisenthwaite解釋稱,“我看來,計算若要充分發揮潛能,安全是最大的挑戰,越來越多的私人數據被存放在計算系統中,這讓這些數據成為安全攻擊的誘人目標。今年網路犯罪損失的金額預估高達6萬億美元,”
因此,Armv9架構在安全性方面做了多方面的工作,首先是引入了Arm機密計算架構(Confidential Compute Architecture, CCA),機密計算通過打造基于硬件的安全運行環境來執行計算,保護部分代碼和數據,免于被存取或修改,甚至不受特權軟體的影響,
Arm CCA將引入動態創建機密領域(Realms)的概念,機密領域面向所有應用,運行在獨立于安全或非安全環境之外的環境中,實現保護數據安全的目的,比如,在商業應用中,機密領域可以保護系統中商用機密數據和代碼,無論它們正被使用、閑置或正在傳輸中,
據悉,Arm會在今年下半年公布Arm CCA的更多資訊,
內存標簽擴展是Armv9架構的另一項安全技術,Richard Grisenthwaite說:“在分析了全球軟體報告的大量安全問題后,我們發現許多問題的根源實際上與過去內存安全的老問題有關,這些問題已經困擾計算領域50年,兩個持續多年特別常見的內存安全問題——緩存溢出和釋放后重用。很大一部分的問題是,這些內存安全漏洞被利用之前就能發現問題,這是提高全球軟體安全至關重要的一步。”
Arm持續與谷歌合作開發的“內存標簽擴展”技術,可以在軟體中查找空間和時間內存安全的問題,允許軟體將指向內存的指針與標簽建立關聯,并在使用指針時檢查這個標簽是否正確,
Richard稱,內存標簽擴展是明年上市的第一代Armv9 CPU不可或缺的一部分。支持內存標簽擴展的軟體也正被引入到安卓11系統和OPENSUSE。
Arm還與劍橋大學部在其CHERI架構上合作多年,從架構底層來提升安全性,據介紹,CHERI架構定義了可提供這種封裝能力的硬件功能,這在未來將可能促成一個本質上更為安全的計算平臺,但這也會使某些系統的變成方式產生重大改變,
不過,這種架構Arm已經在和其合作伙伴探索,如果成功,會在未來5-6年引入Armv9架構,成為Armv9架構主要的組件之一,
未來兩代Armv9架構CPU性能提升將超過30%
安全性是計算架構的基礎,性能提升則是滿足越來越高的計算需求以及多樣化計算需求的關鍵。Arm預計,新一代架構Armv9將保持超過業界CPU性能提升的速度,未來兩代移動和基礎設施CPU的性能提升將超過30%,
Richard強調:“這個數據是根據業界標準評測工具來衡量,30%的算力提升完全是憑借于本身架構而不是借助于制程工藝來實現。”
計算性能提升非常重要的驅動力就是AI,Statista Research Department今年1月發布的最近報告估計,到21世紀20年代中期,全球將有超過80億臺搭載AI語音輔助的設備。不同設備對于AI性能的需求不同,也就需要不同的AI處理器。
Arm與富士通合作開發了可伸縮矢量擴展(Scalable Vector Extension, SVE)技術并用在了全球最快的超級計算機“富岳”上。在SVE的基礎上,Armv9中使用了新開發的SVE2技術,增強了對在CPU上本地運行的5G系統、虛擬和增強現實以及ML工作負載的處理能力,能夠提供實現增強的機器學習和數字信號處理能力。
“我們還將通過提升頻率、帶寬、緩存大小、并減少內存延遲,以最大化CPU 性能,”Richard表示。
在解決新問題的過程中,Arm加入了一些復雜技術,這是否違背了精簡指令集(RISC)的初衷?Richard的觀點是:“Arm架構的精簡指令(RISC)核心沒有改變,我們依然遵循著注冊到注冊(registration to registration) 的操作原則,所以從硬件的角度來看,Arm指令集仍然保持著精益性。”
Arm稱,除了大幅增強CPU內的矩陣乘法,Mali GPU和Ethos NPU也會持續進行AI創新,擴展Arm的技術能力。
統治CPU計算
目前,CPU領域最成功的架構當屬x86,不過x86的成功和統治力在于PC和高性能計算市場,在Arm擅長的智能終端市場并不成功。近幾年,Arm架構在高性能計算領域取得了一些進展,包括上面提到的“富岳”超級計算機,以及推出采用Arm架構的多款服務器,去年,蘋果M1處理器Macbook Pro電腦的推出,也讓業界看到了x86架構在PC市場的統治地位并非牢不可破,
Arm首席執行官Simon Segars說,“Arm芯片實現1000億顆的出貨花了26年,如果預測準確,接下來一年,我們的合作伙伴出貨的Arm芯片將累計達到2000億顆,也就是說,我們的第二個1000億的出貨將在短短5年內達成。”
雷鋒網了解到,目前Arm架構的芯片出貨已經超過1800億顆,Armv9架構會成為實現Arm芯片3000億顆芯片出貨的先驅。沒有人能準確預估Arm實現第三個1000億顆芯片出貨的時間,但可以明確的是Arm希望其芯片能夠為所有智能計算提供算力,也就是讓其芯片在未來無處不在。
為了實現這個目標,同時滿足行業從通用計算向普遍的專用處理發展的需求,Arm也開始強調全面計算的理念,全面計算設計方法包含Arm的CPU、GPU、NPU,通過將全面計算的設計原則應用在包含汽車、客戶端、基礎設施和物聯網解決方案的整個IP組合中。
與此配合,Arm也需要在標準化程度上取得平衡。Richard說:“如果過多的標準化,那么合作伙伴將無法開發合適的專用解決方案,而如果太少的標準化,我們得承擔低價值、形同實異的解決方案的風險。這將讓軟體生態系統的成本增加、且毫無益處。”
Arm在服務器領域中已經看到了標準化平衡的價值,推出了“服務器基礎架構SBSA”和相關的認證計劃“服務器就緒”,
“我們也正在擴大標準化的范圍,Arm SystemReady將服務器就緒計劃的概念從云端延伸到物聯網邊緣等廣泛的設備上,以實現通用操作系統及虛擬機管理程式之間的交互運作,”Richard說。
如果Arm的全面計算以及標準化探索成功,從終端到邊緣再到云端,Arm是否就能夠實現在未來的計算統治?實現3000億顆甚至更多芯片出貨又會有多快呢?
小結
現在看來,有兩大方面的阻礙,一方面是在復雜的國際形勢下,同屬精簡指令集的RISC-V正在快速發展,加上x86陣營intel和AMD也在加強x86的競爭力,Arm要真正撼動x86的優勢領域并非易事。
另一方面,大陸作為芯片進口的大國,Arm與Nvidia的收購交易,以及美國對大陸領先芯片設計公司的出口限制,讓客戶產生擔憂,
對于Armv9是否以供給包括華為在內的大陸企業的問題,Arm的官方回復是:“Arm既有源于美國的IP,也有非源于美國的IP。經過全面的審查,Arm確定其Armv9架構不受美國出口管理條例(EAR)的約束。Arm已將此通知美國政府相關部門,我們將繼續遵守美國商務部針對華為及其附屬公司海思的指導方針。”
這樣的回復,不知你怎么看?