云端AI芯片的格局可能被微軟、阿里、IPU改變

英偉達在云端AI訓練芯片市場超九成的市占率讓新入局的競爭者們都將槍口指向這家當紅AI公司。聲稱AI性能比英偉達GPU的新產品不少,但真正突破英偉達護城河的現在仍未看到。

相比在硬件性能上超越英偉達,軟體生態的趕超難度顯然更大。不過,微軟亞洲研究院的NNFusion項目以及阿里云的HALO開源項目,正努力降低從GPU遷移到新的硬件平臺的難度和成本,再加上在多個重要AI模型上性能超英偉達最新A100 GPU的IPU,云端AI芯片市場的格局未來幾年可能會發生變化,


微軟、阿里云開源項目降低遷移出GPU的難度

目前AI的落地,仍以互聯網和云計算為主,因此,科技巨頭們很快發現遷移到新平臺不能只看峰值算力,Graphcore高級副總裁兼大陸區總經理盧濤表示:“客戶考慮為一個新的軟硬件平臺買單時,首先考慮的是能夠獲得多少收益。其次考慮的是需要多少成本,這涉及軟硬件的遷移成本,”

對于科技巨頭們而言,GPU確實是一個好選擇,但考慮到成本、功耗以及自身業務的特點,仍然有自研或者遷移到其它高性能芯片的動力。此時,軟體成為能否快速、低成本遷移的關鍵,

將已有的AI模型遷移到新的AI加速器時,現在普遍的做法是在TensorFlow寫一些后端集成新硬件,這給社區和AI芯片公司都帶來了負擔,也增加了遷移的難度和成本。


微軟亞洲研究院的NNFusion以及阿里云的HALO開源項目,都是希望從AI編譯的角度,避免重復性的工作,讓用戶能夠在GPU和其它AI加速器之間盡量平滑遷移,特別是GPU和IPU之間的遷移,



也就是說,NNFusion和HALO向上跨AI框架,既可以集成TensorFlow生成的模型,也可以集成PyTorch或其他框架生成的模型。向下用戶只要通過NNFusion或者HALO的接口就可以在不同的AI芯片上做訓練或者推理。

這種調度框架在降低遷移難度和成本的同時,還能提升性能。根據2020 OSDI(計算機學界最頂級學術會議之一)發布的研究結果,研究者在英偉達和AMD的GPU,還有Graphcore IPU上做了各種測試后得出結果,在IPU上LSTM的訓練模型得到了3倍的提升。

當然,這樣的收益還是需要開源社區與硬件提供方的緊密合作,比如Graphcore與微軟亞洲研究院以及阿里云的合作,

增加遷入IPU的便捷性

“我們與阿里云HALO和微軟NNFusion緊密合作,這兩個項目支持的最主要的平臺是GPU和IPU,”盧濤表示,“目前在阿里云HALO的GitHub里已經有IPU的完整支持代碼odla_PopArt,下載開源代碼就已經可以在IPU上使用,”

能夠便捷地使用IPU也離不開主流機器學習框架的支持,Graphcore本月最新發布了面向IPU的PyTorch產品級版本與Poplar SDK 1.4,PyTorch是AI研究者社區炙手可熱的機器學習框架,與TensorFlow兩分天下,

PyTorch支持IPU引起了機器學習大神Yann LeCun的關注。之所以引發廣泛關注,是因為這個支持對于IPU的廣泛應用有著積極意義,


Graphcore大陸工程總負責人,AI算法科學家金琛介紹,“在PyTorch的代碼里,我們引入了一個叫PopTorch的輕量級接口。通過這個接口,用戶可以基于他們當前的PyTorch的模型做輕量級封裝,之后就可以無縫的在IPU和CPU上運行這個模型,”

這也能更好地與HALO和NNFusion開源社區合作,金琛告訴雷鋒網,“不同的框架會有不同中間表示格式,也就是IR(Intermediate Representation),我們希望將不同的IR格式轉換到我們通用的PopART計算圖上,這也是兼容性中最關鍵的一點,”

據悉,IPU對TensorFlow的支持,是像TPU一樣,通過TensorFlow XLA backend接入到TensorFlow的框架,相當于把一個TensorFlow計算圖轉換成為一個XLA的計算圖,然后再通過接入XLA的計算圖下沉到PopART的計算圖,通過編譯,就可以生成可以在IPU上執行的二進制文件。

金琛認為,“各個層級圖的轉換是一個非常關鍵的因素,也需要一些定制化工作,因為里面的一些通用算子也是基于IPU進行開發的,這是我們比較特殊的工作。”

除了需要增加對不同AI框架以及AI框架里自定義算子的支持,增強對模型的覆蓋度的支持,也能夠降低遷移成本,

金琛介紹,對于訓練模型的遷移,如果是遷移一個不太復雜的模型,一般一個開發者一周就可以完成,比較復雜的模型則需要兩周時間。如果是遷移推理模型,一般只需要1-2天就可以完成。

IPU正面挑戰GPU,云端芯片市場或改變

AI時代,軟硬件一體化的重要性更加突顯。盧濤說:“AI處理器公司大致可以分為三類,一類公司是正在講PPT的公司,一類公司是有了芯片的公司,一類公司是真正接近或者是有了軟體的公司。”

已經在軟體方面有進展的Graphcore,硬件的表現能否也讓用戶有足夠的切換動力?本月,Graphcore發布了基于MK2 IPU的IPU-M2000的多個模型的訓練Benchmark,包括典型的CV模型ResNet、基于分組卷積的ResNeXt、EfficientNet、語音模型、BERT-Large等自然語言處理模型,MCMC等傳統機器學習模型,



其中有一些比較大的提升,比如與A100 GPU相比,IPU-M2000的ResNet50的吞吐量大概能實現2.6倍的性能提升,ResNeXt101的吞吐量提升了3.6倍,EfficientNet的吞吐量達到了18倍,Deep Voice 3達到了13倍,

值得一提的還有IPU-POD64訓練BERT-Large的時間比1臺DGX-A100快5.3倍,比3臺DGX-A100快1.8倍。1個IPU-POD64和3個DGX-A100的功率和價格基本相同。

強調IPU訓練BERT-Large的成績不僅因為這是英偉達GPU和谷歌TPU之后第三個發布能夠訓練這一模型的AI芯片,還因為BERT-Large模型對現在芯片落地的意義,

盧濤說:“在今天,BERT-Large模型不管是對于工業界,還是對研究界都是一個比較好的基準,它在未來至少一年內是一個上線的模型水準,”

不過,這一成績目前并非MLPerf發布的結果,正式結果需要等待Graphcore在明年上半年正式參與MLPerf性能測試,近期,Graphcore宣布加入MLPerf管理機構MLCommons。

“我覺得我們加入MLCommons和提交MLPerf表明,IPU即將在GPU的核心領域里面和GPU正面PK,表明了IPU除了能做GPU不能做的事情,在GPU最擅長的領域,IPU也能以更好TCO實現相等,甚至更優的表現。”盧濤表示,

微軟亞洲研究院、阿里云、Graphcore都在共同推動GPU轉向IPU,什么時候會迎來破局時刻?雷鋒網雷鋒網

0 条回复 A文章作者 M管理員
    暫無討論,說說你的看法吧