吳說作者 | Colin Wu
老套的“蝴蝶效應”故事,在19日晚出現在大陸加密行業,因為AWS東京節點冷卻系統斷電,導致火幣首先出現嚴重的全網宕機,隨后幣安、抹茶、Coinex、庫幣等也陸續出現小規模的故障,可以說幾乎所有大陸交易所都受到了影響。
19日臺北時間晚10時,火幣突然出現全網故障,用戶被踢出登入狀態,顯示網路不佳,火幣方面表示,因為亞馬遜云服務C區大面積網路故障導致登陸受影響,已聯系對方正在修復中,客戶資產安全不受影響,
11時幣安、庫幣、抹茶APP、Coinex等等也都出現卡頓,但影響相對較小。 圖中是AWS節點的故障示意圖與原因,目前已經是修復狀態,AWS在19日日本時間晚11點發現問題,核心原因是冷卻系統斷電導致溫度升高,日本時間20日3點30分大部分已經恢復,5點30分基本已經全部恢復,
幣安公告表示,由于AWS中斷影響了我們的平臺以及許多其他交易所,因此幣安全網今天從29日香港時間凌晨1:13 AM到4:52 AM暫時暫停了充值、提現和資金劃轉。
雖然幾乎所有大陸交易所都遇到了故障,但火幣為何如此嚴重的原因,一位微博網友的解釋如下,這一說法也得到了相關人士的認可。
“為了追求速度犧牲了高可用,強制要求所有服務全部遷移至單可用區,即此次故障的C區,于此同時并沒有快捷有效的緊急應對預案,一旦出現單區故障,需要將所有服務遷移出去,數據也需要重建,時間成本非常高。”(參考獨家:原阿里高管朱燁出任火幣新CTO 火幣高管全員首度曝光)
行業人士指,AWS日本是亞太區價格比較貴的區域,也是地震帶,將單可用區域,選在AWS日本是比較不合適的選擇,而客觀來說,系統可用性、極致的交易性能、和成本投入是“不可能三角”,追求速度犧牲可用性,就可能導致這樣的結果,
由于19日晚比特幣及部分主流幣持續暴漲,合約做空的投資者可能會因為無法撤單遭到損失,目前除火幣以外,其他交易所故障范圍較小,因此不太存在賠償問題。火幣方面表示,肯定會出臺相應的賠償方案。比較特殊的是,OKEx可能因為主要使用香港的阿里云服務器,導致在此次事件中基本沒有出現故障,
幣安在此次故障發生前,突然宣布暫停了以太坊及相關代幣的提現,引發不少猜測與陰謀論,但迅速恢復了提現。但幣安相對高發的宕機與故障頻率也引發關注,究竟原因是什么?幣安自身歸結為流量過大,CZ稱每日新增用戶達到了3萬人,但也有人質疑,幣安上季度利潤接近10億美金,不應在技術方面舍不得投入,
專業人士指出,原因可能有以下幾點:
第一,其實還是投入不夠,雖然幣安利潤不小,但系統、軟硬件方面是一個巨額投入成本,頭部公司每年光維護費用可能就要達到數億美金;第二,幣圈有比較強的特殊性,7乘24小時交易、全球用戶、各種不可預測的突發情況以及黑客攻擊,導致維護難度非常大;第三,內部應急能力不足,沒有完善的測試團隊。傳統互聯網公司會有大量關于故障的預先演練,以及完善的機制制度,幣安因為發展速度太快,很多相關制度與機制尚未跟上,