财聯社 11 月 14 日訊(記者 付靜)日前,阿裏雲發生重大故障,全線服務宕機 3 個半小時,引發業内諸多讨論。财聯社記者與多位業内人士交流獲悉,此次故障或與阿裏雲的鑒權服務(Auth)有關,多雲備份或是杜絕此類重大事故的有效方式。
底層服務組件引起阿裏雲故障
據了解,不僅阿裏系産品全線 " 崩潰 ",阿裏雲客戶的用戶購物、企業運營、公共服務等都受到不同程度影響。據阿裏公告,從 11 月 12 日 17 點 44 分開始,阿裏雲多個産品出現了全球多可用區多産品的故障。通過 Status Page 不難發現,此次不僅是一個可用區的故障,可謂全球大故障。
據悉,阿裏雲此次确認的故障與某底層服務組件有關,有業内人士對記者分析稱,這一服務組件或是阿裏雲的鑒權服務(Auth),雲計算最基礎的要求之一就是權限控制、資源隔離,這些是基于鑒權服務來實現的。
" 通俗來講,鑒權服務的工作原理就是給資源上一把鎖,給資源使用者分配對應的鑰匙。鑒權服務正常工作時,正确的鑰匙可以打開對應的鎖;出故障時正确的鑰匙就不起作用了。" 其表示。
此番并非阿裏雲第一次大面積故障。去年阿裏雲香港機房節點發生故障,多個網站、互聯網應用均無法打開。" 這次阿裏雲的崩潰,讓大家真正意識到,‘一切都在雲上’,雲已經成爲和水電一樣的基礎設施。而行業的危機事件,也讓大家意識到多雲備份已經迫在眉睫。" 前述業内人士稱。
多雲融合成趨勢
如何規避這種問題的發生?财聯社記者與多位行業人士交流獲悉,通過多雲部署策略确保業務連續性、避免因單獨一家雲廠商事故而影響企業自身業務,已成爲一大行業趨勢。
一位雲計算從業者告訴财聯社記者,如果企業關鍵業務構建于單一雲廠商之上,一旦出現重大故障,企業業務也會跟着停擺,更嚴重的是業務核心數據受到損壞。
其表示,如果是單雲部署,即便在雲内做各種各樣的高可用,比如多倍冗餘、跨可用區部署,但如果發生底層組件故障,那也會像阿裏雲這樣出現多可用區的多産品故障。如果是多雲部署,比如把業務部署在兩個不同雲廠商,兩個雲之間的組件不會相互依賴,就可以避免其中一個雲出現問題時,整個産品都不可訪問的現象。
行業人士向記者舉例,作業幫、TT 語音等企業已經選擇了多雲路線,而 TiDB、OceanBase 等新型數據庫已支持多雲部署。另據媒體報道,跨境電商 SHEIN 在海外市場同時使用亞馬遜雲、微軟雲等廠商服務。美國調研公司 Kentik 數據顯示,有 40% 的受訪企業至少使用兩種雲。
" 國内短視頻領域某大廠也在 2017 年開始實踐多雲架構方案,2021 年管理的總機器數已經達到數十萬規模。" 前述業内人士透露。
" 多雲 " 策略是否會增加管理成本和技術成本?上述人士分析認爲," 雲計算相關的所有業務,說到底就是數據 + 計算,這其中數據的多雲部署是最大的挑戰,計算則相對容易一些。從實際案例來看,多雲部署成本提升不算太高,這也和每個企業選擇的技術方案有關:比如,如果隻選擇把關鍵模塊做多雲部署,那這部分産生的成本則很小。企業可以根據場景調用不同的雲上産品和服務,例如用 A 雲廠商的數據庫服務,接入 B 雲廠商的 AI 大模型,通過統一調度靈活調配。在完成前期的操作與數據管理後,相比穩定性提升的收益,對于大部分企業來說,這部分成本也是可以接受、并且願意接受的。"