滴滴總部新橙海大廈的三座辦公樓燈火通明
本文字數:1003,閱讀時長大約 2 分鍾
導讀:從各方反饋看,本次滴滴系統崩潰屬于全面崩盤。不僅用戶端無法正常使用,司機端以及滴滴内網同樣出現了問題。
作者 |第一财經 陸涵之
11 月 28 日晚上 9 點左右,第一财經記者來到滴滴總部新橙海大廈。三座辦公樓依然燈火通明,滴滴員工陸續下班。
對于昨日、今日爲何出現網絡故障,多位下班的員工表示并不了解原因,但也有滴滴員工對記者表示," 聽說是機房挂了。" 該員工猜測更多與運維有關,因爲涉及穩定性。此外,有員工表示,很多公司領導仍沒有下班。
從員工的各方反饋看,本次滴滴系統崩潰屬于全面癱瘓。不僅用戶端無法正常使用,司機端以及滴滴内網同樣出現了問題。
截至發稿,滴滴用戶端的 App 基本恢複完畢,滴滴出行 App 目前可以下單,小桔充電、滴滴加油等關聯 App 也已修複,顯示爲正常的用戶界面。
司機端 App 在 11 月 28 日上午 10 點多恢複。北京地區的一位滴滴司機對第一财經表示," 下午司機端 App 恢複了七成,昨日數據仍然無法查詢。" 上述司機表示,11 月 28 日受司機端結算、定位、接單等功能故障影響,他白天選擇在家休息,在接單系統恢複正常後決定晚高峰出門跑單。
除了外部服務出現問題,從内部員工反饋看,服務系統崩潰時滴滴内網也處于崩潰狀态,員工無法正常使用内網相關服務。在 11 月 28 日下午,滴滴内網完成修複。
對于滴滴系統爲什麽會崩潰,滴滴目前尚未回應,僅針對 " 某司機收入超 690 億元 " 和 " 部分滴滴司機開始提現 " 話題作出回應。
滴滴表示,有網友稱 " 某司機收入超 690 億元 ",并曬出一張賬戶餘額截圖,經過核查,證實該圖是 PS 僞造的謠言。懇請大家不造謠、不傳謠。此外,有報道稱部分司機開始提現,司機稱怕系統出問題自己賬号出問題被注銷。經核查,目前司機賬号及提現功能一切正常,廣大司機師傅們無須擔心。滴滴平台是每周二提現,服務等級高的司機可每天提現。據多個司機群聊天顯示,不少滴滴司機都表示自己提現成功了。懇請大家不造謠、不傳謠。另外,司機師傅們關心受影響的相關獎勵、費用異常、口碑值(包括出行分)等,也會盡快陸續恢複和補發。
本次滴滴系統崩潰時長爲曆次故障之最。對此,有業内猜測,這或許與滴滴容災沒做好有關。此外,也不排除遭受外部攻擊的可能。還有人猜測,從波及範圍看,涉及多層面系統崩潰,更可能是底層基礎服務出現了問題,運維團隊需要更長時間排查修複。
延伸閱讀:
11 月 27 日晚,滴滴 app 全國大面積 " 崩潰 "
11 月 28 日," 滴滴崩了 " 事件影響持續。滴滴官方回應稱 " 由于系統故障,滴滴 App 服務出現異常,經技術同學緊急修複,目前正陸續恢複中。" 但對于系統故障的具體原因——究竟是内部業務調整還是外部攻擊,滴滴官方并未給出明确解釋。
對于滴滴閃崩背後的原因推測,360 安全專家對第一财經記者分析稱,可能有幾個方面原因:一是系統更新升級過程中出現了編程錯誤、邏輯錯誤或未處理的異常情況。一般情況下,互聯網廠商發布更新都會在晚上,與滴滴發生故障的時間也能對應,當然業務升級維護是放量更新,但現在滴滴全平台、全業務都故障了,說明肯定是他 " 家裏 " 的問題。
二是服務器故障:比如滴滴的核心機房,可能恒溫恒濕環境出了問題,導緻服務器過熱、CPU 燒了,或者核心機房所在地發生了自然災害如地震、洪水、海嘯等,這種情況下,硬件需要重新更換,裏面的服務軟件也需要重新配置,恢複周期相對較長,但這個可能性比較小。
三是第三方服務故障:滴滴的後台架構可能使用了第三方服務或者組件。如果第三方出了問題,也可能會影響滴滴的正常運行。但出于安全性考慮,滴滴可能不會将核心業務托管給第三方,這個可能性也較小。
四是攻擊層面,如 DDOS 攻擊:黑客采用分布式拒絕服務的方式,搶占了大量的服務器資源,導緻用戶無法訪問,但這點的可能性不高,因爲 DDos(分布式拒絕服務攻擊)不會導緻數據出錯,而且滴滴從體量上來說,有足夠的成本和能力去對抗。或者其他網絡攻擊:某些黑灰産團夥可能會通過拖庫盜取數據,然後在暗網上售賣,在這個過程中不排除會有誤操作,破壞了數據庫。
以及有可能發生了網絡攻擊黑客對滴滴的底層數據、業務代碼進行了加密。據披露現象,用戶的賬單和打車數據都算錯了,存在一定可能是滴滴爲了避免更大損失主動暫停了業務。近期勒索攻擊事件屢屢發生,月初,某金融機構就是因爲遭遇勒索病毒攻擊造成了業務停擺。
但網絡安全公司專家孫甫對記者表示,如果是來自外部的黑客攻擊,公司一般會在第一時間進行聲明。他的猜測更集中于滴滴發生了内部重大業務調整,或有新業務接入原系統,但沒有做好預案,導緻關聯業務或關聯系統出現重大故障,這是大公司系統故障最常見的原因。
小紅書上各地用戶的吐槽 圖 / 小紅書
其他可能性包括員工違規操作或誤操作,導緻整個系統停産;員工誤操作或違規操作導緻内部系統或系統端口意外暴露,如員工爲了方便遠程辦公,把 3389、445 等端口露在外,端口一旦暴露,就有可能打破一切隔離措施;或内鬼惡意行爲,如前兩年曾發生過微信供應商微盟的核心工程師因對公司不滿,人爲删除大量的用戶數據,導緻系統一度停止服務,很多數據最終也無法恢複。
但需注意的是,此次滴滴事故爆發後,滴滴體系産品全線崩潰,并未發生容災設備及時響應進行輔助的情況。容災(Disaster Tolerance)是指在自然災害、設備故障、人爲操作破壞等的災難發生時,在保證生産系統的數據盡量少丢失的情況下,保持生存系統的業務不間斷地運行。
一位網絡安全領域人士對記者表示,理論上技術平台會配有容災設施,一旦數據中心、系統遭遇攻擊或不可控外部問題,容災系統應該自動啓用,并繼續提供不間斷的服務。但從滴滴此次事故的表現來看,似乎雲服務方面并沒有提供充分的容災支持。
滴滴系統采取多雲服務架構,合作方包括騰訊雲、阿裏雲,以及滴滴自有雲計算服務等。騰訊雲官方頁面案例内容顯示:2015 年攜程、藝龍事件之後,網絡數據安全再次成爲熱議話題,在滴滴打車的發展過程中,也曾遭遇過多次黑客攻擊。滴滴打車聯合創始人兼 CTO 張博談到,目前滴滴打車大部分服務都在騰訊雲上,在安全方面,目前,除了滴滴内部有嚴格的安全控制外,外部主要是通過騰訊雲來幫助實現的。比如黑客攻擊,尤其是 DDos 攻擊,騰訊雲有一個 " 宙斯盾 " 安全體系,可以扛下 100G 以上流量的 DDOS 攻擊,這對于一般企業來說,都是很難具備的。在這一點上,騰訊雲可以說爲滴滴提供了很好的安全保障。
另外,滴滴雲計算有限公司于 2018 年 4 月 18 日成立。法定代表人萬偉星,位于北京市,是一家以從事互聯網和相關服務爲主的企業。企業注冊資本 5000 萬人民币。
滴滴雲計算有限公司于 2018 年 4 月 18 日成立 資料圖
孫甫對記者表示,容災未能啓動側面驗證他所猜測的主要事故原因——自身業務調整引發故障。因爲災備是在系統遭到破壞或攻擊時,原有系統被迫停掉,災備系統才得以啓用。但如果是新業務接入,或是内部人員的違規操作,結果就是整個系統都亂了,不知道從哪裏進行恢複。打個比喻的話,就是大樓有備用電源,停電時是可以救急,但如果是維修工由于誤操作或違規操作将一個樓層的電纜給剪斷了,或者是正在對某個樓層的線路進行重新鋪設——也就是所謂的企業業務調整,這樣的情況下即使将備用電源啓動了,整個樓層照樣停電。
更何況,孫甫強調稱,災備系統的切換并不像外界所想象的可以絲滑無縫。在很多情況下,災備系統隻能保證系統有救,但不是一定能瞬間得救。
另外,孫甫對記者表示,從已有報道所披露的信息來看,滴滴出現了很多系統 " 紊亂 " 狀态,如價格混亂,一呼多應等,而不僅僅是簡單的崩潰或停服。這說明系統不是完全不能運行,隻是運行得不對,之後又因爲系統的校驗機制導緻大量出錯被發現,從而又崩潰。如果是業務調整或新業務接入,其中沒有做好充分的上線測試,或者上線後發生某些意外,就有可能造成上述情況。
除了主要猜測的自有業務調整原因,孫甫表示,滴滴事故不太可能涉及企業沒做物理隔離或黑客隻打應用層的原因。一方面,如果一家公司沒做物理隔離,不用等别人攻擊,網絡蠕蟲、掃描器等簡易攻擊就可以随時摧毀一家公司,對于一家這麽大體量的公司來說,這麽大的隐患不太可能一直隐藏。至于黑客攻擊層面,孫甫表示," 黑客攻擊哪裏管你是哪一層,哪裏有漏洞就打哪裏。"
責任編輯:胡淑麗