俄羅斯第一大科技巨頭,這回遇上了大麻煩:
44.7GB 源代碼,全被洩露到了網上。
什麼概念?
就是這家名為Yandex的公司,幾乎所有主要服務的源代碼都被挖了個底掉……
要知道,在俄羅斯,Yandex 不僅幹着搜索引擎的活兒,還把俄國老百姓購物、打車、訂外賣、租車這一連串生活服務都給包圓了。
簡單來說,約等于俄版百度 + 淘寶 + 美團 + 滴滴。
這麼大個事兒,自然引起了全世界網友的圍觀。
但就在衆人紛紛猜測這又是哪家黑客手筆之際,Yandex 的聲明卻有些令人大跌眼鏡:
我們沒有被黑,就是被前員工給賣了……
44.7GB 源代碼遭洩露,代碼被扒了個底朝天
具體來說,洩密鍊接最早出現在了一個黑客論壇上。
洩密者稱,這份 44.7GB 的 Yandex 代碼庫,包含該公司 2022 年 7 月以前,除反垃圾郵件規則之外的所有源代碼。
這些被洩露出來的代碼信息量到底有多大?
看看網友們熱火朝天扒出來的細節就知道了……
Yandex 不是以搜索引擎起家,常被稱作 " 俄版百度 "/" 俄版谷歌 " 嘛,那就先以搜索引擎部分的代碼為例。
一位名叫 Alex Buraks 的老哥就深扒了下 Yandex 搜索引擎的排名規則,還戲稱這對理解谷歌 SEO(搜索引擎優化)有很多有用的信息。
畢竟 Yandex 和谷歌的搜索結果有 70% 的匹配度,不少人認為其搜索技術用的就是谷歌同款:如 PageRank、BERT 等。
(掌握了 Yandex 的規則不就相當于透了谷歌排名算法的家底,手動狗頭)
目前已經有大批吃瓜群衆來圍觀,甚至 Alex Buraks 的這條線程曾在谷歌搜索 "yandex" 中排名第 8。
有趣的是,在 Yandex 的排名因素中,排在第一個的就是PageRank。
Buraks 還直接列出了 Yandex 的 10 個排名因素:
(1)鍊接的創建時間;(2)流量和有機流量的百分比;(3)URL 中的數字不利于排名;(4)URL 中的斜杠不利于排名;(5)負面情緒過重的 PageRank=0;(6)主機可靠性;(7)" 維基百科 " 還單獨列了一個因素;(8)用戶行為:點擊率,跳出率等;(9)文件年齡與上次更新日期;(10)所有查詢域名的平均位置……
當然這還隻是其中的一部分,Buraks 表示後續還會繼續分析。
除了 Alex Buraks,也有不少營銷大師深扒了 Yandex 的排名因素,甚至有人都詳細整理出了完整的1900+個排名因素。
值得一提的是,在各路大神扒代碼的過程中,Yandex 搜索引擎的一些 " 潛規則 " 也被擺上了台面。
就比如說加拿大黑客 Aubrey Cottle 就在代碼中發現了 Yandex 是容忍種族歧視的。
還有網友在代碼中發現,Yandex 的廣告投放中,普通廣告和色情廣告是分開計算的。
官方聲明:沒有被黑,是前員工洩密
這事兒一出,很快還有一份詳細的洩密文件目錄被整理出來放在了 GitHub 上。
作者是一位名叫 Arseniy Shestakov 的軟件工程師。據他評估,這些源代碼确實涉及了 Yandex 的所有主要服務。
包括:
搜索引擎和索引機器人
地圖服務
AI 語音助手
打車服務
廣告服務
郵件服務
存儲服務(類似百度網盤)
電商服務(類似淘寶)
旅遊服務
雲服務
還包括在線協同辦公、支付、數據分析等等業務。
不過,洩露内容并不包括用戶數據等敏感信息。
Arseniy Shestakov 總結了幾個關鍵細節:
洩露出來的主要是 git 存儲庫裡的源代碼,不包含 git 曆史記錄
所有文件日期均可追溯至 2022 年 2 月 24 日
大部分軟件都沒有預先編譯好,隻有少數例外
除了一些例外,沒有預先訓練好的機器學習模型
△Yandex 辦公樓
事情鬧得這麼大,Yandex 官方也坐不住了,很快發表聲明表示:其實我們并沒有被黑,是前員工出賣了我們!
Yandex 沒有被黑。我們在公共領域發現了洩露自内部存儲庫的代碼片段,但其内容與 Yandex 當前使用的代碼版本并不相同。
存儲庫是用來存儲和處理代碼的工具。大多數公司都采用這種方式來使用代碼。
代碼庫并未存儲個人用戶數據。
我們正在進行内部調查,但并沒有發現該事件給用戶數據和平台性能帶來了任何威脅。
Yandex 倒是信誓旦旦,但外部的專業人士卻有不同看法。
據 bleepingcomputer 消息,前 Yandex 技術專家 Grigory Bakunov 對此事做出了回應。
他認為,這次代碼洩露确實不會對用戶的隐私或安全構成直接風險,也不會直接威脅到 Yandex 的專有技術。
不過一些文件仍可能會暴露正在運行的服務,比如說 "blacklist.txt",Bakunov 還稱:
盡管洩密的部分不涉及敏感數據,但黑客針對性利用代碼中的安全漏洞,隻是時間問題;
(BTW)雖然 Yandex 官方回應洩露的代碼與公司工作服務中使用的當前代碼不同,但相似度可能高達 90%。
洩露代碼目錄:
https://gist.github.com/ArseniyShestakov/53a80e3214601aa20d1075872a1ea989
參考鍊接:
[ 1 ] https://www.bleepingcomputer.com/news/security/yandex-denies-hack-blames-source-code-leak-on-former-employee/
[ 2 ] https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
[ 3 ] https://twitter.com/Kirtaner/status/1619007274202329091
[ 4 ] https://twitter.com/dom_woodman/status/1619028740201398274
[ 5 ] https://twitter.com/alex_buraks/status/1618988134850785280