老差友應該都知道互聯網檔案館(下稱 archive.org ),咱介紹好幾次了。
還不知道的兄弟自己找找原因,是不是不夠帥,沒早關注帥逼公衆号:差評。
archive.org 由 Brewster Kahle 創辦,是一個非營利性的數字圖書館。
從 1996 年起,它每隔一會就會抓取各種各樣的網頁、視頻、圖片等資料,保存在 " 圖書館 " 。
目前圖書館裏存了 8660 億個網頁,1200 萬個視頻,490 萬張圖片和 110 萬個軟件程序。
點進網站,從 MJ 演唱會視頻,到 1999 年測試版的 Google 搜索頁面,再到你多年前送給鳳姐的表白,都會重新進入你的世界。
不過,今天故事的主角不是這位,而是另一個檔案館 archive.today (今日檔案 )。
archive.today 于 2012 年創辦。從名字和功能上看,它類似于archive.org ,可以備份網頁。
但它倆之間還是有個很大區别——
archive.org 類似于搜索引擎,絕大多數資料都是爬蟲自動抓取的。所以一直以來他們都遵守 robot.txt 。
robot.txt 是互聯網裏通行的一個君子協議。通過它,網站可以告訴搜索引擎,哪些東西它不能抓。百度裏搜不到微信文章和淘寶商品,就是因爲 robot.txt 。
但 archive.today 不遵守這個協議,即便網站不讓它存,它也會霸王硬上弓。
不過,這也不能說 archive.today 缺德。
因爲它并非自動抓取别人的網站,隻有用戶上傳某個網頁時,它才會抓取。
存檔 ing..... ▼
目前,archive.today 已經存儲了 5 億個網頁。雖然遠不及 archive.org ,但這種大家主動尋求備份的網頁,相對來說,它的意義和價值會更大點。
就像三年前,有位吳彥祖備份了差評的官網,明顯是肯定了咱們,咳咳。
除了可以備份網頁,因爲技術上一些細節,人們發現 archive.today 有另外一個妙用:
翻越付費牆。
對于那些訂閱費動辄幾百美刀的西方媒體,很多第三方世界國家的讀者不光無力支付,甚至壓根沒有匹配的支付方式。
但自從這個功能被發現後, archive.today 成爲了大家心照不宣的 " 白嫖 " 工具。
隻要有好心人存檔了付費文章和有版權的學術論文,後來的讀者都可以看到。
還有不少人基于這個網站做了一些小工具,讓白嫖變得更簡單。
編輯部偶爾也用過它,有一些東西在這上面确實比較好找。
雖然 archive.today 管理員曾說過 , 翻閱付費牆不是網站本意,隻是技術問題上産生的一些 " 意外 " 。
但想到他願意冒着被訴訟風險默許這個情況存在,甚至教讀者一些白嫖技巧。。。
差評君更願意相信,他就是一個知識自由的支持者。
根據網站裏問答紀錄,2013 年的時候,存儲這些檔案每月要在服務器上花 300 歐元。
2014 年,随着網頁越來越多,服務器成本升到了 2000 美元 / 月。
2016 年,這個數字漲到了 4000 美元。
那問題來了,這些服務器的錢誰出呢?
我們知道,archive.org 的背後是一家組織,總部在舊金山。它的年度預算有 1000 萬美元,這些錢來自于它的合作贊助商和基金會。
但 archive.today 管理員說,這個網站全靠自己。
盡管網頁在移動端開始投放廣告,并且管理員也開放了捐贈通道,但這些隻夠 14% ~ 20% 的成本。
也就是說這個網站的管理員,每天在面臨版權訴訟的風險下,既要維護網站日常運營,還有隔三差五回答網友各種問題,最後每個月還得掏出幾千美金的服務器租金,隻爲維持這麽一個免費網站?
并一路堅持了十多年?
這個賽博菩薩到底是誰啊?
報以好奇和敬意差評君去網上搜了一下,但發現 archive.today 的背後,是一個迷。
維基百科上關于經營者的身份,隻寫了一句話:
事實上,沒人知道他的真實身份。
半年前一位悉尼的工程師 Jani 花了很大精力,想看看 archive.today 幕後神秘人到底是誰。
首先,網站能追溯到的第一個曆史紀錄是在 2012 年 5 月 16 日,網站一開始的域名叫 archive.is。
由一個來自捷克布拉格,名叫 " Denis Petrov " 的人注冊。
Denis Petrov ,是第一個線索。
但随着調查, Jani 察覺 Denis Petrov 可能是假名。
一來這是很常見俄羅斯名字,光是在領英裏就有 242 個同名好哥們。
二來 Jani 發現同樣的名字和聯系方式還注冊了一堆亂七八糟的域名。
後來 Jani 還驗證了很多帶有這個名字的網站,如 denispetrov.com、denis.biz 、petrov.net。
但大部分網站都已經停運了,唯一能打開的那個,隻是一位紐約程序員的博客,早在 2011 年就已停更了。
Denis Petrov 這個線索似乎斷了。。。
和 Jani 一樣,這些年也有其他網友探索過這位神秘人,但大多數人都停在了 " Denis Petrov " 的階段。
倒是 2020 年,有另一個網友找到了神秘人的重要線索。
他發現 archive.today 裏所有領英網的備份,都基于同一個登錄賬戶。
這裏我解釋一下,諸如領英、 Instagram 這類應用,都要求登錄賬号後才能浏覽詳情。我猜測神秘人是用了自己賬号 cookie ,來抓取領英的網頁内容。
順着線索,他找到了一個名爲 Masha Rabinovich 的領英賬号。賬号顯示,她有德國柏林某個大學的學士學位。
如果這個頭像确實是本人,那說起來你可能不信,這個神秘人居然是一個留着波波頭,有點娃娃臉的女生。
手動碼一下
另外這個頭像應該被删了,登錄後就不可見 ▼
有人把 Masha Rabinovich 放進谷歌搜索,發現了一個 2012 年帖子,基本實錘 Masha Rabinovich 就是那個神秘人。
當時一位昵稱爲 masharabinovich 用戶發帖子,吐槽自己網站 archive.today 被惡意舉報,進了黑名單。
既然名字 " 确認 " 了,接下來就是網友們發揮福爾摩斯天賦的時候了。
他們發現 Masha Rabinovich 曾多次參與了維基詞條的編輯,最多的就是 " 俄羅斯護照 " ;
名字中的 " Masha " ( Маша )是瑪麗亞的常見俄語說法, Rabinovich 是德國猶太人的姓氏;
另外 archive.today 用的分析引擎是俄國的,回答問題時會使用一些大寫詞彙,可能有德國背景。
基于這些信息,網友推斷出,神秘人大概是一個曾在德國留學的俄羅斯人,且學識淵博,英語流利。
至于 " Masha Rabinovich ",還不一定是其真名。也許和 Denis Petrov 一樣,隻是神秘人在網絡世界的馬甲之一。
雖然大家仍無法确定神秘人真實身份,但差評君覺得點到爲止,他隐藏起來一定有自己的原因。
相比起來,我認爲神秘人的個性更值得一提。
在 archive.today 的網站上,有一個基于 Tumblr 問答服務的頁面。
通過這些 Q&A ,我推斷神秘人是一個偏執且不喜歡被吹捧的技術極客。
首先就是我們前面說的,不遵守 robot.txt 。
其實這是個非常激進的行爲,很容易被以版權法提起訴訟,或者在道德上落下風。
像 archive.org 後來也推出了手動備份的功能,但用戶上傳網頁後,它還會檢查一遍 robot.txt ,如果網站不同意被抓取, archive.org 還是會删除的。
但 archive.today 可不管這些。
我覺得這麽做,是因爲他創建網站的初衷就是尊重曆史,保存曆史。
他也說過,網站即便存檔了假新聞,也不會删除。
因爲 archive.today 從來不是權威的參考來源,而是曆史的見證。它隻是在告訴大家,在某個時刻,互聯網上某一處存在過這樣的頁面。
這一點差評君也認可,曆史不是紀錄大事記就夠了,它是由無數細節拼湊起來才夠完整。
雖然 archive.today 看似有點極端,但也不是所有網頁都一視同仁。如果存檔确認爲恐怖分子的宣傳網頁、兒童色情等,收到舉報後他也會删除。
另外神秘人很低調,從不希望自己被擡得很高。
當網友把他和 archive.org 放在一起誇獎時,他都會否定,說自己沒有想保存整個互聯網的目标,目前隻有 archive.org 的百分之一,且運作方式不同。
差評君覺得,這是每一個老闆都要學習的不畫大餅精神。
他知道自己一個人 / 團隊的能力有限,做不到那麽宏大的目标,一開始就沒設想過這麽多。
但 12 年了,網站幫大家存檔了五億多個網頁,遇到了無數難題,并依舊堅持免費。
我覺得他和 archive.org 一樣,都是令人尊敬的。
不過最近的情況,讓差評君覺得網站的生存環境不容樂觀。
因爲神秘人回答網友問題的頻率明顯變低了,從兩年前月均回答 40 個問題,到現在隔了好幾個月才回答 2 個問題。
他也曾說網站經常被 DDOS ,時不時癱瘓。在互聯網各個角落也有 " 版權仇家 " 在搜尋他的真實信息。至于訴訟,那也是遲早的事情。
結合曆史來看,這種情況其實是必然的。
所有支持知識自由的網站,從archive.org 到 Sci-hub ,他們都遭遇過版權法的鐵拳或者域名的封鎖。
互聯網檔案館因爲把 140 萬實體書掃描出來,不限量租借給讀者,被四家出版商聯合起訴,還有六千名作家簽了請願書支持這場訴訟。
Sci-hub 因爲把 8000 多萬學術論文爬取下來,免費分享給所有學者,在多個國家被出版巨頭起訴。創始人 Alexandra Elbakyan 爲了躲避各國引渡風險,在世界各地躲藏。
我知道,有很多人都抵制他們這種行爲,認爲盜版就是犯罪,不是解決問題的方式。
但世界不是非黑即白, " 盜版 " 就一定不被提倡嗎?
這個問題幾十年來一直争論不休。
90 年代,互聯網上各種盜版電影和音樂橫飛、破解和盜版軟件橫行。明明是赤裸裸的侵權,但卻沒有明确的法律能治一波亂象。
在這樣的背景下,《 數字千年法案 》登場了。它以刑事犯罪立法的形式,希望在網絡這塊無主之地上,重振版權保護的權威。
毫無疑問,它保護了無數原創者的權利,讓人們獲得了相應的回報,也讓他們的心血沒有被盜版商肆意踐踏。
可《 數字千年法案 》在保護版權的同時,似乎也催産了一些版權流氓到處碰瓷,讓很大一批人也難以接觸到優秀的作品。
如何做到版權和知識自由兼顧,很難很難。
" 科學和教育資源,就不應該有所謂的知識産權和資本運作的存在 " 這是 Sci-hub 傳達的理念之一。
從 archive.org 到 Sci-hub 再到 archive.today ,他們把無法翻越的信息壁壘,難以打破的知識桎梏,都變成一個簡單的回車鍵,讓我們看到了世界的另外一種可能。
不管怎麽說——
Brewster Kahle 、 Alexandra Elbakyan 、神秘人以及所有那些不追求利益去捍衛知識自由的人,他們都值得我們的尊重和敬佩。