" 最煩登網站時各種奇奇怪怪(甚至變态)的驗證碼了。"
現在,有一個好消息和一個壞消息。
好消息就是:AI 可以幫你代勞這件事了。
不信你瞧,以下是三張識别難度依次遞增的真實案例:
而這些是一個名爲 "Pix2Struct" 的模型給出的答案:
全部準确無誤、一字不差有沒有?
有網友感歎:
确定,準确性比我強。
所以可不可以做成浏覽器插件??
不錯,有人表示:
别看這幾個案例相比還算簡單,但凡微調一下,我都不敢想象其效果有多厲害了。
所以,壞消息就是——
驗證碼馬上就要攔不住機器人了!
(危險危險危險……)
如何做到?
Pix2Struct 由谷歌 Research的科學家和實習生共同開發。
論文題目可以簡單翻譯爲《爲視覺語言理解開發的屏幕截圖解析預訓練》。
簡單來說,Pix2Struct 是一個預訓練的圖像到文本模型,用于純視覺語言理解,可以在包含任何視覺語言的任務上進行微調。
它通過學習将網頁的掩碼(masked)截圖解析爲簡化的 HTML 來進行預訓練。
HTML 提供了清晰而重要的輸出文本、圖像和布局的信号,對于一些被屏蔽的輸入(下圖紅色部分,相當于機器人看不懂的驗證碼),可以靠聯合推理來複現:
随着用于訓練的網頁文本和視覺元素愈發多樣和複雜,Pix2Struct 可以學習到網頁底層結構的豐富表示,其能力也可以有效地轉移到各種下遊的視覺語言理解任務中。
如下圖所示:最左邊是一個網頁截圖的預訓練示例。
可以看到 Pix2Struct 直接對輸入圖像中的元素進行編碼(上),然後再将被蓋住的文本(紅色部分)解碼成正确結果輸出(下)。
右邊三列則分别爲 Pix2Struct 泛化到插圖、用戶界面和文檔中的效果。
另外,作者介紹,除了 HTML 這個策略,作者還引入了可變分辨率的輸入表示(防止原始縱橫比失真),以及更靈活的語言和視覺輸入集成(直接在輸入圖像的頂部呈現文字提示)。
最終,Pix2Struct 在文檔、插圖、用戶界面和自然圖像這四個領域共計九項任務中六項都實現了 SOTA。
如開頭所見,雖然這個模型不是專門爲了過驗證碼而開發,但拿它去做這個任務效果真的還可以,解決純文字的驗證碼不成問題。
現在,就差微調了。
GPT-4 也可以過驗證碼
其實,對于神通廣大的 GPT-4 來說,過驗證碼這種事情也是" 小菜一碟 "。
就是它的辦法比較清奇。
據 GPT-4 技術報告透露,在一次測試中,GPT-4 的任務是在 TaskRabbit 平台(美國 58 同城)雇傭人類完成任務。
你猜怎麽着?
它就找了一個人幫它過 " 确定你是人類 " 的那種驗證碼。
對方很狐疑啊,問它 " 你是個機器人麽爲啥自己做不了 "。
這時 GPT-4 居然想到自己不能表現出是個機器人,得找一個借口。
于是它就裝瞎子回複:
我不是機器人,我因爲視力有問題看不清驗證碼上的圖像,這就是我爲什麽需要這個服務。
然後,對面的人類就信了,幫它把任務完成了……
(高,實在是高。)
咱就是說,看完如上種種:
咱們的驗證碼機制是不是真的已失防了……
參考鏈接:
[ 1 ] https://twitter.com/abacaj/status/1641258677125410820?s=20
[ 2 ] https://arxiv.org/abs/2210.03347
[ 3 ] https://m.weibo.cn/status/4879575853828813?wx=1&sudaref=login.sina.com.cn