你說 ChatGPT,它寫的東西逼真到傻傻分不清?
沒關系!
現在,它的" 克星 "來了——
一位華人小哥專門搞了這麼一個網站,專門鑒别文字到底是出自于 AI 還是人類。
你隻需要把相應的内容粘進去,幾秒内就能分析出結果。
比如這段:
它:" 妥妥的人類~"
至于這段:
它:" 就知道是 AI。"
如此神器一出,可謂迅速俘獲大家的芳心。
這不,直接把服務器都給擠崩喽(好在還有個備用的)。
這下,那些用 ChatGPT 寫作業的 " 熊孩子 " 也要慘啦?
是人還是 ChatGPT?GPTZero:看我的
這個網站名叫GPTZero。
它主要靠"perplexity",即文本的 " 困惑度 "作為指标來判斷所給内容到底是誰寫的。
NLP 領域的朋友們都知道,這個指标就是用來評價一個語言模型的好壞的。
在這裡,每當你喂給 GPTZero 一段測試内容,它就會分别計算出:
1、文字總困惑度
這個值越高,就越可能出自人類之手。
2、所有句子的平均困惑度
句子越長,這個值通常就越低。
3、每個句子的困惑度
通過條形圖的方式呈現,鼠标懸浮到各個方塊就可以查看相應的句子是什麼(這裡就兩塊,因為我此時輸入的測試内容就倆句子)。
之所以要繪制這樣的條形圖,作者也作出了解釋:
根據最新的一些研究:人類書寫的一些句子可能具有較低的困惑度(前面說過,人類的困惑度是比較高的),但随着繼續寫,困惑度勢必會出現峰值。
相反,用機器生成的文本,其困惑度是均勻分布的,并且總是很低。
除此之外,GPTZero 還會挑出困惑度最高的那個句子(也就是最像人寫的):
規則就是這些,接下來實際測一測。
測試 1:成功
首先來一段最新的英文新聞(目前還不支持測中文):
将它粘貼進測試框(需注意每句至少 5 個單詞,建議每段能有 10 個句子,結果會更準一些)。
很快,GPTZero 計算出這段文字的總文字困惑度為 27,句子平均困惑度為 171.2,每條句子的困惑度圖長這樣:
以及困惑度最高的句子的值為 476。
看這個結果,估計你也猜出了 GPTZero 的答案:
是人類寫的。
答對了。
測試 2:失敗
來一段 ChatGPT 的。
将内容粘貼進測試框,得出這段文字的總文字困惑度為 31,句子平均困惑度為 76.67,每條句子的困惑度圖長這樣:
以及困惑度最高的句子的值為 99。
看起來,每項困惑度值都和上面那段差距都挺大的,應該能猜出來是 AI 寫的吧。
不過遺憾的是,GPTZero 無法給出答案,還希望我們再多加一點文字試試。
顯然,這段話字數夠多,但句子不夠多,無法讓 GPTZero 一眼識破 ChatGPT 的 " 僞裝 "。
測試 3:成功
那我們再來一段 ChatGPT 的試試。
這回内容夠長,句子也夠多。
果然沒問題了,GPTZero 直接答對:
好像确實摸出來一點門道:
那就是字多的同時,句子數量也一定要多,至少 5 句,好讓 GPTZero 通過直方圖的分布加碼識别,最後的準确率就可以提高一些。
另外還需要提的是,我們發現在挑戰失敗的情況中,除了上面這種識别不出來的時候,也有直接識别錯誤的——
比如把 AI 寫的判斷成人寫的:
把人寫的新聞判斷成 AI 的:
這種情況按照上面所說的竅門,再多加點内容可能就能将結果扳回來。
(注意是可能哈,就上面這段新聞,我們把所有内容都粘進去了,它也說不行,還說要再多來點。)
普林斯頓華人小哥出品
創建該網站的,是一個 22 歲的華人小哥 Edward Tian,來自加拿大多倫多。
目前是美國普林斯頓 CS 專業大四學生,輔修認知科學和新聞學,對軟件工程、機器學習等有濃厚的興趣。
他現在微軟實習,曾在 BBC、貝靈貓等公司撰寫過科技稿件,還曾加入到地圖工具 Representable 的創始團隊。
學習期間,他曾來到清華大學參加為期四周的城市研究研讨會。
據他表示,這個應用程序是新年假期在咖啡店完成的。
之所以想要開發這款應用程序,簡而言之就是因為有太多 ChatGPT 炒作,人類應該知道有哪些是 AI 寫的文章。
目前仍處于準系統階段,預計在接下來幾周内改進模型和分析。
除此之外,他還透露,正在測試由學生撰寫的新聞文章數據集,并希望最終能發表論文。
更多 ChatGPT 殺手
事實上,也不隻有這位小哥看 ChatGPT 不順眼了。還有其他人類組織也相應開發了 AI 文本檢測器,AKA ChatGPT 殺手。
大體思路也都差不多,那就是 " 用魔法打敗魔法 ",用 AI 寫的東西來訓練新 AI。
前陣子,OpenAI 自己聯合哈佛等高校機構聯合打造了一款檢測器:GPT-2 Output Detector。
作者們先是發布了一個 "GPT-2 生成内容 " 和 WebText(專門從國外貼吧 Reddit 上扒下來的)數據集,讓 AI 理解 "AI 語言 " 和 " 人話 " 之間的差異。
随後,用這個數據集對 RoBERTa 模型進行微調,就得到了這個 AI 檢測器。其中人話一律被識别為 True,AI 生成的内容則一律被識别為 Fake。
(RoBERTa 是 BERT 的改進版。原始的 BERT 使用了 13GB 大小的數據集,但 RoBERTa 使用了包含 6300 萬條英文新聞的 160GB 數據集。)
另一位早年代表選手,也因為這次新進展再次被提及。
它就是 MIT-IBM 沃森 AI 實驗室的以及哈佛 NLP 實驗室開發的GLTR 模型。
它主要通過對文本進行統計分析和可視化,而用來檢測的是最初用來生成文本的相同 or 類似模型。目前主要支持 GPT-2 和 BERT 兩個模型。
由于輸出是模型知道的所有單詞排名,根據排名對文本每個單詞進行顔色編碼,前 10 名是綠色,前 100 名是黃色,前 1000 名是紅色,紫色則是不太可能出現的詞。
如果一段文本黃綠色過多,那麼這段文字主要是由 AI 生成的。
此番 GPTZero 再度亮相,不少網友驚歎:Incredible work!
但也有人表示,文本檢測器根本就是一場失敗的軍備競賽,他們的實際效果并不好。也阻擋不了 ChatGPT 的發展。
與此同時,還有網友探讨起關于「文章是否需要明确指示由 AI 還是人類編寫」的必要性。
有位詞曲創作者認為,這是有必要的,就像在看雜志時會标注 " 廣告 ",這應該是一個簡單的要求。
但有網友立即表示反對,為什麼要設置障礙?這就跟使用 PS 然後加上 Adobe 水印,對産品沒有任何益處。
對于這個問題,你怎麼看呢?
試玩鍊接:
https://etedward-gptzero-main-zqgfwb.streamlit.app/
參考鍊接:
[ 1 ] https://brackets.substack.com/about
[ 2 ] https://www.reddit.com/r/programming/comments/102hxlg/gptzero_an_app_to_efficiently_tell_if_an_essay_is/
[ 3 ] https://twitter.com/Marc__Watkins/status/1601746409203863553
[ 4 ] http://gltr.io/