「ChatGPT克星」升級：老師可以把全班作業丢進去檢測了！華人作者：免費用

「ChatGPT 克星」，升級了！

沒錯，就是之前華人小哥 Edward Tian 所打造出來的那個GPTZero，幾秒内就能摸清文字是人類還是 AI 寫的。

而時隔近一個月，小哥所推出的版本名叫GPTZeroX，并且他還說：

這是專門為教育工作者打造的 AI 模型。

消息一出，立即吸引了大批網友湧入，一天之内便有 40 萬的訪問量和 220 萬的服務請求。

那麼這一次，這位「ChatGPT 克星」又帶來了哪些新能力？

混寫也能測，還支持 Word 等格式

升級的一大特點，就是 GPTZeroX 可以檢測出來 " 人類 +AI" 混寫的文字内容。

例如我們先把一段人類寫的新聞丢進去檢測：

GPTZeroX 在短短幾秒鐘時間内，非常迅速的給出了答案：

Your text is likely to be written entirely by a human.

你的文本很可能完全是由人寫的。

接下來，我們再把一段 ChatGPT 寫的文字，丢進剛才那段新聞的後邊，來一場混合檢測：

這一次，GPTZero 給出的回答是：

Your text includes parts written by AI.

你的文本一部分是由 AI 編寫的。

并且 ChatGPT 生成的内容還會用黃色高亮标記出來。

小哥對此表示：

這是教育工作者一直想要的一個關鍵功能。

但老師們檢查學生作業的時候，一段一段的把文字複制粘貼進來也相當繁瑣的工作了。

于是乎，這位小哥還貼心地推出了另一個新功能——可批量導入文件，支持 Word、PDF 和 TXT 等格式。

并且網站在介紹這個功能時，是這麼描述的：

除此之外，為了防止服務發生崩潰，小哥還搞了一個 Python API，是已經完成壓力測試的那種。

最後，小哥還貼心地說了一句：

我承諾，本網站對個體教師和教育工作者，保持免費！

怎麼做到的？

它主要靠"perplexity"，即文本的 " 困惑度 "作為指标來判斷所給内容到底是誰寫的。

NLP 領域的朋友們都知道，這個指标就是用來評價一個語言模型的好壞的。

在這裡，每當你喂給 GPTZero 一段測試内容，它就會分别計算出：

1、文字總困惑度

這個值越高，就越可能出自人類之手。

2、所有句子的平均困惑度

句子越長，這個值通常就越低。

3、每個句子的困惑度

通過條形圖的方式呈現，鼠标懸浮到各個方塊就可以查看相應的句子是什麼（這裡就兩塊，因為我此時輸入的測試内容就倆句子）。

之所以要繪制這樣的條形圖，作者也作出了解釋：

根據最新的一些研究：人類書寫的一些句子可能具有較低的困惑度（前面說過，人類的困惑度是比較高的），但随着繼續寫，困惑度勢必會出現峰值。

相反，用機器生成的文本，其困惑度是均勻分布的，并且總是很低。

除此之外，GPTZero 還會挑出困惑度最高的那個句子（也就是最像人寫的）：

反 ChatGPT 之風正盛

正所謂道高一尺魔高一丈，在 ChatGPT 盡顯十八般武藝之際，諸如小哥 GPTZero 一樣 " 用魔法打敗魔法 " 的工具、研究也在層出不窮。

例如最近斯坦福大學為了不讓學生借助 ChatGPT 之力來寫論文或作弊，推出了 " 反偵察 " 神器——DetectGPT。

這種方法既不需要訓練單獨的分類器，也不需要收集真實或生成的段落的數據集，是一種基于概率曲率的零樣本方法。

除此之外，就連 OpenAI 自己也聯合哈佛等高校機構聯合打造了一款檢測器：GPT-2 Output Detector。

作者們先是發布了一個 "GPT-2 生成内容 " 和 WebText（專門從國外貼吧 Reddit 上扒下來的）數據集，讓 AI 理解 "AI 語言 " 和 " 人話 " 之間的差異。

随後，用這個數據集對 RoBERTa 模型進行微調，就得到了這個 AI 檢測器。其中人話一律被識别為 True，AI 生成的内容則一律被識别為 Fake。

（RoBERTa 是 BERT 的改進版。原始的 BERT 使用了 13GB 大小的數據集，但 RoBERTa 使用了包含 6300 萬條英文新聞的 160GB 數據集。）

……

嗯，看來 ChatGPT 在大步向前邁的同時，順便還推動了 " 反 ChatGPT" 研究的發展。

參考鍊接：

[ 1 ] https://twitter.com/edward_the6/status/1619874139954905090

[ 2 ] https://arxiv.org/abs/2301.11305