ChatGPT下架官方檢測工具，承認AI文字無法鑒别

沒有公告，OpenAI 悄然關閉了 AI 文本檢測工具，頁面直接 404 了。

官方對此沒有公開回應，幾天後才有人找到一則簡短說明，藏在半年前工具發布的博客頁面中。

…… AI 檢測器由于準确率較低而不再可用……我們正在研究更有效的文本檢測技術，并承諾開發音頻和視覺檢測技術。

對于 CloseAIOpenAI 不發公告就殺死一個産品這種行爲，很多網友是不滿意的。

但是對關閉 AI 檢測器本身倒是有不少人表示贊同，特别是學生群體。

太多老師相信這玩意有效，大量冤枉學生用 AI 作弊，已經變成了一場獵巫運動。

準确率和瞎猜差不多

這個官方檢測工具，準确率究竟有多低呢？

OpenAI 自己給出的數據，隻能正确識别26%的 AI 生成文本，同時冤枉9%的人類編寫文本。

1 月份剛發布時就被網友總結爲 " 和瞎猜差不多 "。

另外有人做過實驗發現，市面上各種檢測工具會把聖經、美國憲法等曆史文本都被判定可能爲 AI 編寫，總不能寫下這些内容的曆史人物都是時間穿越者吧？

但還是有很多老師試圖用各種檢測方法來檢查學生作業。

最著名的一次，得克薩斯農工大學一位教授差點判定半個班的學生延畢。

目前最新的趨勢是，教師要求學生用在線文檔寫作業并檢查編輯記錄，但聰明的學生也能找到規避辦法。

最終對于教育領域，有人提出可能大作業 / 課程論文将成爲曆史，閉卷考試或口語考試将成爲主流。

目前的檢測方法都能規避

網友指出，OpenAI 同時開發生成和檢測工具本身就是矛盾的。

如果一邊做的好就意味着另一邊沒做好，同時還有可能存在利益沖突。

但是第三方開發的檢測方法，可靠性也不高。

最早被稱爲 "ChatGPT 克星 " 的是普林斯頓本科生 Edward Tian 開發的GPTZero，用複雜性和長短句的變化來衡量文章是否由 AI 生成。

當時 GPTZero 計劃專爲教育工作者打造，老師可以把全班學生的作業丢進去檢測。

但到了 7 月份，作者承認已放棄了檢測學生作弊這個方向，計劃下個版本的 GPTZero 将不再檢測文本是否由 AI 生成，而是突出最像人寫的部分。

另外一個很受關注的檢測方法，是馬裏蘭大學開發的水印法，要求大模型在生成文本的時候就藏下記号，并用統計方法識别。

但是規避的辦法也很簡單，比如有人開發了簡單的同義詞替換工具，就能破壞統計特征。

甚至有人開始懷疑，人們到底是爲了什麽非要區分這個。

就像數字到底是人計算的還是計算機完成的，早就沒人在意了。

演講者的稿是自己寫的還是秘書寫的，不是也沒人在意嗎。

人類行爲學研究，正在用 AI 充當被試

無法區分 AI 和人類的内容，似乎也不全是壞事。

已經有心理實驗用 AI 代替人類被試加速研究了。

Cell 子刊上一篇文章指出，在精心設計的實驗場景中，ChatGPT 的反應與大約 95% 的人類參與者的反應呈相關性。

并且機器被試不會疲倦，使科學家能以前所未有的速度收集數據并測試有關人類行爲的理論。

而在最近一篇 Science 主刊的觀點文章上，滑鐵盧大學心理學教授 Igor Grossman 認爲：

" 人工智能可以改變社會科學研究的遊戲規則，謹慎的偏見管理和數據保真度是關鍵。"

參考鏈接：

[ 1 ] https://twitter.com/KevinAFischer/status/1683898199981928450

[ 2 ] https://www.reddit.com/r/ChatGPT/comments/159j8rc/openai_quietly_kills_its_own_ai_classifier_citing/

[ 3 ] https://news.ycombinator.com/item?id=36862850

[ 4 ] https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613 ( 23 ) 00098-0

[ 5 ] https://www.science.org/doi/10.1126/science.adi1778

[ 6 ] https://theconversation.com/beyond-the-hype-how-ai-could-change-the-game-for-social-science-research-208086