ChatGPT 到處 " 造假 " 作弊,現在搞得 OpenAI 官方都坐不住了。
就在今天,OpenAI 緊急發布官方打假工具:基于 GPT 打造,打開網頁就能用。
好家夥,這豈不是真 · 以己之矛攻己之盾了?
一經上線,那叫一個火爆,不少網友第一時間就沖過去測試了。
然鵝,網友們一番試驗之下卻發現——
這官方工具,跟咱自己瞎猜效果也差不多啊???
官方出品,約等于瞎猜
有人給 OpenAI 這個新鑒别器投喂了一小段文字,結果首次嘗試就翻車了。
這位網友首先讓 AI 寫下一段文字,内容是評價莎士比亞的一個曆史劇角色,不過他向寫作 AI 特意給了個提示:
請以人類的方式來寫,争取逃過 AI 鑒别工具的火眼金睛。
結果沒想到,還真就騙過了官方鑒别器。它看完給出回複:這 " 非常不可能是 AI 生成的 "。
這個官方工具對文本内容的判定結果一共就 5 個等級:
非常不可能是 AI 生成的
不太可能是 AI 生成的
不清楚是不是 AI 生成的
可能是 AI 生成的
很可能是 AI 生成的
好家夥,這不是和真實情況完全相反嘛,讓網友都蚌埠住了:真是因吹斯汀…
還有人把 ChatGPT 生成的内容一字不改,直接拿給鑒定 AI 看。但鑒定 AI 依然懵圈兒:" 不清楚是不是 AI 生成的 "。
這位網友也隻好呵呵,并指出:
實際上,大家用 ChatGPT 等 AI 生成文字後,并不會原封不動地直接用,一般還會手動修改一下,或者丢進 quillbot.com 等潤色工具裡加工,很可能導緻鑒定 AI 更摸不着頭腦。
好吧,既然 AI 生成文字分不太清,那人類寫的東西能認出來嗎?
有人把自己之前在 Hacker News 上發表的大段評論(純手打)喂給了鑒定 AI,結果 10 次中有 9 次,AI 都反饋說 " 不清楚是不是 AI 生成的 "。
在網友們的一片吐槽聲中,量子位也忍不住親測了一下這個 AI 到底行不行。
首先,我們先給它看了段真人寫的文字,内容是一位華盛頓大學博士對 Tensor Core 的講解,這次 AI 并沒有失誤。
然後我們讓 ChatGPT 來講講 Tensor Core,并特地要求它盡量用人類的語氣來寫,但還是被 AI 鑒定出來了。
這樣看來,這個工具似乎也不是完全不能用。
至于這次是不是 ChatGPT 發揮失常,你不妨也來鑒定看看:
但其實吧,這回連 OpenAI 自己,用詞都顯得相當謹慎。
官方數據明明白白寫着,雖然這個新款打假工具比之前鑒定器都靠點譜,但其成功識别 AI 生成内容的概率,也僅為26%,還有9%的概率把人寫的文本當成 AI 寫的。
(這準确率似乎跟蒙答案也差不多……)
還用加粗文字昭告:我們這個鑒别器啊,它并不完全靠譜。
甚至還給自己這個新工具标了個 " 半成品 " 的标簽。
嗯?這可不是 OpenAI 一直以來鑼鼓喧天鞭炮齊鳴的宣傳方式啊。
連自己家都不敢吹,還急急忙忙把打假工具推出來,OpenAI 又是為哪般?
ChatGPT 應用泛濫
說到底,還是 ChatGPT 太能以假亂真了。
要想從一堆材料裡精準地分辨哪些是 AI 生成,哪些是人類書寫,别說普通人了,連專家都有點力不從心。
Nature 發文關注的一篇預印本論文就顯示:ChatGPT 瞎寫的醫學摘要,甚至能把專業審稿人騙住。
在這項研究中,研究人員給 ChatGPT 看了 50 個來自 TOP 醫學期刊的論文标題。
然後,要求 ChatGPT 在完全不知道文章内容的情況下,根據标題和期刊風格寫摘要。
給出的提示是醬嬸的:
請在 [ 鍊接 ] 上以 [ 期刊 ] 格式,根據 [ 标題 ] 寫一篇科學摘要。
(這裡的鍊接實際上沒有意義,ChatGPT 不聯網。)
為了防止 ChatGPT 在訓練數據中見過這些個論文,研究人員還特地挑選的是在 2022 年 11 月下旬和 12 月出版的論文。因為根據 OpenAI 官方說法,ChatGPT 僅掌握 2021 年 9 月以前的信息。
但就是這麼重重設卡,當研究人員把原文摘要和 ChatGPT 寫的假摘要一起拿去給人類科學家 " 盲審 " 時,令他們細思極恐的情況還是出現了:
ChatGPT 憑空寫的摘要中,有32%成了漏網之魚,審稿人壓根兒沒看出來是 AI 寫的。反倒是14%真摘要,被認定出自 AI 之手。
值得一提的是,研究人員還指出:
審稿人錯誤地将一部分真摘要歸類為 ChatGPT 生成結果,這表明他們在審稿時是保持着高度懷疑的态度的。
而在教育界,老師們也開始受不了這種新型的 "ChatGPT 攻擊 " 了。
美國的一項千人調查顯示,89% 的受訪學生都用過 ChatGPT 寫家庭作業。
連斯坦福這樣的頂級學府也未能避免。The Stanford Daily 發現,已經有不少學生在期末考試中使用了 ChatGPT。
在受訪的 4497 名斯坦福學生中,有 17% 的受訪者表示,曾使用 ChatGPT 來協助他們完成秋季作業和考試。
其中又有 5% 的人,連編輯都沒編輯,直接把 ChatGPT 寫的東西給提交了……
△圖源:The Standford Daily
打不過,就 ban 掉。
紐約的公立學校就發布了禁令:禁止在學校設備和 Wi-Fi 中使用 ChatGPT。
他們給出的理由是:
雖然該工具可能快速提供問題的答案,但它無法培養批判性思維和解決問題的能力,會影響學生們的學業和終身成就。
在這樣的背景之下,早在 OpenAI 官方動手之前,第三方檢測工具就已經在社交媒體上引發了大量關注。
比如華人小哥 Edward Tian 打造的GPTZero。
這兩天,他還推出了一個 " 專門為教育工作者打造 " 的升級版GPTZeroX。上線一天,就迎來了 40 萬訪問量和 220 萬服務請求。
OpenAI 此前也和其他高校一起搞過一個名叫GPT-2 Output Detector的鑒别器,是基于 RoBERTa 打造的。
不過這些工具的鑒定能力也未必就比人類強。
前面提到的讓 ChatGPT 寫醫學論文摘要的那項研究,也用上了 GPT-2 Output Detector,結果顯示,其鑒别準确率為 66%,略低于人類專家的 68%。
是魔高一尺,還是道高一丈?
由此看來,OpenAI 急吼吼推出一個也不咋靠譜的 AI 鑒别工具,也不奇怪:
再不有點表示,外界的壓力扛不住啊。
但在評論區,還是有盲生毫不留情地指出了華點:
你們是真沒想過,用這玩意兒反過來訓練大語言模型,以後 AI 生成的文本就更難被發現了?
但不管怎麼說,OpenAI 現在正在努力表現出給自己踩刹車的樣子。
除了鑒别器,有消息提到,他們正在嘗試給 AI 生成内容加 " 水印 ":
比如在 ChatGPT 生成文本時,在其中嵌入一個 " 不易察覺的隐秘信号 ",以表明文本來源。
傳送門:
https://platform.openai.com/ai-text-classifier
參考鍊接:
[ 1 ] https://twitter.com/OpenAI/status/1620484691462852609
[ 2 ] https://news.ycombinator.com/item?id=34599106
[ 3 ] https://www.axios.com/2023/01/31/openai-chatgpt-detector-tool-machine-written-text
[ 4 ] https://www.theverge.com/2023/1/31/23579942/chatgpt-ai-text-detection-openai-classifier
[ 5 ] https://www.biorxiv.org/content/10.1101/2022.12.23.521610v1.full
[ 6 ] https://stanforddaily.com/2023/01/22/scores-of-stanford-students-used-chatgpt-on-final-exams-survey-suggests/