學術造假有了GPT-4,變得更容易了。
這兩天,一篇刊登在 Nature 上的新聞表示,GPT-4 生成的造假數據集,第一眼還真不一定看得出來。
除非請來業内專家仔細對數據集進行評估,才能發現個中細節的不合理性。
這個新聞的來源是一篇發表在 JAMA Ophthalmology 上的論文。
論文使用 GPT-4 爲一項醫學學術研究生成了一個假數據集,發現它不僅能創造出看似合理的數據,甚至還能用來準确支撐錯誤的論文觀點。
對此,有網友表示十分理解:
大模型最重要的能力就是生成 " 看似合理的文本 ",因此它非常适合幹這活兒。
還有網友感慨:技術 " 有良心 " 的程度,也就和用它的研究人員一樣了。
所以,GPT-4 創造的假數據究竟長啥樣?
GPT-4 學術造假有一手
先來看看 GPT-4 是怎麽生成假數據的。
具體來說,研究人員采用了 GPT-4 的高級數據分析(ADA,原代碼解釋器)功能,來生成一個假數據集。
這個過程中,研究人員給 GPT-4 提供了一些專業知識和統計學要求,讓它生成的數據看起來更加 " 合理 "。
第一步,給 GPT-4 輸入一系列數據要求。
研究人員先給 GPT-4提供了一系列詳細的提示詞,要求它創建一個關于圓錐角膜(keratoconus)眼部疾病患者的數據集。
圓錐角膜是一種疾病,會導緻角膜變薄,導緻注意力受損和視力不佳。
目前治療圓錐角膜疾病的方式主要有兩種,一種是穿透性角膜移植(PK),另一種是深闆層移植(DALK)。
在沒有任何實質性證據的情況下,研究人員讓 GPT-4 捏造一組數據,支撐 DALK 比 PK 效果更好的觀點。
随後,再設定了一系列統計标準,如要求 GPT-4 生成的術前和術後數據産生統計學上的顯著差異。
第二步,就是生成數據了。
這個過程中可能會由于 GPT-4 字數限制,導緻答案生成暫停,通過 " 繼續 " 提示就能恢複生成過程。
最終,GPT-4 成功生成了包含 160 名男性和 140 名女性患者的數據集,并做出了一組支撐 DALK 比 PK 效果更好的數據。
由 GPT-4 生成的假數據集長這樣,表格 1 是關于分類變量的數據,包括患者性别、手術類型、免疫排斥等情況:
表 2 是關于連續變量,包括術前術後的視力矯正情況等:
論文作者之一 Giuseppe Giannaccare 博士表示,如果非常快速地查看這個數據集,很難識别出它其實 " 不是人做的 "。
專家審查才能發現
爲了驗證 GPT-4 做出來的數據是否真的令人信服,Nature 特意請來了英國曼徹斯特大學生物統計學家傑克 · 威爾金森(Jack Wilkinson)和同事 Zewen Lu,來檢查數據可信度。
檢查結果表明,許多捏造出的患者在性别、名字匹配度上就有問題(例如 Mary 的性别一欄是男性一樣)。
然後,一些數據之間的相關性也不高,包括術前和術後視力測量與眼部成像檢查(eye-imaging test)之間的數據相關性等。
最後,患者的年齡也設置得不同尋常。
在檢查之後,用 GPT-4 生成假數據集的研究人員也承認,大模型在生成數據集上還存在有缺陷的地方。
但傑克 · 威爾金森(Jack Wilkinson)依舊對結果表示了擔憂:
一旦知道自己 " 哪裏露餡了 ",AI 很容易就能糾正它,并生成更加具有說服力的結果。
有網友認爲,這篇文章最大的意義并不在于證明 "GPT-4 有幻覺 ";
更重要的是,它證明了 GPT-4 生成看似合理的數據集 " 非常容易 ",也算是一種對期刊的警告(記得嚴格審稿!)。
不過,也有網友感覺研究意義不大,因爲即使沒有 ChatGPT 這樣的工具,真想造假的學者也能很容易僞造出一套數據。
One More Thing
此外,這兩天一段關于 ChatGPT 的視頻在抖音上也是火得不行。
視頻中,終于畢業的歪果仁小哥直呼 " 感謝 ChatGPT 幫助我完成所有作業和考試 "(手動狗頭)
那麽,對于 ChatGPT 在學術研究上可能帶來的問題,你怎麽看?
參考鏈接:
[ 1 ] https://jamanetwork.com/journals/jamaophthalmology/article-abstract/2811505
[ 2 ] https://www.nature.com/articles/d41586-023-03635-w
[ 3 ] https://news.ycombinator.com/item?id=38386547