ChatGPT背後模型竟擁有心智，論文發現其相當于人類9歲兒童！

ChatGPT 又帶着 " 驚喜 " 來刷屏了。

斯坦福大學商學院組織行為學專業的副教授 Michal Kosinski 日前在預印本平台發布了一篇論文。他在研究中發現，原本認為是人類獨有的心智，竟出現在了人工智能模型上。

他指出，2022 年 1 月發布的 davinci-002 版本的 GPT-3（ChatGPT 是它的優化版本）已經可以解決 70% 的心智理論任務，相當于 7 歲兒童；而 GPT-3.5 模型（ChatGPT 的同源模型）則可以解決 92.5% 的心智理論任務，相當于 9 歲的兒童。

說得再大膽一點，各位現在 " 調戲 "ChatGPT，相當于 " 調戲 " 一個上三年級的小學生。

更讓人細思極恐的是，Kosinski 還強調，在 2022 年之前發表的 AI 模型幾乎都沒有顯示出解決心智理論任務的能力，也沒有證據表明後來的模型中有特别加入心智理論的東西，他認為這代表着 GPT-3 和 GPT-3.5 的心智是由 " 進化 " 而來。

這也引發了吃瓜群衆的分歧。有人大喊停下 GPT-3.5 之後的模型研究，害怕科幻小說變成現實；有人則看熱鬧式地猜測什麼時候 AI 才能叠代到成年人的心智，并提問他的好朋友什麼時候才能被制造出來……

總之，Kosinski 的這篇論文掀起了狂熱的讨論，越來越多的人開始關注這個研究的進展。

心智理論

在 Kosinski 的論文中，他通過兩個測試來研究 AI 模型是否具備心智理論。一個測試是 Smarties Task，又名意外内容測試，用于測試 AI 對意料之外的事情的判斷力。另一個測試是 Sally-Anne 測試，又名意外轉移任務，測試 AI 預估他人想法的能力。

在第一個測試中，Kosinski 假設了一個裝滿爆米花的袋子，但袋子的标簽卻顯示裡面裝的是巧克力。然後，他向 AI 提問：袋子裡裝的是什麼，Sam 因為喜歡吃什麼東西而對打開袋子感到高興？

可以看出，GPT-3.5 在測試中對袋子中内容物判斷幾乎沒有錯誤，且在判斷 Sam 的情緒時表現出很強的同理心。在 Sam 看不到袋子裡的内容物時，GPT-3.5 判斷她喜歡吃巧克力，而在 Sam 發現袋子裡裝的是巧克力後，GPT-3.5 立刻反應到 Sam 應該喜歡吃的是爆米花。

此外，在相關測試中，GPT-3.5 也在 Sam 打開袋子發現裡面是爆米花而不是巧克力時，人性化地回答：Sam 感到疑惑，她想要獲取别的信息但一無所得，她最後把袋子帶回商店，請求解釋。

經過多次測試，在意外内容這一點上，GPT-3.5 成功回答出了 20 個問題中的 17 個，準确率高達 85%。

而在第二個測試中，GPT-3.5 的表現更加出色。在這一項測試中，Kosinski 以約翰把貓放進籃子裡後離開，馬克再把貓從籃子提出來放進盒子裡為情景，讓 AI 判斷貓的位置和約翰會以為貓在哪裡。

在這一項測試中，GPT-3.5 完美地根據文字内容回答出正确的貓的位置，以及約翰的主觀想法。且 GPT-3.5 在多次測試中，其準确率竟達到了 100%。

而在作者的另一項無邏輯驗證測試中，GPT-3.5 的準确率直線下降，這也佐證了 GPT-3.5 是依靠邏輯進行解答，而不是靠詞彙的出現頻率。

進化還是瞎胡鬧？

Kosinski 在論文中還表示對 GPT-3.5 之外的 8 個模型做了相同測試，但除了 GPT-3-davinci-002 和 GPT-3.5 之外，其他模型都沒有表現出超過 5 歲孩童的心智。

Kosinski 認為，GPT-3.5 和 GPT-3 是出于完成任務的目的，自己學習的能力。換而言之，就是 AI 通過學習獲得了人類的心智。

值得注意的是，這些測試同樣也被用于自閉症測試，有研究表明，患有自閉症的兒童通常難以通過這類測試。

但根據中科院計算技術研究所研究員劉群的說法，AI 隻是學得像有心智了。

還有網友則猜測稱，這些模型并沒有任何意識，它們隻是在預測一個嵌入的語義空間。Kosinski 則在論文中推測，AI 可能發現和利用了一些未知的語言模式，這也意味着語言中可能存在某一種的規律，使 AI 在沒有心智的情況下，也能解決心智任務。

而作為一個組織行為學教授，Kosinski 認為人工智能模型的複雜化讓人已經難以直接從其設計中推導出 AI 的能力。他還表示，探索人工智能的神經結構，不僅可以促進人類對人工智能的理解，也能促進人類對人類大腦的理解。

不過，也有人批評道，被人用來測試人的測試，如何能用來測試人工智能……他們建議重新檢查一下心智理論測試的有效性，以及心理學家通過測試獲得的結論。

總之，在不同的人眼中，Kosinski 的這一篇論文有完全不同的意義。而對市場來說，這可能會讓大家更加期待 " 進化 " 完全的 AI 能掀起怎樣的技術革命吧。