圖片來源 @視覺中國
文 | 追問 nextquestion
長久以來,人類将創造力視爲自己的特性,認爲它是區分機器與生命的一條明顯界線。然而,随着人工智能技術的迅猛發展,特别是大型語言模型如 ChatGPT 的出現,這條界線正在逐漸模糊。
在最近發表在 Scientific Reports 的一項研究中,來自阿肯色大學的科學家們将人類與 AI 在創造力方面進行了直接比較。他們利用了包括替代用途任務(AUT)、後果任務(CT)和發散性聯想任務(DAT)在内的多項測驗,旨在評估參與者在發散性思維上的表現。令人驚訝的是,結果顯示,在控制 AI 與人類生成想法的數量相同時(即回應流暢性),AI 在各項測試中顯示出的創造性都超過了人類。
▷論文:Hubert, Kent F., Kim N. Awa, and Darya L. Zabelina. "The current state of artificial intelligence generative language models is more creative than humans on divergent thinking tasks." Scientific Reports 14.1 ( 2024 ) : 3440.
這項研究通過 Prolific 在線平台招募了 151 名人類參與者,并利用 ChatGPT-4 創建了同等數量的 AI 參與者。研究采用了三種主要的創造力測量方法:替代用途任務、後果任務和發散性聯想任務。
在替代用途任務中,參與者需觀察一些日常物品(如 " 叉子 " 和 " 繩子 "),并想出這些物品可能的創造性用途。答案将根據數量(流暢性)、獨創性以及每個有效答案的詳細程度來進行評分。後果預測任務要求參與者想象一個假設情景(例如,如果人類不再需要睡眠,會發生什麽?),并在限定時間内盡可能多地預測其後果。而發散性思維任務則要求參與者列舉出盡可能多的不同名詞。這些測試共同目的在于從流暢性、獨創性和詳細程度三個維度評估參與者的開放式思維能力。
爲了公平比較人類與 AI 的創造力,研究人員在發散性思維任務中控制了雙方想法生成的數量。具體而言,研究人員首先設定了明确的任務要求,比如在替代用途任務中,參與者需要爲特定物品(如 " 繩子 " 或 " 叉子 ")想出盡可能多的創造性用途。人類參與者完成任務後,研究人員記錄了他們的流暢性得分,即每人産生的獨特答案的數量。然後,當 GPT-4 執行相同任務時,研究人員确保 AI 生成的答案數量與人類參與者相匹配。這樣,通過控制流暢性,研究人員能在相同基礎上更準确地比較雙方在獨創性(每個回答的獨特性)和詳細程度(回答的詳細程度)上的表現,進而評估其創造性潛力。
人類參與者通過 Qualtrics 在線問卷平台提交回答,而 AI 參與者的回答則是通過人工輔助生成的。最後,研究人員利用開放創造性評分工具(OCS)和語義距離評分工具,對所有有效回應進行了客觀的評分和分析,從而評估了獨創性和詳細程度。
▷使用語義距離對人類和 GPT-4 樣本的替代用途任務、後果任務和發散關聯任務響應的原創性的描述性統計。
結果表明,在替代用途任務中,人類和 GPT-4 的流暢性得分分别爲 6.94(SD=3.80)和 7.01(SD=3.81),差異不顯著。但在原創性方面,GPT-4 在 " 叉子 " 和 " 繩子 " 兩個提示下的表現均優于人類。特别是在 " 叉子 " 提示下,GPT-4 的原創性顯著高于人類。此外,GPT-4 在回應的詳細程度上顯著超過人類,例如在替代用途任務中,GPT-4 的詳細得分爲 15.45(SD=6.74),遠高于人類的 3.38(SD=2.91)。
在後果任務中,人類和 GPT-4 在流暢性上無顯著差異,但 GPT-4 在 " 不再需要睡眠 " 和 " 用手行走 " 兩個提示下的原創性更高。而回應的詳細程度上,GPT-4(M=38.69)也顯著高于人類(M=5.45)。
在發散性聯想任務中,盡管人類在獨特單詞的數量上領先(人類獨特單詞數爲 651,占比 87.03%,而 GPT-4 爲 220,占比 69.40%),但 GPT-4 在語義距離得分上更高,分别爲 84.56(SD=3.05)和 76.95(SD=6.13)。
可以說,AI 在所有發散性思維的測量維度上都會優于人類參與者。特别是在控制了回答流暢性之後,AI 在原創性和詳細程度上的表現尤爲突出。比如,在替代用途任務中,AI 在原創性和詳細程度上的得分明顯高于人類。在後果任務和發散性聯想任務中,AI 同樣展現出更高的創造性,這一點通過語義距離得分的統計分析得到了證實。
盡管這項研究展現了 AI 在發散性思維任務上的顯著潛力,但也存在一些問題和局限性。首先,全面評價創造力不僅需要考慮到原創性,還要考慮到想法或産品的實用性和适宜性。但評價适宜性時需要考慮到許多因素,如社會文化和曆史背景。然而,研究中使用的語義距離得分并未涉及這些因素,而是反映了看似相關(或無關)想法之間的相對距離。因此,這些結果僅反映了發散性思維的一面,并不能全面代表 AI 在創造力方面的優勢。
此外,研究發現,相較于人類,GPT-4 在回答中使用了更高頻率的重複詞彙,雖然人類回答的詞彙範圍更廣,但這并未必導緻更高的語義距離分數。這一發現強調了靈活思考可能是人類中心發散性思維的強項。更值得注意的是,AI 在詞彙選擇上雖然更集中,但這種集中可能更有助于提高原創性。例如,AI 能夠使用非具體物品的詞彙(如 " 自由 "、" 哲學 "),而人類在生成具體可觀察的想法時可能受到固定思維的限制。這種生成列表之間的差異可能會使 AI 表現出更多的原創性。
面對機器的出色表現,我們不禁反思,創造力到底是什麽?它是心靈深處偶爾迸發的靈感之光,還是能夠被算法和數據精确模拟的技術?
盡管這項研究向我們展示了 AI 在發散性思維方面的顯著潛能,但真正的創造力遠不止于産生創新思想那麽簡單。它還涉及将這些思想實現爲有深遠影響的創作,解決現實世界問題的實踐能力。因此,AI 與人類創造力的較量還遠未塵埃落定。更可能的是,在未來,我們會看到更多由人工智能和人類共同創造的傑作,開啓一個全新的協同創造的舞台。