過去二十年,人工智能取得了飛躍式發展,但其成果主要集中在計算、大數據的等領域,對于需要運用創造性思維的領域,人工智能的表現并不突出,人類智能仍然占據着不可撼動的地位。但随着 ChatGPT 等大語言模型的推出,這一現象将要被改寫了。
大語言模型是由人工智能技術驅動的自然語言處理工具,能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,像真正的人類一樣來聊天交流。在參加一些衡量人類創造力的測試時,人工智能的表現正越來越好。
圖庫版權圖片,轉載使用可能引發版權糾紛
2023 年 9 月 14 日,挪威卑爾根大學、斯塔萬格大學的研究人員在《科學報告》發表了一項題爲《人工智能在創造性發散思維任務中仍不敵人類最佳表現》(Best humans still outperform artificialintelligence in a creative divergent thinking task)的研究。研究指出,大型語言模型 AI 對話機器人在創造性思維任務測試上或能超越一般人類。不過,得分最高的人類受試者依然能超過對話機器人的最佳答案。
參加測試的有 ChatGPT3、ChatGPT4 以及基于 GPT-3 構建的 Copy.Ai 三個大型語言模型 AI 對話機器人,還有人類。AI 和人類被試都被要求在 30 秒内想出四種物體(繩子、盒子、鉛筆、蠟燭)的其他用途,越多越好,這是發散性思維的一個例子,通常用于評估人類的創造性思維。
研究人員從流利度、靈活性、原創性和精細度四個維度、8 個評分項上,使用了兩種方法來評估人工智能和人類的表現。第一種是算法,用于評估該物體的建議用途與原始用途之間的接近程度。第二種方法用到了 6 名人類評估員,在不知道哪個答案是由 AI 給出的情況下,直接根據創意和原創性給每個答案打分。之後研究人員會計算人類和人工智能打出的平均分。
結果顯示,AI 在這一任務中的平均表現超過了人類,但人類被試的得分差距更大——最低分遠低于 AI,但最高分普遍比 AI 高。并且最佳人類回答在 8 個評分項中的 7 項都超過了所有 AI 的最佳回答。
當然,這個結果并不一定表明人工智能已經發展出了超越人類的創造力,因爲參加測試的大語言模型,它們都是從海量語料中進行了深度學習,它們的确能夠基于這些已經存在的語料,組合推理出某個物品的用途,盡管這種組合推理的能力還很初級。但當面對全新的、從未出現在訓練語料庫中的物品時,大語言模型與人類的創造性思維還是存在着明顯差距的。
例如,人類哪怕面對一個從未見過的物品,也能夠從物品的外表、結構、功能等角度來理解這個物品,從而與已知的物品進行類比,推測出該物品是用來幹什麽的。而大語言模型過于依賴語言輸入,無法從視覺上理解該物品,這就已經輸了一局。即使人類用語言從該物品的外表、結構和功能等方面對大語言模型進行描述性輸入,期望它能理解這個新物品的模樣時,由于語言描述本身不可避免地會帶入一些隐含意義的詞語,這相當于人類在不知不覺中已經隐晦地告訴大語言模型,這個新物品可能具有什麽用途。
此外,當物品的用途需要複雜多步的推理才能推斷出來時,大語言模型很難 " 創造性 " 地建立聯想,因爲在大量推理任務中大語言模型做得并不好。
參考文獻
[ 1 ] https://www.nature.com/articles/s41598-023-40858-3
策劃制作
本文爲科普中國 - 星空計劃作品
出品|中國科協科普部
監制|中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司
作者丨曾心月 科普創作者
審核丨王威 北京通用人工智能研究院 研究員
責編丨鍾豔平 祁媛(實習生)