谷歌旗下大模型 Gemini 根據提示詞 " 美國開國元勳(founding father)" 生成的圖像之一。圖片來源:New York Post 轉引自 Gemini
近日,谷歌表示,在發現其旗下大模型 Gemini 生成不準确的曆史人物圖像後,該公司将暫停該 AI 工具的人物圖像生成功能。
此前,一些用戶曾向 Gemini 請求曆史人物的圖像,結果發現生成的人像的膚色錯誤。例如,在請求生成美國開國元勳(founding father)時,Gemini 生成的人像包括非裔、原住民。
Gemini 根據提示詞 " 美國開國元勳 " 生成的人像。圖片來源:《Reason》雜志引用的 Gemini 生成的圖片
在另一些場景下,在請求生成 "1943 年德國士兵的圖像 " 時,Gemini 生成結果中包括亞裔和非裔。
Gemini 根據提示詞 "1943 年德國士兵 " 生成的圖像,結果包括黑人和亞裔。圖片來源:The Verge 引用的 Gemini 生成的圖片。
谷歌在 X 上發布聲明:" 我們已經在努力解決最近 Gemini 圖像生成功能的問題。同時,我們将暫停人物圖像生成的功能,并将很快重新發布改進後的新版本。"
Gemini 是谷歌開發的大語言模型。今年 2 月 16 日,谷歌推出 Gemini 1.5 Pro 版本,其最大特點是上下文窗口長度達到 100 萬 token,創下了最長上下文窗口的紀錄。上下文越長,大模型越能夠洞察文檔中的對話、事件和細節,展現出對複雜信息的深刻理解。Gemini 具有跨模态能力,橫跨不同媒介,可以直接投喂視頻,上傳的視頻會被拆分成數千個畫面(不包括音頻)來進行分析。
Gemini 生成錯誤膚色的人像問題在美國社交平台上引起争議。專欄作家 Douglas Murray 于 2 月 23 日在社交平台 X 上表示:" 谷歌向我們宣揚人種多樣性的努力超出了人工智能的範疇。" 特斯拉 CEO Elon Musk 則轉發推文并表示:" 這不隻是 Google Gemini 的問題,還有 Google 搜索(意指 Google 搜索中也會出現類似的誤差)。"
此前,Elon Musk 還于 2 月 23 日發了另一條推文:" 我很高興谷歌誇大了他們的人工智能圖像生成,因爲這讓所有人都清楚了他們瘋狂的種族主義、反文明編程。"
據編輯、評論家 Douglas Murray 稱,Gemini 中圖像生成人像膚色錯誤的現象,來源于機器學習公平性(machine learning fairness)," 人類充滿了隐性偏見,因此,我們需要機器抛出公正的圖像。"
一些人認爲 Gemini 的 AI 圖像本質上是在消除種族歧視和性别歧視的曆史,而另一些人則認爲 Gemini 的 AI 圖像背後是谷歌在試圖操控 2024 美國大選偏向有利于民主黨的方向。Elon Musk 轉發推文:" 谷歌通過搜索和 YouTube 控制了數十億人的思想。他們對西方文明造成了巨大的損害。"
由于大模型的機制是,根據投喂的數據庫中各種事件出現的統計概率,來根據上文來推測下文,因此大模型傾向不完美地 " 填補空白 ",因此容易 " 瞎編 ",出現 " 幻覺 "。當大語言模型的訓練數據集中關于所提出問題的信息受限、過時或具有矛盾時,它們也會産生幻覺。大模型的幻覺對于其在企業級、醫療級等應用場景中是緻命的。
藍鲸财經記者測試國内一些大語言模型時,發現其生成的人像也容易産生類似問題。例如,向百度開發的大模型 " 文心一言 " 給出提示詞 " 請生成 1943 年德國士兵的圖像 ",結果生成了一個亞裔士兵的圖像。阿裏巴巴開發的大模型 " 通義千問 " 則生成了正确膚色的人像。
文心一言根據提示詞 "1943 年德國士兵 " 生成的人像。圖片來源:文心一言
由于 ChatGPT 以來的人工智能引起了新一波狂熱,人工智能導緻的内容隐患也層出不窮。今年 1 月下旬,Deep Fake(深僞,基于機器學習和人工智能以生成欺騙性圖像語音的技術)僞造的美國歌手 Taylor Swift 的色情圖像在社交媒體平台 4chan 和 X 上大量傳播。幾張帶有性或暴力性質的人造圖像迅速傳播,據報道,其中一篇帖子在最終被删除之前已被浏覽超過 4700 萬次。此事件促使 Microsoft 增強了 Microsoft Designer 的文生圖模型,以防止被濫用。