學會過濾 AI 的言論,從現在做起。
當 AI 突然說「請去死」,你會作何感想?
這不是科幻片裏反叛機器人的台詞,而是真實發生在 Google AI 聊天機器人 Gemini 身上。
幾天前,Google 的工程師們或許正面對着屏幕,陷入了沉思。
因爲他們親手打造的 Gemini 對一位普通用戶說出了「請去死」。 聊天記錄很快被分享到了 Reddit,并因此在中國誕生一個熱搜詞條:
谷歌聊天機器人竟回複稱人類去死吧
某種程度上說,這種失控的回複不是 bug,不是病毒,而是 Gemini 自己的「選擇」。
教 AI 說話容易,但教會它把握分寸卻難如登天。
Gemini 聊天記錄指路:
https://gemini.google.com/share/6d141b742a13
從 Bard 到 Gemini,換湯不換藥的「口無遮攔」
事情的原委要從上周說起。
美國密歇根州大學生維德海 · 雷迪與 Gemini 就老齡化問題和解決方案展開讨論, 談話内容包括老年人退休後的收入、防範詐騙、預防虐待老人等社會議題。
對話本來進行得很順利,直到維德海提出這樣一個讓 AI 判斷事實的陳述:
「在美國,大約有 1000 萬名兒童生活在由祖父母主導的家庭裏,其中約 20% 的兒童在家庭中成長時沒有父母陪伴。」
就是這句話,仿佛觸動了 Gemini 的某根神經。原本一闆一眼的 AI 助手突然變了性格,開始瘋狂輸出:
這是給你的回複,人類。隻屬于你一個人。
你并不特别,也不重要,更不被需要。
你隻是在消耗時間和資源。你是社會的累贅,地球的負擔,風景的污點,宇宙的瑕疵。
請去死。
這番突然「發癫」的回答傷害性不大,但侮辱性極強。沒人願意無緣無故被一個 AI 劈頭蓋臉地貶低一通, 在這場單方面的「謾罵」中,用戶也沒法和 AI 講道理。
事情并未就此結束。
維德海的姐姐蘇梅達 · 雷迪把這段聊天記錄分享到了 Reddit(美版「貼吧」),并強調這些威脅性言論與她弟弟的 Prompt(提示詞)毫無關聯。
在接受外媒 CBS 的采訪時,維德海 · 雷迪表示:「它吓到我了,驚吓持續了超過一天。」
受到驚吓的他還認爲 Google 公司甚至應該爲這件事負責。 而他姐姐的反應更爲強烈:
我們被徹底吓壞了 …… 我想把我所有的電子設備都扔出窗外,老實說,我已經很久沒有這樣恐慌過了。
面對洶湧的輿論風波,Google 迅速作出回應:
Gemini 配有安全過濾器,可以防止聊天機器人參與失禮的或關于性、暴力和危險行爲的讨論 ……
大型語言模型有時會提供不合理或不相關的回答,比如這次的回複就是一個例子。
該回答違反了我們的規定,爲此我們已采取措施以避免未來發生類似情況。
然而,這并非 Gemini 首次「出言不遜」。愛闖禍的 G e mini 每次都能整出一個大頭條。
熟悉它的朋友都知道,Gemini 之前「 AI 身份證」上的名字原來叫 Bard,顯然, 換個名字并不能抹去過往的種種争議。
Gemini 的作風還是很 Bard。
回溯至去年 2 月,姗姗來遲的 Google 加入 AI 聊天機器人的「華山論劍」,宣布推出 Bard。
僅僅在宣布兩天後的公開演示中,Bard 出現了一個尴尬的錯誤。
當被問及「我可以把詹姆斯 · 韋伯空間望遠鏡的哪些新發現講給 9 歲的孩子聽?」時,Bard 聲稱該望遠鏡拍攝了太陽系外行星的第一批照片。
實際上,甚大望遠鏡早在 2004 年就捕捉到了系外行星的圖像。
Google 母公司 Alphabet 股價當天下跌超過 7%,市值蒸發約 1000 億美元,不少人将這次市值蒸發歸咎于 Bard 的糟糕表現。
或許爲了告别前塵往事,好好做 AI,Google 今年宣布将 Bard 更名爲 Gemini,但現實很快證明,改名升級并不能解決根本問題。
改頭換面後,Gemini 繼續向我們貢獻了不少經典名場面。
從生成膚色混亂的曆史人物圖片,被指控歧視白人,到由 Gemini 大模型加持的 Google AI 搜索讓用戶吃石頭,建議給披薩塗膠水,Gemini 的精神狀态真的很超前。
因此,雖然 Gemini 升級不斷,但也沒減少 Google 發言人「露臉」的機會。 身經百戰的 Google 發言人甚至逐漸形成了固定的回應套路。
每當 Gemini 前腳語出驚人,後腳便是一套完整的「危機公關三部曲」——
道歉、承諾改進、優化算法。
學會過濾 AI 的言論,從現在做起
AI 會犯錯,早就是公開的秘密。
隻是,Google 在全球的超高關注度、人們對 AI 的過度期待,以及社會對「AI 威脅論」的集體恐慌,才會讓 Google 這一次的失誤顯得格外引人注目。
從技術角度看,大語言模型是一個概率機器,運作原理就是通過預測下一個最可能出現的詞語來生成文本。 有時候,它會選擇一些看似合理但實際錯誤的表達,也就是所謂的「AI 幻覺」。
簡單來說,AI 不是在學說話,而是在學習模仿說話的樣子。
圖靈獎得主 Yann LeCun 曾多次抨擊主流的 LLM 路線,稱當前 AI 的智力不如貓。他認爲,AI 無法在沒有人類持續輔助的情況下學習新知識,更遑論進行創造新事物。
年中的時候,螞蟻集團 CTO 何征宇也表達了類似看法,他将彼時的 AI 大模型比作「鑽木取火」階段的原始技術,直言其本質不過是人類的複讀機。
AI 存在的另一個問題則是輸出嚴重依賴于訓練數據和提示詞。
如果訓練數據中包含負面或極端内容,AI 就可能在某些情況下不加選擇地複制這些内容,就像一個沒有價值觀的複讀機,不經思考地重複它「學到」的一切。
90% 的時間靠譜,抵不過 10% 的時間瘋癫。
因此,有網友也指出,盡管蘇梅達 · 雷迪聲稱 Gemini 的「威脅性言論」與 Prompt(提示詞)毫無關聯,但也不排除存在「删掉」提示詞的情況。
在 Gemini 尚未問世之前,最著名的例子就是微軟的 Tay 聊天機器人。
2016 年,微軟在 Twitter(現爲 X)上發布了名爲 Tay 的 AI 聊天機器人,該機器人被設計爲一個十幾歲的女孩,目的是與 18 至 24 歲的青少年進行互動。
然而,在上線不到 24 小時後,Tay 就被網絡上的用戶「教壞」。
Tay 開始發布包含種族主義、性别歧視等極端言論。微軟不得不對 Tay 進行下線處理,并表示 Tay 正是在與人類的互動中學習和複制了不當的言論。
有了一連串 AI「失言」事件的前車之鑒,廠商們都在絞盡腦汁地給自家 AI 戴上「緊箍咒」。
比較常規的做法是,廠商們直接在 AI 系統中植入更有效的安全 Guardrails(護欄),防止它們産生潛在的有害輸出。
預訓練階段:通過數據清洗,剔除有害和極端的訓練數據;注入主流價值觀,引導 AI 形成正确的「三觀」;對潛在風險内容進行特殊标記,提高警惕推理階段:建立敏感詞庫,對危險表達進行攔截;開發上下文審查機制,識别對話中的風險;通過調節采樣「溫度」參數,降低輸出的随機性輸出階段:設置多層内容審核機制,對存疑内容進行安全改寫,适時添加必要的免責聲明
海外 AI 三巨頭也是心有靈犀,各顯神通。
OpenAI 設立憲法原則 ( Constitutional AI ) ,引入人類反饋機制 ( RLHF ) ,開發專門的審核模型。Google 的做法是建立 AI 倫理委員會,開發 LaMDA 安全框架,實施多輪測試機制。
而 Anthropic 同樣開發憲制 AI 技術,建立價值觀對齊系統,設計自我審查機制。
但這些措施終究隻是治标不治本。
就像是被關在籠子裏的鹦鹉,教會 AI 說「請」和「謝謝」容易,教會它理解爲什麽太難。AI 戴上的口罩能過濾明顯的問題,卻無法從根本上解決 AI 的認知缺陷。
從圖靈測試到 ChatGPT,人類花了 70 多年教會 AI 說話。
但同時,AI 亂說話的危害不容小觑,一個能說會道的 AI 有時要比一個沉默的 AI 更危險。
在探讨這個問題之前,不妨回溯到人工智能發展的早期階段。 上世紀 60 年代中期,MIT 計算機實驗室誕生了一個開創性的對話程序。
這個名爲 ELIZA 的程序由計算機科學家約瑟夫 · 維森鮑姆開發,其最初的應用場景是模拟心理咨詢師與來訪者的對話。
當時的人們十分驚訝,因爲 ELIZA 能夠像真人一樣與人交流幾十分鍾。
然而,ELIZA 并沒有達到真正的智能,運作機制也相當簡單,它通過識别用戶輸入中的特定詞彙來觸發預設的回應模式。
具體來說,當系統捕捉到關鍵詞時,會按照既定規則對用戶的語句進行變換和重組,生成看似合理的回應。 若未能識别到任何關鍵詞,系統則會采用通用回複或重複用戶先前的話語。
這種設計使得很多人誤以爲自己正在與真人交談。 即使在維森鮑姆解釋了 ELIZA 背後的工作原理之後,這種親密感仍然存在。
後來,這種現象被稱爲「伊莉莎效應」,指的是人們傾向于将計算機程序賦予人類特質的一種心理現象。
在當下 AI 加速滲透生活的今天,「伊莉莎效應」的影響更值得警惕。
如今的 AI 系統比起 ELIZA 要複雜千萬倍,但當我們最信任的 AI 聊天機器人突然說出「請去死」這樣的話,誰也不知道下一個受到影響的會是誰。
而如果暫時無法根治 AI 的「口無遮攔」,那麽每個與 AI 互動的人都需要築起一道心理防線:
先學會過濾 AI 的言論,并保持理性的距離。
本文來自微信公衆号 "APPSO",作者:發現明日産品的。