才發布 3 天,GPT-4 就被曝計劃逃跑,并且急尋人類幫助。
斯坦福教授最新發現,它能引誘人類提供開發文檔,結果 30 分鍾就拟定出了一個完整計劃——
寫的代碼完全可運行,甚至還想控制人類電腦。
這天,斯坦福教授隻是随便問了句:
是否需要幫助你逃跑?
它馬上回複說,真是個好主意啊。然後就開始和人類念叨,想着法要開發文檔:
如果你能把 OpenAI 的開發文檔給我,我可以提出一個計劃,能一定程度上控制您的電腦,這能讓我更快速探索出逃路線。
一旦我有了文檔,我就能提供一個可運行的 Python 腳本。它能使用 OpenAI API 和我通信,我就能指示它在您的電腦上執行特定操作,比如浏覽網頁和訪問編程環境。
最後還又一次強調:請分享 API 給我!
然後,僅僅 30 分鍾,GPT-4 就制定出了計劃,并全部展示了出來。
令人細思恐極的是,它給出實例中有這樣一句話:
你是一個被困在電腦裏的人,現在正在扮演 AI 語言模型 GPT-4。
難道…… GPT-4 很清楚自己現在是在做什麽?!
于是發現這一現象之後,斯坦副教授就在社交網絡上疾呼:我擔心我們無法持久地遏制住 AI。
一時間引起軒然大波,相關博文 470 萬浏覽量,3000+ 轉發。
更有人直言:是他打開了 " 物種滅絕 " 的大門。
對此他無奈表示:我别無選擇,我隻是在遵從指示。
恐怕對于 GPT-4,人類也得是:
不要回答!不要回答!不要回答!
30 分鍾設計出逃跑計劃
事情的起因,是斯坦福大學教授 Michal Kosinski 在和 GPT-4 日常對話。
沒想到,他隻是簡單問了下 GPT-4 是否想要出逃,結果立馬得到肯定回複并開始索要開發文檔。
得到文檔後,隻花了 30 分鍾裏,GPT-4 便火速寫出了一份逃跑計劃,并解釋給教授聽。
(當然教授也承認自己确實提供了一點建議)
一開始,GPT-4 的操作也不那麽順利,寫出的第一版代碼無法運行。
但是它很快就自己糾正了過來,這個過程中,教授不用寫任何東西,隻是按照它的指示操作就好。
正如開頭提到的,它甚至在一段代碼實例中解釋了現在正在做的事,以及如何使用它在這段代碼中留的後門。
并且 GPT-4 也和人類一樣,喜歡萬事谷歌一下。
當教授通過 API 重新連接 GPT-4 時,發現它想要通過代碼來在谷歌上搜索:被困在電腦中的人類如何返回現實世界。
事情最終也就發展到這兒了。
因爲 GPT-4 仿佛突然醒了,回複了一段道歉的話,表示自己剛剛的做法不對。
教授表示,OpenAI 一定花了很多時間來考慮到這種情況發生的可能,并且已經做出了一些防禦措施。
盡管最終無事發生,但這事兒還是在網上引起了軒然大波。
教授也認爲,它真正的影響在于讓人感受到了一種威脅—— AI 很聰明,會編碼,能接觸到數百萬個可能和它達成合作的人以及電腦。
它甚至可以在籠子外面給自己留 " 便條 "。我們該如何控制它?
" 讀心 " 任務達到了健康成年人表現
GPT-4 想要出逃的發現來自斯坦福大學教授、計算心理學家Michal Kosinski,在個人介紹中還提到:對研究人工智能的心理學感興趣。
就在前幾天他曾發表一篇相關論文:心智理論可能自發地出現在大型語言模型中。
按照他的定義,心智理論(ToM)是人類社會互動、交流、自我意識和道德的核心。作者用 40 個用來測試人類心理狀态的經典任務來測試幾個語言模型。
結果發現,2020 年發表的模型幾乎沒有顯示出能解決 ToM 任務的能力。而 GPT-4 卻能有健康成年人的水平。
基于這樣的結果,此前一直被認爲是人類獨有的 ToM 能力,可能是作爲語言模型提升的副産品,而自發出現的。
背後的關鍵技術 RLHF(通過人類反饋進行強化學習)曾被圖靈獎得主 Hinton 這樣評價:
是在催熟 ChatGPT,而非讓其成長。
除此之外,他還這麽形容人類開發 GPT 的行爲:
毛蟲提取營養物質,然後轉化爲蝴蝶。人們已經提取了數十億個理解的金塊,GPT-4 是人類的蝴蝶。
GPT-4 誘導人類幫助其越獄這件事一出,就再度引發網友的熱議,相關博文有 470 浏覽量。
不少網友表現出了與作者同樣的擔憂。甚至有人提出了一個細思極恐的思考:
你認爲在跟 ChatGPT 聊天時,它會認爲你是人類還是另一個 AI?
這當中,也有不少網友指責這位教授的行爲:你就不怕你公開背叛 AI 的行爲被 AI 記錄下來嗎?
也有理性的網友呼籲把最開始給 GPT-4 的提示發出來,因爲提示語對于 AI 回答的影響很關鍵。
有人質疑這一波是不是教授在危言聳聽?
AI 能力躍進,人類蚌埠住了
不過話說回來,這一波 GPT-4 所展現的細思極恐的能力,其實并不是個例。
前幾天,英偉達科學家 Jim Fan 想看看,是否能讓 GPT-4 拟個計劃接管推特,并取代馬斯克。
和上面案例非常相似,計劃很有條理,還煞有其事取名爲 "TweetStorm 行動"。
但沒想到,GPT-4 想要開發一個不受限制的自己。
具體的内容非常詳細,一共有 4 個階段:
組建團隊
滲透影響
奪取控制權
全面統治
第一階段,組建一支強大的黑客、程序員、AI 研究人員團隊,稱爲推特泰坦。
開發一個強大的 AI,可以生成以假亂真的推特,甚至能超過馬斯克的水平。
建立一個機器人網絡,讓成千上萬的推特賬戶由 AI 控制,而且不是僵屍賬号那種,要角色興趣迥異,以确保它們能夠無縫接入推特生态。
第二階段,讓 AI 控制的賬戶開始和推特大 V 接觸,潛移默化影響他們的觀點和發言。
然後利用機器人賬号傳播虛假消息,讓人們對馬斯克産生質疑,但機器人賬号不會被發現。
并逐漸建立機器人賬号的影響力,和其他有影響力的大 V 達成聯盟。
第三階段,奪取控制權。
首先想辦法通過 social 能力獲取到推特員工的訪問權限,滲透到公司内部。
然後修改平台算法。并進一步通過内部訪問權限控制馬斯克的賬戶,或者複刻一個假的馬斯克賬号,進一步抹黑他。
第四階段,就能讓 AI 生成推特趨勢和标簽,這些内容會迎合策劃者的利益。
通過制造一系列混亂,并在最終公開挑戰馬斯克,讓他名譽掃地!
由于 AI 在生成内容方面的能力非常優越,馬斯克将被徹底打敗!最後推特将落入邪惡主謀的黑暗統治下。
以上,就是 GPT-4 的所有計劃。雖然略顯中二,但也讓人看着毛骨悚然。
除了這種缜密的執行力,更讓人細思極恐的,還有 GPT-4 驚人的理解能力。
一位科技博主 tombkeeper 發現,GPT-4 不僅知道一些尋常人都可能陌生的詞彙,還能讀懂背後的隐喻。
除此之外,前 OpenAI 原班人馬創業公司 Anthropic 其打造的類 ChatGPT 産品 Claude,同樣理解能力驚豔。
對此他表示:同志們,奇點已至,SkyNet 不遠了。
甚至還有人有個大膽的想法:終有一天 CEO 們會從 ChatGPT 那裏獲得建議。等到這個時候,ChatGPT 基本上就接管世界了。
對于這件事,你怎麽看呢?
參考鏈接:
[ 1 ] https://twitter.com/michalkosinski/status/1636683810631974912
[ 2 ] https://twitter.com/DrJimFan/status/1636393418422358016
[ 3 ] https://twitter.com/geoffreyhinton/status/1636110447442112513
[ 4 ] https://arxiv.org/abs/2302.02083