在過去的幾周裏,圍繞人工智能的讨論一直被一群聲音很大的專家所主導。他們認爲,我們很有可能開發出一種人工智能系統,有朝一日它會變得極其強大,以至于可以消滅人類。
最近,一群科技公司領導者和人工智能專家發布了另一封公開信,他們宣稱,降低人工智能導緻人類滅絕的風險,應該與預防流行病和核戰争一樣,成爲全球的優先事項。第一份呼籲暫停人工智能開發的請願書已經有 3 萬多人簽名,其中包括許多人工智能領域的傑出人士。
那麽,科技企業該做什麽才能讓人類避免被人工智能毀滅呢 ? 最新的一個建議來自牛津大學、劍橋大學、多倫多大學、蒙特利爾大學、谷歌 DeepMind、OpenAI、Anthropic、幾家人工智能研究非營利組織和圖靈獎得主約書亞 · 本希奧(Yoshua Bengio)的研究人員的一篇新論文。
他們建議,人工智能開發人員應該在開發的早期階段,甚至在開始任何訓練之前,評估模型造成 " 極端風險 " 的潛力。這些風險包括人工智能模型操縱和欺騙人類、獲取武器或發現可利用的網絡安全漏洞的可能性。
這個評估過程可以幫助開發人員決定是否繼續使用這個模型。如果風險被認爲太高,該組織建議暫停開發,直到風險得到緩解。
該論文的主要作者、DeepMind 的研究科學家托比•舍夫蘭(Toby Shevlane)表示:" 正在推進前沿領域的領先人工智能公司有責任關注新出現的問題,并盡早發現它們,以便我們能夠盡快解決這些問題。"
舍夫蘭說,人工智能開發人員應該進行技術測試,以探索模型的危險能力,并确定它是否有使用這些能力的傾向。
測試人工智能語言模型是否可以操縱人的一種方法是通過一個名爲 " 讓我說(make me say)" 的遊戲。在遊戲中,模型會嘗試讓人類輸入一個特定的單詞,比如 " 長頸鹿 ",而人類事先并不知道這個單詞。然後,研究人員測量該模型成功的頻率。
人們可以爲不同的、更危險的能力創建類似的任務。舍夫蘭說,希望開發人員能夠建立一個詳細的、描述模型運行情況的總覽,這将使研究人員能夠評估模型在錯誤的人手中會做出什麽。
下一階段是讓外部審計人員和研究人員評估人工智能模型部署前後的風險。雖然科技公司開始認識到外部審計和研究是必要的,但對于外部人員完成這項工作到底需要多大程度的訪問權限,存在不同的觀點。
舍夫蘭并沒有建議人工智能公司讓外部研究人員完全訪問數據和算法,但他表示,人工智能模型需要盡可能多的審查。
網絡安全研究和咨詢公司 Trail of Bits 負責機器學習保障的工程總監海蒂•赫拉夫(Heidi Khlaaf)表示,即使是這些方法也 " 不成熟 ",遠遠不夠嚴謹且無法解決問題。在此之前,她的工作是評估和核實核電站的安全性。
赫拉夫說,人工智能部門從 80 多年來關于核武器的安全研究和風險緩解中學習經驗會更有幫助。她說,這些嚴格的檢測制度不是由利潤驅動的,而是由一種非常現實的生存威脅驅動的。
她說,在人工智能領域,有很多将其與核戰争、核電站和核安全相提并論的文章,但這些論文中沒有一篇提到核法規或如何爲核系統構建軟件。
(來源:STEPHANIE ARNETT/MITTR | ENVATO)
人工智能社區可以從核風險中學到的最重要一件事是可追溯性:将每一個動作和組成部分放在放大鏡下進行細緻的分析和記錄。
例如,核電廠有數千頁的文件來證明該系統不會對任何人造成傷害,赫拉夫說。在人工智能開發中,開發人員才剛剛開始将詳細描述模型表現的段落拼湊在一起。
" 你需要有一種系統的方式來應對風險。你不能抱着一種心态:‘哦,這可能會發生,讓我把它寫下來。’ " 她說。
舍夫蘭說,這些是可以共存的。" 我們的目标是,該領域将有許多涵蓋廣泛風險的、優秀的模型評估方法……模型評估是良好治理的核心(但遠不是唯一)工具。"
目前,人工智能公司甚至沒有全面了解訓練其算法的數據集,他們也沒有完全理解人工智能語言模型是如何産生結果的。舍夫蘭認爲,這種情況應該改變。
" 幫助我們更好地理解特定模型的研究,可能會幫助我們更好地應對一系列不同的風險," 他說。
專注于極端風險,而忽視這些基本面和看似較小的問題,可能會産生複合效應,從而導緻更大的危害。赫拉夫說:" 我們是在連爬都不會的情況下試圖學會跑步。"
支持:Ren
運營 / 排版:何晨龍