編譯 | 銘滟
編輯 | 徐珊
智東西 7 月 25 日消息,微軟、OpenAI 和 Cohere 等公司正在測試使用合成數據(計算機生成的信息)訓練大語言模型(Lare Language Models,LLM)。合成數據一般用于訓練 LLM。目前使用人造數據的最複雜形式即爲合成數據,使用合成數據訓練或有助于進一步訓練 AI 模型。
開發人員表示,來自網絡的通用數據已不足以進一步提升 AI 模型的性能。多家 AI 公司已經将目光轉向合成數據。
今年 5 月,OpenAI 首席執行官 Sam Altman 曾被問及是否擔心監管機構對 ChatGPT 潛在侵犯隐私的調查。Altman 對此表示," 非常有信心将所有數據都更換爲合成數據 "。
一、合成數據能進一步滿足 AI 模型訓練需要
AI 創企 Cohere 的 CEO Aidan Gomez 曾說:" 如果你能從網絡上獲取所需的所有數據,那就太棒了。但實際上,網絡環境嘈雜混亂。它并不能滿足我們對數據的需求。"
▲圖爲 Cohere 的 CEO Aidan Gomez
爲了提高 AI 模型的性能并應用于科學、醫學或商業等領域,AI 模型需要專門且複雜的數據集用以訓練。這些數據要麽由科學家、醫生、或工程師等領域内專家創建,要麽從制藥、銀行和零售商等大公司獲取專門數據。但是," 人類創建的數據非常昂貴 ",Gomez 說。
使用合成數據則避免了這筆支出。AI 公司可以使用 AI 模型,合成與醫療或金融相關的數據。然後,将這些合成數據用于培訓 LLM。
Gomez 表示,Cohere 及其他幾個 AI 公司已經使用了合成數據,然後由人類進行微調。" 即使合成數據沒有廣泛傳播,它所包含的内容量已經很大了。"Gomez 說到。
例如,爲了訓練 AI 模型,Cohere 可能會讓兩個 AI 模型相互對話,其中一個充當數學老師,另一個充當學生。
" 兩個 AI 模型對話圍繞數學的三角學展開,而這些内容都是 AI 生成的。"Gomez 說," 這一切對話都隻是 AI 模型的想象。然後,人類會查看這段對話,如果模型說錯了什麽,人工就會介入并糾正。這就是我們正在做的事。"
微軟研究院最近的兩項研究表明,合成數據可用于訓練比 OpenAI 的 GPT-4 或谷歌的 PaLM-2 等 LLM 更小、更簡單的模型。
第一項研究是由 GPT-4 生成的短篇小說的綜合數據集,其中隻包含一個典型的四歲孩子可能理解的單詞。這個數據集被稱爲 TinyStories,然後被用來訓練一個簡單的 LLM,它能夠生成流暢且語法正确的故事。
另一項研究爲,AI 可以通過教科書和練習形式,合成 Python 代碼進行訓練。研究發現,這些代碼在編碼任務上表現相對較好。
在合成數據這個新興市場中,Scale AI 和 Gretel.ai 等初創企業如雨後春筍般湧現,提供合成數據服務。Gretel 由美國國家安全局和中央情報局的前情報分析師創立,曾與谷歌、彙豐銀行、Riot Games 和 Illumina 等公司合作,通過合成增強現有數據,幫助 AI 企業訓練更好的 AI 模型。
二、合成數據的潛在風險不容忽視
Gretel 首席執行官 Ali Golshan 表示,合成數據可以保護數據中的個人隐私,同時仍然保持數據統計的完整性。
他補充說,經調整後的合成數據還可以消除現有數據中的偏見和不平衡。" 創建對沖基金的 AI 模型可以用于觀察黑天鵝事件(指難以預測,但突然發生時會引起連鎖反應、帶來巨大負面影響的小概率事件,它存在于自然、經濟、政治等各個領域)。比如說,創建一百種變體來觀察我們的模型是否崩潰,"Golshan 說。對于銀行來說,欺詐行爲通常隻占總數據的百分之一以下,Gretel 的軟件可以生成數千個有關欺詐的邊緣案例場景,并用于訓練 AI 模型。
但是,合成數據的批評者指出,并非所有合成數據都會使用真實反映或改進現實世界的數據。随着 AI 生成的文本和圖像充斥互聯網,AI 公司不斷在網絡上抓取訓練數據,最終很可能走向重複抓取自己模型的原始版本生成的原始數據——這種現象被稱爲 " 内部測試(dog-fooding)"。
牛津大學和劍橋大學等大學近期的研究也對此發出警告。研究稱,根據 AI 模型的原始輸出(可能包含虛假或捏造)來訓練 AI 模型,随着時間的推移,這種方式有可能會破壞和降低技術性能,從而導緻 " 不可逆轉的缺陷 "。
Golshan 同意這種觀點,他也認爲使用不良合成數據進行訓練可能會阻礙 AI 模型叠代。" 網絡上充斥着越來越多 AI 生成的内容。我也認爲随着時間的推移,這将導緻生成式内容退化,因爲 LLM 隻是不斷重複舊有的知識,沒有任何新的見解。"
盡管存在上述風險,Cohere 的 Gomez 等 AI 研究人員表示,合成數據也有可能加速超級智能 AI 系統的發展。
Gomez 說:" 我們真正想要的是能夠自學的模型。你希望他們能夠做到提出自己的問題,發現新的真理并創造自己的知識。這才是夢想。"
結語:AI 企業是否将大規模應用合成數據仍有待觀察
目前 AI 企業對 AI 模型的訓練主要基于通用數據。在現有狀況下,如果 AI 企業意圖尋求新的數據訓練 AI 模型,可選擇的方式包括專業領域數據庫和合成數據等。但是,專業領域的數據鑒于專業價值及個人隐私等因素,難以用于 AI 模型訓練。所以,部分 AI 企業會選擇成本相對較低的合成數據訓練新的 AI 模型。
但在合成數據的使用過程中,有兩點值得保持警惕:一爲數據關聯的個人隐私問題,合成數據首先應确保數據合法;二爲數據的反複使用,即 " 内部測試(dog-fooding)"。如果反複喂入 AI 模型的數據并未發生實質性叠代,AI 模型的功能或可能出現缺陷等性能問題。