【環球時報特約記者 任重 環球時報駐美國特約記者 馮亞仁】美國人工智能公司 OpenAI 近日推出的生成式人工智能模型 Sora,震動全球科技界,其背後的研究團隊也浮出水面。根據 OpenAI 官網介紹,Sora 團隊包括兩名研發負責人威廉 · 皮伯斯和蒂姆 · 布魯克斯,系統負責人康納 · 霍姆斯,以及 12 名核心成員。而這支團隊十分年輕,成立時間尚未超過一年。
OpenAI 人工智能文生視頻大模型 Sora 資料圖 圖源:視覺中國
兩名 2023 年畢業的博士
皮伯斯和布魯克斯二人就讀于加州大學伯克利人工智能研究所,都是 2023 年才畢業,博士導師同爲該所教授阿廖沙 · 埃夫羅斯。
根據相關信息,皮伯斯在麻省理工學院讀本科,主修計算機科學,曾參與 GAN(生成式對抗網絡)和 Text2Video 的研究。他和紐約大學的華人學者謝賽甯一起合著的論文《基于 Transformer 架構探索一種新的擴散模型》被認爲是 Sora 背後的重要技術基礎之一。
威廉 · 皮伯斯
Meta 首席人工智能科學家楊立昆此前曾轉發謝賽甯的推文,認爲 Sora 基本上是基于上述被 2023 國際計算機視覺大會收錄的論文提出的框架設計而成。而該論文曾因 " 缺乏創新 ",被國際計算機視覺與模式識别會議拒絕。
Sora 被推出之後,謝賽甯在社交媒體上表示:"Sora 是皮伯斯等在 OpenAI 的嘔心之作,我雖然不知道細節,但是皮伯斯告訴我,他們每天基本不睡覺,高強度工作了一年。跟我的關系是什麽呢,隻能說是一點關系都沒有。"
團隊另一名主要負責人布魯克斯研究領域是模拟物理世界的大規模生成模型。他本科畢業于埃夫羅斯曾經執教的卡内基梅隆大學,主修邏輯與計算,輔修計算機科學。2017 年,本科畢業的布魯克斯先到谷歌工作了近兩年,之後到伯克利人工智能研究所攻讀博士。在伯克利讀博期間,他的主要研究方向就是圖片與視頻生成,與導師埃夫羅斯教授和同組博士後一起開發人工智能圖片編輯工具 InstructPix2Pix。布魯克斯畢業後加入 OpenAI,成爲圖像生成系統 DALL-E 的主要研究人員。
蒂姆 · 布魯克斯
布魯克斯還是個多才多藝的人,喜歡攝影和音樂。他高中時的攝影作品曾獲得國家地理最佳攝影和國家野生動物聯合會的獎項,他還曾在紐約百老彙的燈塔劇院演出。
藝術生、"00 後 "、多名華人
Sora 的系統負責人是康納 · 霍姆斯,他本科和研究生都就讀于科羅拉多礦業大學,後來獲得了高性能計算博士學位。畢業後,霍姆斯到微軟工作,并緻力于解決在推理和訓練深度學習任務時遇到的系統效率問題,在大語言模型、循環神經網絡等領域都擁有豐富的經驗。去年 12 月,霍姆斯加入 OpenAI,參與 Sora、DALL-E 等項目。
在 Sora 團隊中,也有 OpenAI 的 " 老人 ",阿迪蒂亞 · 拉梅什便是其中一位。他是 DALL-E 的創造者,主導了 3 代 DALL-E 的研究。阿迪蒂亞曾就讀于紐約大學,并在楊立昆實驗室參與過一些項目。其間阿迪蒂亞已經在研究生成式模型,并和楊立昆共同發表論文。楊立昆在社交媒體上寫道,阿迪蒂亞本來畢業後要讀博士,但在 OpenAI 實習後,就直接留下了。
此外,團隊成員大衛 · 施努爾和喬 · 泰勒都沒有博士學位。前者畢業于加州大學聖塔芭芭拉分校,後者畢業于美國舊金山藝術大學,在包括用戶界面設計、網頁設計、藝術指導等多方面擁有很強的專業技能。
Sora 團隊成員甚至還有 "00 後 "。團隊中的威爾 · 德普生于 2003 年,2022 年剛從密歇根大學計算機系畢業,2023 年 7 月入職 OpenAI,并于今年 1 月加入 Sora 項目小組。
此外,Sora 團隊中還有多名華人。其中,靖禮 2014 年畢業于北京大學物理系,2019 年獲得美國麻省理工學院物理學博士學位,2022 年加入 OpenAI,曾參與 DALL-E 3 的開發。裏基 · 王則是今年 1 月剛從 Meta 跳槽到 OpenAI。高中時期,他在中國的一所學校就讀,本科畢業于加州大學伯克利分校。加入 OpenAI 前,他曾在 Meta 和 Instagram 工作過。還有名爲郭宇飛(音)的華人團隊成員尚未有太多公開信息介紹,不過在 OpenAI 兩大主要項目—— GPT-4 和 Sora 中,都有此人名字。
團隊還将擴大
OpenAI 在 Sora 視頻公布時稱,Sora 是能夠理解和模拟現實世界的模型基礎,相信這一功能将成爲實現通用人工智能的重要裏程碑。
Sora 團隊正在持續擴張。施努爾 17 日在 X 平台發布招聘廣告,尋找有視頻基礎設施相關經驗的人員。
顯然,Sora 推出後,該團隊的研發工作并未停止。美國《麻省理工科技評論》報道稱,OpenAI 表示,它還在調整爲 DALL-E 3 開發的假圖像檢測器,以便與 Sora 一起使用。阿迪蒂亞說," 在我們發布視頻之前,我們肯定需要得到更多的反饋,了解更多需要解決的風險類型。"