文|李然
編輯|蘇建勳
大模型牌桌上又多一名高端玩家。
圖源:X
試用鏈接:https://chat.reka.ai/auth/login
由前 DeepMind, Google Brain, FAIR 出走的大佬共同創立的 Reka AI,發布了它們最新的多模态大模型 Reka Core,各項能力全面比肩 GPT-4!
圖源:官網
在幾項最重要的測試集上,它的能力和 GPT-4,Gemini Ultra 打得有來有回。
而且它能支持 3 種模态數據的混合輸入,目前在主流大模型産品中能做到的隻有 Gemini,而且它的多模态性能甚至比 Gemini Ultra 還要略強。
具體來說,Reka Core 的主要技術亮點體現在這幾個方面:
多模态能力:具備圖像,視頻和音頻理解能力。它對圖像、視頻和音頻具有強大的上下文理解能力,是目前市面上除了 Gemini 之外唯二的全模态能力模型。
128K 上下文窗口。
極強的推理能力。
Reka Core 具有超強的推理能力(包括語言和數學),因此适合執行需要複雜分析的任務。
而除了超大杯 Reka Core 之外,團隊之前就已經放出了兩個小型的開源模型 Reka Flash 和 Reka Edge。
最令人咂舌的是,這個模型性能完全對标 GPT-4 的産品誕生于一個隻有 22 人的團隊——
成員幾乎都是遠程辦公,接近半數亞裔,分布在包括加州、西雅圖、倫敦、蘇黎世、香港和新加坡等地。
用他們自己的說法,這隻 " 小而兇猛 " 的團隊在過去十年中爲人工智能領域的許多突破做出了非常大貢獻。
圖源:領英
根據 CTO 的介紹,這個模型是 20 人的團隊在最近 4 個月内才肝出來的,因爲他們 90% 的算力在去年 12 月底才到位。
随着 Reka Core 的發布,他們從幕後走到舞台中央,讓 " 大模型 " 第一次進入 " 小團隊 " 時代!
能看懂三體的大模型
在官方的演示中,Reka Core 對網飛《三體》第一集那個經典場景進行了解讀:
來源:官方素材
視頻中一個人在昏暗的房間裏,将手電筒照在牆上。牆上有很多用紅色和黑色墨水寫的數字和等式。這個人似乎在很認真地研究這些數字,然後轉過身來對着鏡頭開始說話,提到了倒計時和一系列殺人案件似乎有某種關系。
如果讓一個沒有看過《三體》的人來看這段視頻,能不能這麽全面地捕捉到這些細節都很難說。而且 Reka Core 很自然地理解并且整合了視頻中場景的切換,人物動作的意圖,以及聲音等多模态的信息。
緊跟着再把後邊一段和 " 倒計時 " 有關的視頻喂給它,它不但清楚地理解了視頻中的信息,而且還将這個片段畫面中的倒計時和上一個視頻中聲音信息中的倒計時主動聯系了起來。
視頻中的倒計時讓人感到了不安和一種迫近的危險。這可能和那個男人提到的一連串的謀殺案有關。這可能和一個定時炸彈或者某個截止時間有關。人物可能要在這個截止時間之前來做什麽事情,從而避免災難性結果的發生,或者解決一個什麽謎題。當然,這個倒計時也可能代表了時間的有限性,人物在混亂的環境中不得不面對的掙紮。
除了多模态素材理解能力超強,Reka 的代碼能力也非常彪悍。
官方演示了一段 Reka Core 輸出的可視化 " 三體問題 " 的 python 代碼:
它還能準确地識别出《三體》中的演員。Reka Core 把他在其他作品中飾演的人物都自動聯想出來。
鏡頭中直升機的具體型号,大型粒子對撞機的位置,都推斷得有理有據。
技術細節
Reka Core 是一個閉源模型,但是 Reka 之前已經開源了兩個較小的模型 Reka Flash(21B)和 Reka Edge(7B)
技術報告:https://publications.reka.ai/reka-core-tech-report.pdf
訓練數據
根據官方公布的對于訓練數據的說明,Reka 三個模型訓練數據包括公開數據集和專有 / 授權數據集,數據集的知識截止日期爲知識截止日期爲 2023 年 11 月。
模型所攝取的數據集包括文本、圖像、視頻和音頻片段。兩個體量較小的開源模型 Reka Flash 和 Reka Edge 分别在大約 5 萬億和 4.5 萬億 token 的數據上進行了訓練。
預訓練數據中約有 25% 與代碼相關,30% 與 STEM 相關。大約 25% 的數據是從網絡抓取的。
模型結構
圖源:技術報告
模型的整體架構如上圖所示,是一個模塊化的編碼器 - 解碼器架構。支持文本、圖像、視頻和音頻輸入,不過目前僅支持文本輸出。
骨幹 Transformer 基于 "Noam" 架構。從架構上看,與 PaLM 架構相似,但沒有并行層。
數據集表現
根據官方給出的數據集表現,Reka Core 已經完全不輸 GPT-4,而小一些的開源模型 Reka Flash 的多模态能力也和 Gemini Pro 1.5 差不多了。
在人類測試者參與的對于市面上幾個主流模型的打分反饋結果來看,Reka Core 的多模态測試成績超過了 Claude 3 超大杯,落後 GPT-4V 不多。
在這個測試之後,Reka 團隊還讓 Reka Core 自己扮演人類評分者的角色,對于每個模型的輸出進行了打分評估,得到的結果也和人類評分結果非常接近。
同樣在人類測試者參與的純文本的測試中,Reka Core 的成績也僅次于 GPT-4 Turbo 和 Claude 3 超大杯。
團隊成員介紹
CEO/ 聯合創始人 Dani Yogatama
他出生于印尼,2015 年博士畢業于 CMU。曾經短暫就職于百度矽谷 AI 實驗室,之後加入 DeepMind,工作至 2022 年。現在是 Reka AI CEO,同時還是南加大計算機系副教授。
他在創立 Reka AI 之前的研究生涯,參與了多篇知名的論文。
圖源:谷歌學術
CTO/ 聯合創始人 Yi Tay
他來自新加坡,曾經擔任谷歌 Research 的技術主管,谷歌大腦高級研究科學家。在谷歌任職期間,他對許多大模型項目做出了貢獻:例如 PaLM、UL2、Flan-{PaLM/UL2/T5}、LaMDA/Bard、MUM 等。
他除了是一個非常成功的深度學習科學家和創業者之外,還是一個業餘古典鋼琴演奏家,在 2012 年獲得了倫敦三一學院古典鋼琴演奏副文憑。
聯合創始人 Qi Liu
他博士畢業于牛津大學,曾經在 Fair 擔任研究員,現在除了是 Reka AI 的聯合創始人之外,還在香港大學擔任計算機系助理教授。
Che Zheng
他本科畢業于清華大學,碩士畢業于 CMU,在加入 Reka AI 之前曾經在快手和谷歌任職。
Zhongkai Zhu
他在加入 Reka AI 之前曾今在 Meta AI,微軟,特斯拉任職,本科畢業于北航。