複旦大模型MOSS,正式開源了!
作爲國内首個開放測試的類 ChatGPT 産品,MOSS 開源地址一放出,又沖上知乎熱搜:
從官網介紹來看,MOSS 是一個擁有160 億參數的開源對話語言模型。
它由約 7000 億中英文及代碼單詞預訓練得到,精度要求不那麽高的話,甚至可以在單張 3090 顯卡上運行。
MOSS 支持中英雙語,擁有多輪對話和使用多種插件雙重能力,具備搜索引擎、文生圖、計算器、方程求解的 " 技能點 "。
目前,MOSS 在 GitHub 上已有 2.3k Star,熱度還在持續上漲中。
那麽,MOSS 究竟開源了哪些項目,目前有哪些功能?一起來看看。
會解方程,也能生成圖片
據了解,這次 MOSS 開源的是第三輪叠代版本,名叫 MOSS 003。
當然,MOSS 003 也并非開源了全部模型,目前主要開放的是基座預訓練模型,最終模型即将在近期開源:
此前,MOSS 已經經曆了兩版叠代,一版是公開邀請内測的 MOSS 002 版本,另一版是内部測試版本 OpenChat 001。
三月份大夥兒見證的 " 國内首個開放測試的 ChatGPT",正是 MOSS 002 版本。
最新這個版本展現的功能效果如何?
MOSS 團隊放出了它多輪對話、解方程、寫代碼、生成圖片和回答道德倫理等示例。
這是多輪對話的展示效果,具備資料追根溯源的能力:
這是做數學題的示例,包括雞兔同籠問題:
也包括生成圖片功能:
還有近期網友熱議的 AI 道德性問題:
當然,這波裏面也不乏 " 砸場子 " 的網友。
例如官方 GitHub 問答中,有網友很想了解它的中文能力和 chatglm6b 相比誰更好,下面有網友調侃:
你是來砸場子的麽?
這也是因爲此前團隊在 MOSS 002 公開測試時曾經表示過,MOSS 的中文能力不算太好,這也與訓練數據有關。
除此之外,團隊這次還開源了一部分訓練數據。
至于完整數據,複旦 MOSS 團隊表示 " 近期會全部開源 "。
國内最先發布的 ChatGPT 産品
MOSS 取自于《流浪地球》裏面那個擁有自我意識的 AI。
它由複旦自然語言處理實驗室邱錫鵬團隊研發,2 月 20 日正式發布。
當時國内一衆大廠還在陸續高調官宣要造 ChatGPT,誰都沒想到它就這麽一聲不吭地殺了出來。
所以盡管 MOSS 的參數量比 ChatGPT 小了一個量級,大家還是蜂擁而上,把服務器都給擠爆了。
而發布沒過一周,複旦大學教授邱錫鵬就在演講中提出,如果優化順利,計劃在三月底開源 MOSS。
因爲在他看來:
人們之所以很容易有 " 卡脖子 " 問題,是因爲缺乏一個好的行業生态。
就拿 ChatGPT 來說,OpenAI 公司隻需專注做好模型,算力、數據和系統則交給其他公司。反觀國内,很多公司在做大型語言模型時所有環節都需要自己做,每家的數據和算力也有限,結果是每家都做不大。在發展過程中,大型語言模型訓練與在線推理成本過高也是一個重大問題。
因此,他們一開始就考慮要把 MOSS 開源而不是商業化。
有了這樣一個基座,大家就不用重複開發底層技術,可以在上面接不同的細分領域。
如今,雖晚了快一個月,MOSS 也說到做到了。
你試用過複旦 MOSS 開源模型了嗎?效果如何?
MOSS 開源項目地址:
[ 1 ] https://github.com/OpenLMLab/MOSS
[ 2 ] https://huggingface.co/fnlp/moss-moon-003-base
[ 3 ] https://huggingface.co/fnlp/moss-moon-003-sft
[ 4 ] https://huggingface.co/fnlp/moss-moon-003-sft-plugin
參考鏈接:
https://www.zhihu.com/question/596908242