ChatGPT 火熱,國内玩家接連爆出加緊開發中國版 ChatGPT的消息。
現在又最新獲悉:科大訊飛也加入此列中。
并且發布就會是直接落地場景的産品,具體時間也已經确定:5 月 6 日。
這是 ChatGPT 火得一塌糊塗之下,最快給出具體時間的國産玩家。
更早之前,一衆互聯網玩家包括百度 360 阿裡網易京東官宣入局之際,關于誰能打造中國版 ChatGPT 的問題也争得一塌糊塗。
事實上,自 ChatGPT 上線以來,作為 A 股 AI 龍頭科大訊飛就備受市場關注,一直被基金瘋狂調研和熱捧。
據證券時報消息,截至 2022 年四季度末,80 隻基金重倉持有科大訊飛 6100 萬股,去年四季度基金大幅加倉 1807 萬股。
有着數十年技術産業積累的科大訊飛,也被認為是國内最有希望打造 ChatGPT 的玩家之一。
但問題是,包括訊飛在内的中國玩家是否真的有希望複刻 ChatGPT?至少從技術維度來看,又應該具備什麼樣的條件?
打造中國版 ChatGPT 需要什麼條件?
ChatGPT 的打造,核心繞不過算法、數據、算力三要素。
算力是支撐背後大語言模型訓練的硬件基礎;數據,影響模型能力強弱甚至生成質量的關鍵;算法則包括模型架構和優化方法,決定着模型的核心技能。
如果說前兩者算力和數據是資本資源積累,畢竟訓練一個 1750 億參數的 GPT-3 就得花費 460 萬美元;那麼算法是 ChatGPT 區别于其他的獨到之處。
作為一個對話式 AI,ChatGPT 所具備的技能包括多語言文本生成、具備大量世界知識、零樣本生成、代碼理解和生成、對話能力等。
更概括地來說,其強大之處在于同時具備知識、推理和溝通能力——
也是實現認知智能必備的幾項能力。
首先是知識能力。為了讓 ChatGPT 既具備應用數據能力、又能生成符合人類要求的答案,要求它能具備大量世界知識和基礎常識,且符合人類輸出要求。
這背後不僅離不開 ChatGPT" 底座 " 大語言模型的參數量和算法架構,更離不開極高的數據質量。
值得注意的是,ChatGPT 比其他 AI 模型生成質量高的原因,在于它更了解人類的 " 雷區 ",包括回答中立客觀、不輸出違規内容、不回答認知範圍之外的問題等。
嚴格來說,這不僅需要各行業通用的高質量數據,而且還需要經過大量數據清洗和人工标注。
這種方法被命名為基于人類反饋的強化學習(RLHF),需要經過大量各行各業的人工标注,僅憑模型自身無法達到這樣的效果。
随後是推理能力。這包括理解并生成代碼等技能,讓模型能像人一樣,一步步思考并推算目标結果。
這裡面考驗的又不僅僅是代碼和語言數據量,同樣還強調模型的零樣本生成能力和複雜推理能力。
具體而言,零樣本生成指的是模型完成沒見過的新任務的能力,而代碼生成更是考驗模型根據任務目标,一步步推理生成最終結果的能力。
最後便是溝通能力,即多語言文本生成、對話能力等。
ChatGPT 之所以在溝通能力上有所進步,是因為它能學會基于之前的對話内容生成新輸出,而并非局限于當前對話中、導緻無法理解代詞或暗含前文信息點的詞。
這背後除了要求模型在預訓練時的語言文本具有多樣性,還必須增加如指令學習在内的任務,确保模型能更好地聽懂人類對話中的要求,并準确合理地實現。
綜上來看,ChatGPT 在各方面都提出了不低的要求,國内玩家要想打造這樣的模型,就必須在 NLP 乃至認知智能相關的算法上,實現深厚積澱。
國内玩家有希望嗎?
既然如此,那麼國内的玩家來打造 ChatGPT 有希望嗎?
從目前已被曝出玩家來看,主要有兩類企業想要搶占 ChatGPT 的高地。
一類是網絡搜索領域,這個被認為 ChatGPT 率先颠覆的場景,微軟谷歌之争也在此再次打響。而回到國内,搜索引擎的兩大巨頭都表示對 ChatGPT 的持續關注。
一邊,百度官宣即将上線文心一言;另一邊,周鴻祎也肯定表示:360 不會放棄對 ChatGPT 這門技術的研究和跟蹤。
另一類則是其他專業領域的玩家,比如聚焦于電商物流的阿裡京東、文娛場景下的騰訊網易,還有像教育醫療場景深耕的科大訊飛……
不妨就從這兩類玩家入手,以百度和科大訊飛為例,來看看是否真的有希望。他們一個是搜索引擎代表,一個所代表的場景有廣泛的社會價值。
△圖注:圖源科大訊飛,智醫助理電話機器人
如前所言,想要打造 ChatGPT,需要算法、數據和算力三個方面。
首先從算法上,目前國内很多公司都有 NLP 技術和預訓練語言模型的研究和開發。百度有文心大模型,而 AI 龍頭科大訊飛自然更是在這兩方面,有諸多研究積累——
在 NLP 所在的認知智能領域,科大訊飛主導承建了認知智能全國重點實驗室(科技部首批 20 家标杆全國重點實驗室之一),多年來始終保持關鍵核心技術處于世界前沿水平,比如在去年就獲得 CommonsenseQA 2.0、OpenBookQA 等 12 項認知智能領域權威評測的第一;
而在預訓練語言模型上,還面向認知智能領域陸續開源了 6 大類、超過 40 個通用領域的系列中文預訓練語言模型,成為業界最廣泛流行的中文預訓練模型系列之一,在 Github 獲 13346 顆星,位列中文預訓練模型星标數第一。
從這個維度上看,中國玩家是有希望造出一個類 ChatGPT 模型。
但要造出一個高質量的語言模型,需要大量的數據和計算資源。
數據方面,諸多現象表明,數據多少是決定模型智能與否的關鍵。一度驚豔衆人的 GPT-3 就有 1750 億參數,而上一版本 GPT-2 隻有 15 億參數。
百度 360 這樣的搜索引擎玩家,有着天然的通用數據來源。不過之後的數據清洗和人工标注也是難度不小的工程。
而像科大訊飛,雖然沒有像前兩者有通用數據上的優勢。但在教育、醫療這種高壁壘、高門檻的領域有規模化的專業數據積累,并且有在訊飛輸入法、訊飛開放平台、消費辦公類産品帶來的大量數據,
待到 ChatGPT 行業落地時,可以迅速占領市場高地。
再來看計算資源方面,實際上看的是願意投入的成本有多少。
OpenAI 背靠微軟這樣一頭算力奶牛——擁有 28.5 萬個 CPU 核心、1 萬個英偉達 V100 GPU,光是訓練一個 GPT-3,費用就高達 460 萬美元。
國内像百度、科大訊飛這類數十年的 AI 玩家,自然有諸多算力和資金的積累。而且也有生态鍊上的合作夥伴,想必也會是水到渠成的。
巧合的是,訊飛在今年年初提出了要開啟高質量發展——将在未來 5 年實現 500 億根據地業務營收、200 億毛利,可提供物質保障;另一方面,還有中國玩家繞不開的國産替代的考量,近年來訊飛一直推進在算力和算法上的自主可控。
據官方數據,目前研發訓練服務器已經開始進入國産化, 切換之後效率有的是原來平台的 70-80%,有的效率是超原來平台 100+%。另外在算法上,也啟動了推理服務器的國産替代;像部分産品,學習機芯片已經全部切換成國産自主。
不可否認的是,我們跟 ChatGPT 是有先天的技術差距。但至少從算法、算力和數據這三個基本盤來看,想要打造一個中國版 ChatGPT 也并非沒有希望。
中美在打造 ChatGPT 上的差異
重新回到事件本身,就在一衆中國玩家開始着手打造類 ChatGPT 産品之際,一個繞不開的問題是,中國明明不缺 ChatGPT 技術,為什麼不是中國先誕生 ChatGPT?中美之間在打造 ChatGPT 上差異有多大?
背後原因在此之前也沒有進行系統性梳理過。歸結起來,主要有三個層面。
其一,AI 應用落地的行業路線差異。
ChatGPT 作為 AGI(通用人工智能)技術代表,對于商業化落地而言,本身不是一個 " 好生意 "。
之所以這麼說,是因為在相當長的一段時間内,AGI 的商業前景其實都并不為業内和大多玩家所看好。
除了前期訓練算力和數據投入的大量資金,後期優化和知識更新所需的叠代路線,無法像互聯網商業模式創新那樣快速變現增長。
在國内市場大環境中,并不是一個好的選擇。相比之下,國内大多數科技廠商更傾向于在垂直專業領域應用 AI 技術,如推出針對不同行業的專業大模型、又例如采用預訓練 + 微調的模式,針對更具體的場景用專業數據去調整差異……
這并不意味着垂直專業領域的 AI 應用一定比通用 AI 更差,甚至在某些領域上,經過專業數據訓練的 AI 表現仍然比 ChatGPT 更好。
然而 ChatGPT 的成功,意味着通用模型以後也會成為商業化落地的方向之一,甚至覆蓋原先一些 AI 技術不高、專業度不夠的場景落地應用,如銀行客服等。
其二,中美在 ChatGPT 技術上的差距。
如前所述,中國不缺 ChatGPT 技術。如科大訊飛研究的認知智能中,對于 ChatGPT 具備的自然語言理解、知識推理技術都已有所布局,相關全球基準測試中,成績均達到了全球領先水平。
然而,如何将這些模型能力集成升級、達到 ChatGPT 的效果,又如何搜集并産生巨量的高質量通用數據、而非僅僅是某一行業的專業數據,國内外目前依舊存在差距。
更明确一點來說,存在技術代差。
360 在最近電話會議中表示:
國内的技術水平目前整體在 GPT2.3 左右。如果基于互聯網優勢,大家都用中文提問、尤其是國内的問題,可能實際體驗能達到 GPT2.5 版本左右。
但 OpenAI 這邊,GPT-4早就已經呼之欲出,中美之間基本已存在一代多的技術差距。
其三,技術引發的生态差距。
GPT-3 之後 OpenAI 所有的模型都沒有開源,而是提供了 API 調用,并因此養活了美國一大幫創業公司,創造并盤活了整個生态。
清華大學計算機科學與技術系長聘副教授黃民烈,就曾這樣形象地描述 GPT 系列模型的影響力:
這個過程它幹了一件事,就是建立起了真實的用戶調用和模型叠代之間的飛輪,它非常重視真實世界數據的調用,以及這些數據對模型的叠代。
相比之下,國内目前更多公司雖然開源了不少大模型,然而這些模型要想達到商業化落地效果,仍舊需要大量數據叠代乃至應用落地,這方面的費用絕非初創公司所能承擔。
事實上,從技術、行業乃至生态差距來看,ChatGPT 依靠的不是短期的角逐,而是一個長線投資行為。
目前,應用領域可能還集中在搜索引擎上,但随着 ChatGPT 應用潛力被各個領域挖掘出來,最終可能打造國産 ChatGPT 的,還是那些在技術、行業以及有能力構建生态的玩家中,科大訊飛是一個。
總之,關于全球 ChatGPT 之争,号角已經吹響。關乎 ChatGPT 落地價值探索,國内玩家已經起航。
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~