國内玩家如火如荼入局 ChatGPT,其在各行業出圈也有目共睹。
但具體什麽時候能上崗尚且還不明晰,尤其像一些艱深、壁壘性高的行業,比如醫療。
現在,一位哈佛醫學院教授,就親自下場測試 ChatGPT 的表現。
結果顯示,它在 45 個案例中的 39 個診斷正确,正确率 87%(超過了現有機器診斷率的 51%);并爲 30 個案例提供了适當的分診建議。
他表示,ChatGPT 輔助診斷的表現,已經接近醫生。既然如此,那什麽時候可以上崗?
事實上,這也是目前國内大多數玩家所面臨的問題:紅利在此,如何率先吃掉?
此前我們也系統性地梳理過複刻中國版 ChatGPT 背後的技術與生态難度,顯然不是短期就可以實現的。
現在已經衍生出來一種新思路:直接打造行業垂直版 ChatGPT。
這種方式是否可行?
打造行業版 ChatGPT 可行嗎?
ChatGPT 的打造,技術核心繞不開算力、數據和算法三要素。
算力方面,OpenAI 背靠微軟這頭奶牛——擁有 28.5 萬個 CPU 核心、1 萬個英偉達 V100 GPU,光是訓練一個 GPT-3,費用就高達 460 萬美元;數據上,GPT 系列幾經叠代優化,一度驚豔衆人的 GPT-3 就有 1750 億參數,而上一版本 GPT-2 隻有 15 億參數;算法自然也有多年深厚的積累,否則也不能出現 " 類人 " 自主學習特征,而且進一步展現出快速适應多領域、多場景的能力。
再加上生态反哺技術,形成叠代閉環。OpenAI 自 GPT-3 開始就以開放接口的形式,構建起了專屬"GPT 生态 "。據 gpt3demo 網站統計,目前已有 656 個調用 GPT-3 系列模型開發的應用程序。
這樣的技術與生态壁壘,決定了複刻 ChatGPT 并非那麽容易。既然如此,垂直版 ChatGPT 的解決思路也開始在行業中探讨。
首先從技術上來看,他們的核心挑戰主要在于以更少的參數,比如以百億規模參數量,在垂直領域的任務達到或超過 ChatGPT 的效果。
這可能比複現 ChatGPT 更難,因爲參數數量要小很多,不能僅僅依賴 " 暴力美學 ",還要有高超的模型設計和壓縮技巧。
另外一個挑戰是數據來源的不同。
像谷歌、微軟他們其實有天然的通用數據來源,但專用數據積累不能跟垂直玩家相比。
尤其像醫療等民生行業,專業性強覆蓋面廣,所需的高質量數據可能并不比 ChatGPT 小,且大部分數據不是網上可以抓取的。
但對多年深根于此的垂直玩家來說,他們早已構築起自己的産業生态,有豐富的行業數據和知識積累,爲複現 ChatGPT 奠定了必要的基礎。
而且從價值需求來看,垂直行業所代表的價值是實實在在的。像醫療本身需求就不小,一旦 ChatGPT 落地醫療,所代表的社會價值很大。
以往用戶們會習慣性使用的用搜索、APP 來幫助診斷自己的疾病,但往往可能收效甚微。
哈佛醫學院教授 Ateev Mehrotra 曾測試,現有的在線診斷器平均正确率僅在 51%,而 ChatGPT 則有 87%,因此他認爲 ChatGPT 有可能成爲醫療診斷的遊戲規則改變者。
爲了加速 ChatGPT 應用落地,從技術難度、價值需求等維度看,打造垂直版 ChatGPT 是可行的。
而現在國内有 AI 玩家,已經在這樣做了。
雲知聲 ChatGPT 行業版
最新曝光的進展,智能語音賽道獨角獸雲知聲正在推進 ChatGPT 行業版的建設——
以醫療作爲切入口,構建 ChatGPT 醫療行業版,同時基于 ChatGPT 行業版構建平台,快速擴展到其他領域,再利用領域模型集成 MoE(Mixture of Experts)技術,訓練得到通用 ChatGPT 模型。
而這種從專用到通用的思路。其實是雲知聲一貫的"U+X"做法。在這裏,"U"指的通用大模型算法研發及高效訓練底座平台;"X"則是應用于多個行業領域的專用大模型版本。
事實上這也正在成爲不少企業入局 ChatGPT 的思路,這樣一來,可以利用已有的專用數據優勢。
不過也不是那麽容易走的,更何況雲知聲選擇的,還是對生成内容質量要求更高的醫療行業作爲切入口。
最首要的難題,是要提高醫療知識的可靠程度。ChatGPT 最擅長的,就是一本正經地胡說八道。放在現在 Bing 上聊天搜索、内容生産其實問題不大,用戶們也樂在其中。
但應用在行業中,往往讓非專業人士難以察覺,這會引發各種風險。因此行業版 ChatGPT 要杜絕一切胡說八道,尤其像醫療、教育、工業等行業,内容生成要求極高容錯率很低,也對數據的質量要求也就更高了。
其次,就是實現行業中的 " 性價比 "。任何一項技術能夠大規模落地,都必須要解決「如何以有限的資源,實現效果的最大化」問題。
這也是 ChatGPT 行業落地的必經之路——模型能以更小的參數規模,達到與 ChatGPT 同樣的效果。這也就給這些企業帶來了不小難題。
事實上,雲知聲也坦言,ChatGPT 行業版的參數可能也需要達到百億量級規模,要做出效果并實現規模化應用挑戰也不小。
從某種程度上說,打造行業版的 ChatGPT 比現在通用的 ChatGPT 還要更難,但到真正 ChatGPT 行業落地時,這些問題又都必須得解決。概括來說,就是實現 ChatGPT 工程化能力。
這是每個躬身入局者,繞不開但必須得過的路。
在此基礎上,毫無疑問的是,雲知聲的選擇更難——醫療作爲切入口。這是始終被認爲是行業壁壘高、專業性強、技術難度制高點的領域,也是爲什麽相較于其他行業的盛況,醫療 AI 玩家就顯得少之又少的原因。
但一旦将醫療版 ChatGPT 打通,那麽其他領域的實現,包括最後的通用大模型也就事半功倍了。
作爲成立于 2012 年的 AI 公司,他們一直密切關注 AI 前沿技術,并積極推動技術産業化應用,包括 2012 年的深度學習算法升級和産業化應用,到 2016 年 Atlas 超算平台、知識圖譜和全棧 AI 技術應用,到現在基于 ChatGPT 框架的 AGI 認知技術升級。
同時,在醫療行業有近 10 年深耕,積累的行業知識、數據和應用,還獲得了 2019 年北京市科技進步一等獎。
在回應是否有信心打造 ChatGPT 行業版時,雲知聲方面表示:完全有信心。
前面總結,打造 ChatGPT 離不開高質量的數據,領先的算法和充分的算力。而對于垂直版 ChatGPT 還需要更深厚的工程化能力。
從這幾方面來看,雲知聲的确具有行業參考性。
數據方面,近 10 年來雲知聲積累了全方位的行業數據,包括面向患者的導診、預問診、患者教育和随訪系統,也有面向臨床的語音病曆,病曆質控,單病種質控和醫療風險管理系統,已有近 400 家醫院落地使用。據稱數據規模已達到了 5T,爲醫療行業語言大模型提供數據基礎。
算法方面,而 ChatGPT 所代表的認知智能,本身就是雲知聲核心技術優勢。他們構建了國内最大的醫療知識圖譜之一。從 2019 年至 2022 年,雲知聲的認知智能技術在國内外相關評測中榮獲 7 冠 5 亞。其自主研發的醫療預訓練語言模型 CirBERTa 一度登頂中文醫療信息處理挑戰榜榜首。
在算力上,雲知聲超算平台浮點計算能力可達 8 億億次 / 秒 , 可爲千億級參數規模模型提供算力保障。
而在大模型工程化方面,雲知聲已經研發了 CirBERTa 模型,複現了 GPT-2 模型,并利用模型壓縮和知識蒸餾機制,實現了線上推理效率的近百倍加速,爲大模型的廣泛應用奠定了基礎。
此外作爲行業版 ChatGPT,内容質量保障也是關鍵一環。
雲知聲給出的解決方案是,利用應用在 CirBERTa 的持續學習和知識嵌入技術,基于已有知識圖譜積累,優化 ChatGPT 模型的知識獲取和更新機制。
據介紹,這樣一來可以保證 ChatGPT 回答中的知識正确性,與此同時還可以給出知識溯源信息。
另外,利用雲知聲業内領先的病曆質控技術,可以自動發現生成的病曆中的問題,進而自動生成作爲 ChatGPT 核心技術的基于人類反饋的強化學習(RLHF,Reinforcement Learning from Human Feedback)所需的用戶反饋數據,加速模型的優化。
誰最先吃掉 ChatGPT 紅利?
最後回到事件本身,此前論及 ChatGPT 對行業的價值,都是從宏觀上的産業生态和模式創新上談,比如對人機交互、信息分發、内容生産等方面。
如今随着越來越多的垂直企業入局,ChatGPT 對企業的意義也呼之欲出——一種全新 AGI 的技術範式選擇:基于 " 大規模通用基礎模型 + 輕量級行業應用優化 " 的行業知識整合和問題解決方法。
以往這些場景玩家,對于 AI 的探索可能處于 " 看山是山、看山不是山 " 的懵懂狀态,現在出現了一座 " 更小,而且明知會有路的山 "。
ChatGPT 所表現出來的 " 智能 ",給他們帶來了一種明确的技術方向。
雲知聲 CEO 黃偉也深有體會,甚至于相較于 AlphaGo,他認爲 ChatGPT 所帶來的影響要深厚得多,相當于一場新的" 工業革命 "。
這場革命最大的優勢是,通過自監督注意力機制,能夠充分利用海量無監督數據訓練通用基礎模型,并将感知、認知與生成,用統一框架實現 " 端到端 " 的整合,直接從高質量生成結果上去呈現機器智能。機器采取的人工引導的數據驅動學習方法,與人類的邏輯思維方式是完全不一樣的,類似飛機所采用的噴氣式 " 空氣動力學 " 機制,與鳥類采取的 " 扇動翅膀 " 方式完全不同。
不管是對整個産業,還是單個企業而言,ChatGPT 所帶來的價值确實讓他們不跟不行。
尤其對于一些場景玩家來說,他們還是最有可能吃掉 ChatGPT 紅利的一撥人。
他們有場景有數據、有深厚的行業壁壘,一旦具備 ChatGPT 能力,就可以率先在行業落地。這是其他玩家所不能及的先發優勢。
上一次 AI 浪潮來襲時,最終也是場景玩家率先吃掉 AI 紅利。隻不過現在 ChatGPT 是直接以技術路徑出現,落地速度自然要比以往快得多。
雲知聲 CEO 黃偉也給出了個明确的時間點:
年内就會實現成功應用落地的方案。