上線不到一周日活躍用戶破百萬,2 個月破億……
OpenAI 的 AI 聊天機器人 ChatGPT 火爆全球,成為現象級消費類 AI 應用,并由此引發新一輪的 AI 競賽。
率先卷起來地,當屬搜索賽道:
谷歌發布基于谷歌 LaMDA 大模型的下一代對話 AI 系統 Bard;
百度官宣了正在研發的文心一言(ERNIE Bot)項目計劃在 3 月完成内測;
微軟推出由 ChatGPT 支持的最新版本 Bing(必應)搜索引擎和 Edge 浏覽器。
ChatGPT 為什麼會如此出圈?應用在搜索領域乃至其他領域又有哪些壁壘和挑戰?
ChatGPT" 出圈 " 源自底層技術突破
受益于長年 AI 技術研發積累、深度學習技術突破、算力提升、大數據積累等因素,ChatGPT的出現讓所有搜索巨頭倍感壓力:
一方面是因為搜索的産品模式多年來的變化不大;另一方面則是因為 ChatGPT 展現出的對話能力讓人心驚,畢竟 " 聊天機器人 + 搜索引擎 + 文本生成器 " 太像一場降維式打擊。
Google Gmail 的創始人 Paul Buchheit 也說:
ChatGPT 将像搜索引擎殺死黃頁一樣摧毀谷歌。
面對可能的未來,微軟打出的牌是 " 新必應 "。
由 OpenAI 提供技術支持的新必應在吸取了 ChatGPT 和 GPT-3.5 的重要經驗和進步上,開發了名為 Prometheus(普羅米修斯)的新模型,讓回答結果更相關、更及時和更有針對性,同時提高安全性。
同時,新必應加入了基于實時信息的最新結果(此前 ChatGPT 的模型訓練僅涵蓋到 2021 年)。在功能體驗上的升級則主要包含," 問答搜索 " 功能被直接嵌入搜索引擎,以及人工智能聊天模式的切換。
目前來看 ChatGPT 之于搜索引擎的技術價值,更多是 " 加持 " 和 " 增強 ",幫助人們從搜索和網絡中更快速地獲取更為準确的結果,至于 " 摧毀谷歌 " 的言論則更像是一種産品方向,而非具體結果。
甚至,陷入焦慮的并不止 " 谷歌們 ",越來越多的普通人開始擔心自己的工作會不會被人工智能取代,畢竟,随着技術發展的加速,它将持續應用于社會經濟與行業的更多實際場景,一時間,程序員、設計師、市場研究分析師、廣告媒體行業、新聞行業等似乎都成了 " 高危職業 "。
真的如此嗎?
為預訓練大模型引入更多模态
ChatGPT 的出現意味着自然語言理解技術邁上了新台階,理解能力、語言組織能力、持續學習能力更強,其驚豔的用戶體驗源自于背後強大基座模型,技術層面上,Chat 不是重點,GPT(Generative Pre-training Transformer,預訓練生成模型)才是。
特别是預訓練大模型表現出的理解能力、語言組織能力以及持續學習能力,已經開始顯示出它成為社會智能基礎設施的趨勢,即少量企業通過預訓練大模型的能力與産品為大量企業基于提供基于此的個人消費及行業應用。
具體來說,絕大多數 B 端企業及研究機構對人工智能的使用需要遵循算法、算力和數據三位一體的研究範式,即以一定的算力和數據為基礎,使用開源算法框架訓練智能模型,這直接産生了高昂的技術成本和應用門檻,而面對千行百業中碎片化、多樣化、長尾化的下遊應用需求,模型通用性、泛化性差的問題更加突出。
AI 預訓練大模型模式通過 " 預訓練大模型 + 下遊任務微調 " 的方式,可以有效地從大量标記和未标記的數據中捕獲知識,極大地擴展了模型的泛化能力。
應用視角下," 大規模 " 和 " 預訓練 " 的兩種屬性意味着預訓練大模型可以通過非常低成本的微調快速适應新的産業、領域、行業,實現跨模态、全鍊路的知識積累、沉澱、傳播、複用。
特别是行業級應用意味着将有更專業、更複雜、更多變的應用場景,需求的呈現可能包括畫面、聲音、視頻等多樣的形态,僅僅基于自然語言的大模型并不能夠滿足各種行業場景中的個性化需求。那麼,在語言理解之上引入圖像、音頻和視頻等模态,讓 "ChatGPT" 擁有語言思維的同時,還能夠被賦予眼睛,那将會是什麼樣的新物種?
甚至有點《流浪地球 2》的 MOSS 那味了。
聯彙科技自 2019 年已經将預訓練大模型的創新要點錨定在跨模态領域。
自研OmModel 多模态預訓練大模型是業界最早的語言增強視覺識别模型之一,基于大規模自監督學習的多模态人工智能算法,融合語言和視覺模态理解,實現下一代認知域人工智能應用場景落地。
已完成基于行業的億級圖片、萬級視頻、十億級圖文大規模預訓練,用更小的标注樣本數量,融合更多的模态信息,獲得更為準确的 AI 模型。
OmModel 是百億級參數大模型,識别精準度大幅度提高,訓練數據成本降低 90%,開發周期由平均 3 個月縮短為 10 天,可有效覆蓋大量長尾應用場景。實現億級多模态數據秒級匹配,匹配速度在 GPU 環境提高 5 倍以上、在 CPU 環境提高 300 倍以上,推理速度提高 5 倍以上,大幅度降低多模态大模型部署成本。
OmModel 不僅是國内首個通過工信部信通院大規模預訓練模型系統檢驗的大模型項目,在多模态技術能力和平台能力方面表現優異,并作為技術平台提供方參與工業和信息化部、科學技術部共同主辦的首屆 " 興智杯 " 全國人工智能創新應用大賽,更為運營商、電力能源等各行業參賽企業應用提供技術及平台保障。
在 ECCV 2022 挑戰賽中斬獲 Full-Shot(全量數據學習)賽道與 Few-Shot(小樣本數據學習)賽道雙料冠軍,更被國際知名市場調研機構 IDC 評為多模态 AI 大模型領域領先代表。
更簡單的理解是,同為預訓練大模型,ChatGPT 的能力是在自然語言層面,而 OmModel 則完成了文字、畫面、音視頻等多模态的擴展與融合,這意味着 OmModel 可以以更為多樣、豐富的産品及應用形态賦能千行百業。
場景驅動 AI 下的創新應用已經開始
聯彙針對運營商、視頻雲、能源電力、智聯網等各類企業客戶及需求,通過建設視頻 AI 業務平台、SaaS 平台服務等多樣的服務方案,加速 OmModel 與 OmVision 已經在衆多行業和領域完成落地應用,圍繞客戶需求及應用場景,幫助用戶形成自主的 AI 技術框架與算法能力,産出不同的算法與技術方案。
例如擁有大量視頻數據的運營商,在他們的視頻雲平台建設中如何實現不同場景的智慧管理?
聯彙科技通過預訓練大模型技術,實現一個模型應對 N 個場景,算法建模實現大規模複制調整與創新,形成具有運營商特色的預訓練大模型,為其視頻雲業務的拓展提供預訓練大模型技術支撐。
内置預訓練大模型的視頻雲平台有着顯著的平台優勢:
視覺算法操作系統内置預訓練大模型,可以通過一個大模型支撐所有的應用算法能力服務;
基于算法運行平台能夠快速适配視頻雲用戶應用場景,實現根據每路視頻流進行單獨算法管理和調優,增強算法抗幹擾能力;
通過運行平台充分利用算力資源減低應用成本;
可以靈活選擇所需要的能力,并且快速建立新的落地場景,提升視頻雲的靈活性和競争力。
針對智慧化升級的電力企業,在基層無人機電路巡檢的業務場景下,存在輸電線路小部件典型缺陷識别準确率不高、識别系統運行速度慢、識别結果依賴人工複核等棘手問題,聯彙科技推出針對輸電線路多模态數據的人工智能預訓練算法,以及針對小部件缺陷的圖像分析模型,提升輸電線路小部件典型缺陷檢出率和識别精度,并通過蒸餾算法,實現缺陷檢測模型的參數壓縮,提高模型的運行速度,提升輸電線路缺陷檢測的整體效率,為電網公司在輸電線路無人機巡檢缺陷精準識别領域提供應用示範。
面向智慧安防、智慧城市、智慧電力、工業視覺、機器人 +、智能制造等不同行業與領域場景,聯彙科技通過 OmModel 建設 OmVision 開放平台産品、智能硬件以及定制化實施方案,為不同行業提供智能的算法模型生成與應用能力,降低 AI 技術使用門檻。
未來 AI 走向與趨勢
預訓練大模型無疑是人工智能進化中的一個重要裡程碑,它極大地降低了人工智能技術應用的成本和門檻。ChatGPT、OmVision 類的應用産品以極高的示範效應豐富了人工智能應用市場的生态版圖。不論是同賽道的差異化内卷,還是引入更多技術加速探索新産品,人工智能最大價值與意義始終是為人所用,讓人從底層的、基礎性的、簡單重複性的勞動中解放出來,聚焦于真正的創新、創造。
聯彙科技首席科學家趙天成表示:
新一代 AI 大模型不會僅停留在語言模型,更可能的形态是處理語言、視覺、聲音等多任務的多模态 AI 模型,這是通往強人工智能更可能的通道,出現知識提煉能力和複雜推理能力更強的工具都将是時間問題。
正如之前多次的科技革命,人工智能正處于從" 可以用 "走向" 更好用 "的爆發階段,人們将在越來越多的行業與領域中感受到它的存在與價值。不論是 " 谷歌 ",還是普通人,科技的進步,必然會淘汰一部分基礎性工作,而在汽車出現後的最好辦法隻有一個,那就是學會開車。
未來将有更多領域出現智能化加速。或許是更多遊戲裡的虛拟數字人,或許是每個家庭都能擁有的智能管家機器人,或許是新聞裡的數字主播,又或是無所不有的數字孿生……随着多模态預訓練大模型的持續叠代,聯彙科技也将于今年發布性能更強的 OmModel V3 版本,科技進步與創新讓這些看起來科幻的場景一步步實現,未來不是未來,未來是當下。
* 本文系量子位獲授權刊載,觀點僅為作者所有。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 追蹤 AI 技術和産品新動态
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~