有算力就有超越Sora的可能。
70%的代碼問題,現在單純靠基座模型解決不了。
基于垂直場景的大模型應用創新,隻有兩年的窗口期。
ROI是衡量AIGC應用價值的第一标準。
AI給了每個人一次突破自己的機會。
……
在中國AIGC産業峰會的現場,20位大咖展開激辯。從軟件應用、智能終端乃至具身智能等,AIGC正在全面席卷,「你好,新應用!」成爲本屆AIGC峰會主題。
來自AIGC底層基礎設施、模型層、應用層的企業玩家,以及來自市場學術界的洞察者,暢談大模型落地元年這個萬億市場的的機遇與挑戰。
現場烏泱泱一片,500人的會場可以說是座無虛席(其實站也要沒有席了)。
線上也有數百萬網友圍觀并積極讨論,以及數十家行業知名媒體參與了大會的直播跟報道,全網總曝光量超千萬。
爲了讓更多讀者更全面、系統地了解本次AIGC峰會的内容,深入感知這股時代浪潮的發展,量子位聯合各大模型做了萬字梳理,希望能爲大家提供一份有價值的行業參考。
(建議收藏再食用)
本次梳理主要圍繞五個方面展開,分别是AIGC的模型層、應用層、基礎設施層的參與者,以及行業洞察者的觀點,最後是圓桌讨論的精彩觀點。
AIGC模型層:微軟阿裏高通等玩家談落地微軟李冕:AI應用已進入新階段,微軟助力企業級應用全球落地
微軟大中華區Azure雲事業部總經理李冕分享了微軟Copilot與Azure AI平台如何助力企業級應用的全球落地。
李冕認爲,過去12個月AI經曆了數次叠代,現在AI應用已進入到一個新的階段。企業如何打造自己的應用?怎麽實現AI帶來的真正價值?可以從四個方面來考慮應用落地:提升員工生産力,重塑與用戶的互動關系,重塑企業内部流,加強産品和服務。
他強調了在企業打造自己的應用時微軟可以爲企業提供的一系列支持。
AI模型層面,李冕展開介紹了Azure平台支持的三類模型,分别是OpenAI系列模型、第三方開源模型和企業自研模型(BYOM)。同時,也講述了小模型(SLM)在特定場景下的應用前景。
對于開發工具,李冕提到Azure提供低代碼、無代碼的Microsoft Copilot Studio工作台以及針對深度定制的Azure AI Studio,方便企業快速開發AI應用。
考慮到企業級應用需求,李冕還表示微軟不僅在最上面的模型層爲企業提供支持,還提供下面的調度層、硬件層、雲數據中心等的一系列配套服務。
李冕在演講最後重申了微軟在數據隐私安全方面的承諾:
"客戶的數據就是客戶的數據,客戶的數據不會被用來訓練其它模型,所有客戶數據均有企業級防護,受到全面的企業合規和安全控制的保護。"
昆侖萬維方漢:天工SkyMusic音樂大模型将大大降低音樂創作的門檻和成本
昆侖萬維董事長兼CEO方漢分享了"天工多模态大模型的演進落地"。大會當天,昆侖萬維發布了「天工3.0」,這是中國音樂AIGC領域首個實現SOTA水平的模型。同時,他還宣布「天工3.0」基座大模型與「天工SkyMusic」音樂大模型正式開啓公測。
「天工3.0」擁有4000億參數,超越了3140億參數的Grok-1,是全球最大的開源MoE大模型。在MMbench和MMbench-CN測試集上,「天工3.0」性能指标全面超越GPT-4V。
通過專項的Agent訓練,目前大模型可以做到"能搜能寫能讀能聊能說能畫能聽能唱",應對多種複雜的内容創作需求。例如,它可以準确識别"成都迪士尼"是個梗,并給出遊玩攻略;可以自動總結文獻,生成大綱、PPT和腦圖;還可以通過非代碼方式生成智能體。
方漢特别介紹了「天工SkyMusic」音樂大模型,得益于2000萬首音樂的訓練數據和獨特的模型架構,「天工SkyMusic」在人聲識别度、音質等方面已經超越Sora。「天工SkyMusic」支持根據音源和歌手特點生成音樂,并支持多種方言合成,大大降低了音樂創作的門檻和成本——
各行各業使用的歌曲都能通過AI生成,成本迅速從幾萬塊錢降到幾分錢。
最後,方漢分享了昆侖萬維的願景:"實現通用人工智能,讓每個人更好地塑造和表達自我。"他認爲,大模型的演進終将實現AGI,而AIGC能力普及則有助于打破強勢文化的壟斷,實現文化平權。作爲一家全球化互聯網企業,昆侖萬維希望用AI技術爲全球用戶賦能。
阿裏通義千問林俊旸:智能模型應融入對視覺/語音的理解
阿裏通義千問開源負責人林俊旸,在現場分享了阿裏通義千問大模型爲"走向通用大模型"做出的努力。
林俊旸表示,自開源以來,通義千問Qwen(爲了更方便英文發音,對"千問"的音譯)系列模型受到了國内外開發者的廣泛關注。
從去年8月開始,通義千問Qwen系列模型陸續開源上新。從7B、14B參數規模大小開始,直到開源了72B參數版本;最新動作,阿裏通義千問家族還有一名"小成員",是14B參數的MoE模型。而開發者社區的迫切需求,促使阿裏快速開源了32B模型——這個模型的表現與72B參數模型表現接近,并且在某些方面相比,比MoE模型還具有優勢。
林俊旸在現場強調,阿裏通義千問同時十分專注打造大模型使用生态。
首先,通義千問的代碼已經官方融入了抱抱臉的代碼庫,開發者可以更方便地使用通義千問的模型。
其次,通義千問在第三方框架支持方面有不少進展,包括ollama在内的平台,都能一鍵使用Qwen系列模型。
多語言、長序列、Post-training、Agent、多模态等能力相關問題,林俊旸也在現場做了分享。
多語言:通義千問模型本質上是多語言的,而非僅僅是中英雙語的;并且,團隊在多語言能力上進行了檢測和優化。
長序列:Qwen系列模型一直沒有卷長文本,這件事并不好做,不僅要保證"長",同時要保證效果;目前32k版本表現已經比較穩定;大海撈針等評估發現長序列可以在Chatbot上落地實用功能。
Post-training:通過SAT等在數據等方面,優化post-training,讓大模型的潛力爆發。
Agent:實現方式(之一)是做更多數據标注、研究to use agent相關。
多模态(Qwen-VL):非常智能的模型應該融入對視覺、語音方面的理解,今年會重點關注視頻模态的研究,思考如何打造一個VL-Agent。
高通萬衛星:具有異構計算系統的高通AI引擎可以充分滿足生成式AI的多樣性要求
高通公司AI産品技術中國區負責人萬衛星在演講中表示,作爲芯片廠商,高通正通過提供領先的産品和解決方案,推動AIGC相關産業的規模化擴展。
他指出,高通認爲終端側生成式AI的時代已經到來。
高通在去年10月發布的第三代骁龍8和骁龍X Elite兩款産品中,已經将大語言模型完整搬到了端側,賦能了衆多AI手機和AI PC。多模态趨勢下,今年2月,高通也把多模态大模型完整地搬移到端側。在發布的骁龍X Elite這款産品上,高通也演示了全球首個在Windows PC上運行的音頻推理多模态大模型。
萬衛星表示,不同領域的生成式AI用例具有多樣化的要求,背後所需的AI模型也是千差萬别,很難有一種處理器可以完美适用所有用例。
在這方面,高通推出了具有異構計算系統的高通AI引擎,包含多種處理器組件,可以充分滿足生成式AI的多樣性要求。其中重點講了NPU。基于用戶需求和終端用例的多年演進,高通NPU不斷升級。第三代骁龍8的Hexagon NPU還集成了專門爲生成式AI打造的Transformer加速模塊,以及微架構升級、獨立供電軌道、微切片推理等先進AI技術。
萬衛星還透露高通今年會重點支持多模态模型端側化,以及支持更高參數量大語言模型在端側的部署。
說完硬件設計,萬衛星介紹了高通的重要AI軟件産品,包括跨平台、跨終端的統一解決方案高通AI軟件棧(Qualcomm AI Stack)。
你隻需要在高通一個平台上完成模型的優化部署工作,可以非常方便的把這部分工作遷移到其它高通産品線。
此外,高通還在今年的MWC巴塞羅那發布了高通AI Hub(Qualcomm AI Hub)。該産品面向第三方開發者和合作夥伴,可以幫助開發者更加充分的利用高通和骁龍底層芯片的硬件算力,開發出自己的創新AI應用。
最後他總結了高通在AI方面的優勢,在于"無與倫比的硬件設計、頂尖的異構計算能力、可擴展的AI軟件工具以及廣泛的生态系統和模型支持"。
螞蟻李建國:超70%代碼問題單純靠基座模型是解決不了的
超70%的問題需要端到端代碼生成能力解決,目前單純靠基座模型還遠遠不能滿足。
在中國AIGC産業峰會上,螞蟻代碼大模型CodeFuse負責人李建國這樣說道,他還指出,當前代碼大模型雖然在基座模型和應用産品上演進飛速,但要在企業中真正實現研發效率的大幅提升,仍面臨諸多挑戰。
從軟件研發全生命周期來看,從最初的需求設計到編碼開發、測試構建、發布運維、數據洞察等環節,寫代碼可能隻占1/5甚至更少的工作量。
李建國表示,螞蟻集團希望打造一個"研發智能體",通過智能Agents實現任務分發與銜接,将各環節連接起來,全面提升研發效能。
CodeFuse剛發布時,就明确提出"要做全生命周期的代碼大模型"。CodeFuse目前已開源13個倉庫,覆蓋代碼訓練、測試、DevOps運維、程序分析、評測等8大軟件開發領域。李建國表示,這是全方位的開源。
最後再來看整個領域,結合外部統計與螞蟻實踐,基座模型在實際運用過程中隻能解決大約30%的問題,剩下70%的問題還需要端到端代碼生成能力。除此之外,在Agent推理能力、需求需求拆解、跨模态交互等方面還需要持續演進。
李建國還重點提到,垂直場景中,比如金融場景,生成代碼的安全、可信、可靠的要求,這也是螞蟻正在重點攻克的難題。
雖然挑戰不少、道阻且長,但李建國認爲,螞蟻将攜手開源社區一起努力,在萬物摩爾定律的牽引下,未來兩三年可以一定程度解決這個問題。
小冰徐元春:市場真正的運營主體是非常樸素的
小冰公司聯合創始人兼首席運營官、人工智能創造力實驗室負責人徐元春的演講主題是"數字人+大模型:打造商業應用新場景"。
"作爲一家算法公司怎麽掙錢和作爲一家AIGC産業公司怎麽賺錢,這是最後要回答的問題。最先要回答的問題是,大家用這個東西怎麽賺錢?",徐元春這樣講。
他通過幾個特别具體的例子,展現了小冰是如何讓大家賺到錢的。
第一個是一個美裝美業個體博主,她利用小冰虛拟人和大模型平台,創作出了自己的數字人,在短視頻平台用數字人分身分享創作服裝穿搭内容。僅用40多天,她的單條視頻播放量就達到200萬,日均爲線下門店引流6-8個意向客戶。而這,已經能讓她的生意更好地發展起來。
第二個是一家中小型的企業,一開始是做軟件開發、技術賦能、後台的支持,現在使用小冰的技術平台做轉型,成爲AI服務商,4個月内爲雲南300家中小企業提供了AI賦能服務。
第三個是更大的行業領軍企業,他們将小冰的數字人與大模型技術深度整合到了自家各類硬件産品中,實現"開箱即用",每一個有屏的硬件設備都可以變成一個全新的交互載體。
在徐元春看來,真正能把産業化應用做得越來越深,不在于廟堂之高,而是在江湖之遠:
你發現真正市場在運行的主體、市場從業者對AI沒有那麽多複雜的想法,他們非常樸素。
他進一步補充道,小冰将大模型和數字人更加深入地植入到了企業的工作流和任務系統中,數字員工相當于有了集合企業知識和數據閉環的大腦,可以讓業務流程和客戶溝通更加順暢。
最後徐元春講述了商業的閉環。有"雲+端"這樣的軟件+硬件産品的閉環,也有交互+内容這樣的形式上的閉環。而今天通過真實的企業、個體案例,使用技術去獲得更多競争力、讓自己的生意變得更好這其實是所有閉環裏最重要的節點。
"找到并激活每個關鍵節點,才能實現技術商業化的真正閉環。"
AIGC應用層:普通人可以怎麽AI?美圖吳欣鴻:基于垂直場景的大模型應用創新,窗口期隻有兩年
美圖公司創始人、董事長兼CEO吳欣鴻則分享了美圖視頻大模型的探索之路。
美圖作爲影像工具起家,經過16年的發展,現在主要聚焦在影像和設計産品,形成了圖像、視頻和設計三大AI産品品類。
吳欣鴻現場展示了一個僅用半天時間制作的60秒AI短片,運用了開拍、WHEE、Wink等一系列AI工具,相比傳統動畫工作流,大幅降低了制作門檻,提升了效率。
吳欣鴻預計今年下半年,将會有很多的國産Sora紮堆上市,美圖也是其中的一家。
我們認爲越來越激烈的競争有三個點非常關鍵:第一、創意超越現實;第二、工作流的整合;第三、垂直場景的能力。
其中基于垂直模型的大模型應用創新,吳欣鴻認爲有兩年窗口期。
展望未來,吳欣鴻認爲,視頻大模型的标配除了文生視頻,還将湧現圖生視頻、視頻生視頻、音頻生視頻等更多生成方式,應用場景非常廣闊。
今年,以Sora爲代表的視頻生成隻是個開始。随着視頻大模型對物理世界理解的加深,有望實現劇情設計、分鏡、轉場等更專業的能力,與視頻制作工作流深度結合,後續可以生成1-5分鍾視頻。
金山辦公姚冬:WPS已不再是一個文檔編輯器
金山辦公副總裁、研發中台事業部總經理姚冬在本次大會上分享了金山辦公在擁抱AI浪潮中的思考與實踐。
作爲一家辦公軟件公司,金山辦公最近五年将"多屏、内容、雲、協作、AI"作爲戰略重點,在AIGC浪潮下,最近兩年尤其注重AI和協作這兩點的發展。
就在前幾日,金山辦公發布企業級産品WPS 365。
姚冬表示,當前的WPS已經不再是一個文檔的編輯器,而是包含企業數據協作、知識管理、通信以及各種跟算法相關的模型服務等多種功能于一體的辦公平台。在最近WPS 365發布中,其包含的WPS AI企業版聚焦爲客戶打造企業大腦,主打三大類能力:AI Hub、AI Docs和Copilot Pro。
其中,AI Hub是企業使用AI能力的基座,提供了一個兼容市面上各種大模型的統一接口和開發體系,讓企業可以靈活選擇和切換适合自己的模型。
AI Docs是用來幫助企業盤活海量非結構化數據資産。
員工每天都在寫文檔,這些其實是企業非常重要的隻是。但過去一直有個問題,這類知識無法再利用,因爲非結構化。
傳統的關鍵詞搜索很難準确命中文檔中的知識,而基于大模型和多模态技術,WPS 365實現了對企業内部各種格式文檔的智能化閱讀理解、搜索問答,并嚴格遵循文檔權限管控。
Copilot Pro則是通過AI驅動自然語言交互式辦公。比如做數據分析,傳統方式需要寫腳本、設計公式、繪制圖表等,門檻很高。在Copilot Pro中,用戶隻需用自然語言表達需求,讓AI自動執行全流程。
姚冬強調,文檔數據在人和人之間沒有傳播其實一個數據孤島,而今天的辦公不再隻是簡單寫寫文檔分析數據,更重要的是人和人、人和AI之間的協作。
印象筆記唐毅:AI驅動的"第二大腦",既給用戶自由,又降低信息管理焦慮
印象筆記董事長兼CEO唐毅,有科技創業、跨國企業管理以及投融資領域的豐富經驗。
他帶領的印象筆記,2018年成立印象研究院,開啓了對AIGC的探索,去年3月起,利用自研印象大模型驅動"印象AI"産品和服務,落地賦能旗下全線軟件和智能硬件産品。
唐毅的分享聚焦"知識管理"領域。在他看來,AIGC的發展仍處于早期繁榮階段,挑戰和機遇并存。
他認爲,相比算力、數據集和模型規模的快速擴大,模型算法的進展則相對緩慢,且算力的投入和收益不成比例。此外,目前而言,随着模型訓練對人類公共領域數據的窮盡,越來越多合成數據的加入也會導緻模型輸出效果下降。
與此同時,在實踐和競争中發現,特定數據驅動的模型能力的增長在不斷加強,模型的小型化和高效化趨勢也日益突出。
談及印象筆記的大模型及産品進化方向,唐毅表示将從複合AI系統(Compound AI System)角度出發,提升自研印象大模型的能力,同時發揮用戶、數據、場景、載體、交互等方面優勢,打造真正的AI超級應用。
在AI驅動下,印象筆記将幫助用戶智能彙聚信息、高效閱讀吸收、輔助靈感記錄與創作、自動完成知識整理與提煉,成爲用戶真正的、智能的"第二大腦"。
逐際動力張力:人形機器人未來将實現平台化應用
通用機器人初創公司逐際動力的聯合創始人兼COO張力,在中國AIGC産業峰會現場分享了關于人形機器人發展及其與AGI關系的深刻見解。
目前,人形機器人的雙腿移動能力已經有了實質性突破,而操作能力仍然受限,是因爲AI還不能完全根據多模态場景形成自己的行爲,如何利用多模态大模型生成機器人自主的運動和控制,是産業界和學術界都在追趕和研究的部分。
在硬件和軟件算法方面,尤其是大腦和小腦的協同上,人形機器人仍需取得更多突破。
張力暢想,未來的人形機器人可以實現平台化的應用,就像今天的iPhone+APP一樣。機器人通過安裝不同的應用程序,利用自身的運動控制能力,執行對應的各種任務,從而極大地擴展應用範圍。
從本質來講,機器人就是一個類似或者超越人運動能力、計算能力和感知能力的機電系統。技術方面,事先規劃好的運動控制這種是相對傳統的技術;而如果需要跟外界産生更多的交互,如環境認知感知、物體檢測、接觸反饋等,就需要新的技術。在這方面,AGI對于機器人的影響非常大。
在不斷研發叠代産品的過程中,逐際動力形成了通過模仿學習、深度強化學習以及基于感知的運動控制等關鍵的新技術,推出了人形機器人、雙足機器人,以及四輪足機器人。
張力分享了他對人形機器人市場前景的看法:
無論tob還是toc,具身智能在未來有非常大的應用場景。
在技術邊界不斷擴大過程中,如何通過沿途下蛋,把相對成熟的技術和産品實現商業化;形成自主的移動能力和移動操作能力是關鍵;機器人與AGI、AIGC打通,加強場景的認知、理解,實現任務的分解,更好完成規劃決策,這些都非常重要。
得到快刀青衣:AI給了很多人一個突破自己的機會
得到聯合創始人、AI學習圈主理人快刀青衣的演講主題是"六邊形戰士,AI 驅動下的個人能力革命"。
"六邊"在快刀青衣這裏指的是産品能力、輸出能力、提效能力、創新能力、管理能力、設計能力。在他看來,AI技術的發展讓他個人的六邊能力得到全面提升。
他從創新和輸出兩方面分享了過去一年的心得。
首先,快刀青衣認爲,AI創新的源泉可以從四個方面考慮:你自己也想用的産品、一個困擾你很久的痛點、你熟悉行業能預見到的巨大變化、你對它充滿熱情而又具有挑戰性的事情:
如果四項占兩項就可以幹,占三項就非常值得你花很多時間去研究它。
以此爲出發點,快刀青衣介紹了得到自主研發的AI陪練小程序"開始練練",用來給員工進行AI實戰陪練,收到AI的反饋。如此一來,練習後的員工再面對真人客戶時就能輕松解答客戶的問題。
接着他分享了開發這款小程序的初衷。一開始是想讓自己公司的程序員用,後來程序員們都表示自己不是靠溝通幹活的,是靠寫代碼。後來有一次發朋友圈,一個連鎖美容院的老闆發現這對他們一線美容師介紹産品特别管用……
快刀青衣由此感慨,"最初那個起點可能跟你想象的不一樣,過程中可能會有很多不一樣的東西"。
此外,他還強調了企業專有知識庫、專有數據的重要性,并表示自己在做這個AI項目時給團隊設置了幾個限制:團隊不超過3人,缺的能力用AI補;不碰硬件,不訓大模型;隻做提升用戶能力的培訓場景。
認清自己能力,做自己更擅長的事情,不能因爲AI能力強就覺得啥都能幹。
輸出能力提升方面,快刀青衣分享了自己從公衆号年更"保證号不被凍結"到365天日日更的轉變,以及每周都要做一場和AI有關的直播聊一下别人都在做什麽。這一切都是這波AI浪潮給他帶來的輸出能力的提升。
最後,快刀青衣引用了喬丹的一句話:"我可以接受失敗,但不能接受不去嘗試。"
AIGC基建層:如何支撐産業數字化轉型?亞馬遜雲科技王曉野:四個要點讓企業抓住生成式AI機遇
生成式AI這個時代已經開始,它并不是未來将發生的事情。
亞馬遜雲科技大中華區産品部技術總監王曉野在演講中表示,生成式AI将在18個月内颠覆所有産業,爲全球帶來高達4.4萬億美元的巨大市場商機。
對于企業如何抓住生成式AI機遇,王曉野總結了四大要點:選對場景、選對工具和合作夥伴、重視數據這一企業核心競争力、關注人才培養與AI相關的監管與治理。
他指出生成式AI在跨語言溝通、商業決策以及洞察、智能服務和營銷素材的生成、整體運營效率提升等六大場景大有可爲。
王曉野指出,得益于模型能力和成本的優化,生成式AI正在從局限的文生圖、營銷、聊天機器人等初級應用,進化到更廣泛的領域。比如在Claude等大模型支持下,語言翻譯、情感陪伴、遊戲内容審核等更多場景的落地正在悄然發生。他強調多模态交互将是大模型發展的重要趨勢。
在助力企業應用生成式AI方面,亞馬遜雲科技提出了"三層原子能力":底層基礎設施加速層、利用基礎模型構建生成式AI應用的工具比如Amazon Bedrock、頂層開箱即用的生成式AI應用。
從電商到雲計算,亞馬遜一直在用技術和AI颠覆和創新原有産業。王曉野最後表示,下一個亞馬遜正在構建并且持續投入的地方,就是生成式AI的三層原子能力,希望能與客戶共赢生成式AI時代。
商湯楊帆:打造AI基礎設施生态是降低AI應用門檻的關鍵
"中國AI應用正在變得越來越多,越來越多新的場景被打開,今年下半年或是明年上半年,我們将看到中國生成式AI市場的爆發。"
商湯科技聯合創始人、大裝置事業群總裁楊帆在大會上做出了這樣的判斷。
楊帆分析道,當前尺度定律仍在主導AI的技術叠代,AI産業發展的核心問題在于"産業端的投入産出比不夠好"。随着AI生産和應用成本的提高,用降低成本的方式降低使用門檻其實是必然趨勢。
而AI基礎設施的建設,正是破解這一難題的關鍵。
隻有把這些通用能力,不管大規模的算力集群還是機器模型的API,甚至未來圍繞超大規模數據完整的體系,把它做标準化、基礎設施化、服務化,才有可能在未來讓整個AI産業創新門檻更低、性價比更高,更多人進來,在上面賺到錢。
關于商湯在這方面的投入,楊帆先是介紹了商湯在臨港投建的智算中心的最新的進展:
截至去年底,包括臨港在内已經建成七八個節點形成連接,還有很多新的節點在建。連接算力超過12000P,領先單點算力接近10000P。同時,商湯在芯片層面也與産業鏈展開了廣泛合作,臨港智算中心已有超15%的國産芯片算力。
夯實算力基礎之外,楊帆還講述了商湯推出的不同層級的軟件産品和服務體系,其中提到了降低模型調用成本的全套解決方案。
他還分享了商湯自家大模型的發展,除了去年看到比較多的語言類的任務,現在更多在圖像、視頻、三維重建不同領域提供不同基礎模型的方案。
總的來講,商湯還是更希望以基礎設施平台化能力支撐更加繁榮的場景生态。
AIGC洞察者:"有算力就有超越Sora的可能"北大袁粒:大模型幻覺問題,我們幾乎是公開最早提出檢索增強來解決
北京大學深圳研究生院助理教授袁粒在大會上分享了他們團隊在多模态模型垂直領域應用的實踐經驗。
他表示,用來閑聊的玩具并不能滿足用戶真正的需求,AI必須轉化爲實實在在的生産力,而生産力則是由垂直領域來轉化。
袁粒教授介紹了他們團隊基于鵬城的雲腦和自建算力,基于通用和行業數據開發的幾款代表性産品:
ChatExcel:一款面向數據表格處理的多模态AI助手,可用文字直接操縱表格,進行數據可視化和營銷策略分析等。這項成果已經在某奢侈品巨頭落地應用。開發這塊應用的博士生也創辦了元空AI。
ChatLaw:中文法律垂直領域應用,可爲用戶和律師提供信息分析、結構化抽取、生成法律文書等服務。該産品采用了檢索增強技術,引入法律文本數據庫參考,有效緩解了大模型的幻覺問題。
檢索增強這一做法當時我們也是業内最早做出來的,隻是我們沒有把這個概念提出來,讓大模型做大模型的事情,讓檢索做檢索的事情。
最後袁粒教授介紹了他們同北大校友企業兔展智能聯合發起的Sora複現開源計劃Open-Sora Plan,目标是實現一個視覺版LLaMA。該項目分爲三個技術部分:視頻編解碼器、Diffusion Transformer和條件注入。
目前已經開源了第一版預訓練模型和CausalVideoVAE,在開源社區引起廣泛關注,在GitHub上獲得近萬星。該框架最大特點是能夠生成較長視頻,得益于訓練時壓縮喂入的長視頻片段。
接下來,該項目将分三個階段實現更高的複現目标:第一階段已開源;第二階段争取開源支持20秒720P視頻生成的模型;第三階段希望借助産業界算力實現超越原版Sota的性能。
袁粒教授表示,開源推動了AI的繁榮,他們也希望通過開源回饋社區,讓學術界和産業界都能共享技術成果。
矽谷Fusion Fund張璐:初創企業在現階段都可走"雞尾酒"模式
作爲長期關注和布局AI領域的頂級投資人,矽谷Fusion Fund創始合夥人、斯坦福大學客座講師張璐分享了她對全球尤其是矽谷AI技術與産業發展的深度洞察。
張璐指出,AI正在成爲一項全産業的數字化轉型工具,而海量高質量數據的湧現爲AI的大規模應用奠定了基礎。
在此背景下,AI将帶來比互聯網時代大10倍的機會,但其中隻有三分之一會留給初創企業。
作爲初創企業,找到對的工業界和對的應用場景,找到合适的切入點非常關鍵,數據是核心。怎樣拿到高質量的數據?怎樣讓數據成爲你的競争優勢點?
初創企業要想在AI浪潮中抓住先機,必須找準自身的創新切入點,充分利用大公司搭建的生态平台實現共同發展。
現階段,初創企業基本上都可以做"雞尾酒"模式,即調動最前沿大模型的API,在上面配套使用開源模型,再自己做些修改進行模型調優。
"在這個優化過程中,很快會發現兩個特點。"張璐說,第一個特點是數據的質量比數據的數量更重要;第二是不需要一個模型去解決所有的問題。
在投資方向上,張璐表示,Fusion Fund聚焦AI的應用層和基礎設施兩個維度。
其中,應用層主要關注醫療、金融保險、機器人、太空等擁有海量高質量數據和廣闊應用前景的領域;基礎設施層則布局從芯片到雲端的各個技術節點,旨在突破算力、能耗、隐私等AI發展的關鍵瓶頸。
張璐在演講中談到,随着開源社區的蓬勃發展,小模型、行業專屬模型也将成爲AI應用的重要趨勢。
她強調,對于創業者而言,高質量數據的獲取與應用比海量數據更爲關鍵,定制化的小模型在特定場景下的效能甚至可以與通用大模型相媲美。
人大盧志武:有算力就有超越Sora的可能
中國人民大學高瓴人工智能學院教授盧志武分享主題爲《VDT:基于Transformer的通用擴散視頻生成》。
VDT是Video Diffusion Transformer的縮寫。這是盧志武帶隊的項目,去年5月發布在arXiv上,并已被頂會ICLR接收。
它的創新之處是将Transformer應用于視頻生成——這遠在OpenAI發布Sora之前,以及在模型中引入統一的時空掩碼建模。
爲什麽要将視頻生成從基于Diffusion模型轉向基于Transformer模型?
盧志武表示,Transformer模型具有捕捉長期或不規則時間依賴性的優勢,這在視頻領域尤爲重要;而Transformer模型的參數量可以根據需要增加,這爲提高模型性能提供了靈活性。
在演講中,盧志武提到了VDT模型中關鍵的時空Transformer block,并解釋了其與現有模型如Sora的細微差别。他指出,由于算力限制,團隊在設計時采取了空間和時間分開的處理方法,以提高效率。
那VDT與Sora這樣的SOTA模型相比如何?盧志武分析,兩者在時空Attention處理上有所不同,但這個差别并不是本質上的。
我們推測Sora強大的物理世界模拟能力,主要來自于統一的時空token化和Attention機制。
盧志武在最後表示,團隊通過實驗發現,VDT模型效果隻和消耗的算力有關,這與OpenAI的圖像生成模型DiT的結論一緻。
"算力越大效果越好。拿到更多算力,超越Sora也不是不可能。"
圓桌對話:ROI是衡量AIGC應用價值的第一标準
"你好,新應用!"峰會設置了一場圓桌論壇,讨論的主題非常務實:怎麽落地?如何賺錢?
——從ChatGPT問世到現在,一年半的時間裏,AIGC有一個非常明顯的趨勢,就是從建設基礎層逐步向"用起來"去發展。今年也被很多人認爲是AIGC應用元年,在這個時間節點上,有必要坐下來聊一聊與AIGC相關的接地氣的話題。
本次邀請到的三位代表性嘉賓分别是:
輕松集團技術副總裁高玉石,主導了該集團在健康保障領域的AI智能體系研發建設。
阿裏雲通義大模型業務負責人徐棟,在雲原生、端雲架構和AI大模型領域的深入實踐。
在AI和企業服務領域積累了寶貴經驗的瀾碼科技創始人兼CEO周健。
在量子位主編金磊的主持下,圓桌主要圍繞3個話題展開:大模型應用用得怎麽樣了、AI賺錢之道各有招、百模大戰利大于弊。
大模型應用用得怎麽樣了
高玉石表示,輕松問醫Dr.GPT的升級給醫患雙方都帶來很大便利。在醫生端,臨床研究的效率提升2倍;科普内容創作實現月産萬篇規模;智能輔助診療的采納率達86%,診斷時間從十分鍾縮短爲1-2分鍾。患者端的健康顧問覆蓋30多萬用戶,活躍率70%。
周健的瀾碼科技基于大語言模型打造企業級AI Agent,服務于企業日常辦公場景下的增強自動化和創新業務的開展,在保險、銀行、政務等行業和領域已實現專家知識賦能基層員工和管理增效的典型應用。
徐棟從通義大模型的視角給了兩個維度的觀點,目前看到第一類是大模型塑造了産業的核心商業模式,比如遊戲行業的NPC、社交領域的角色扮演,以及像智能硬件端側的應用;第二類是企業級市場,未必是對商業模式做了根本性重塑,但大模型突出體現在降本增效上,最典型的客服場景、知識庫的問答等等,這些場景在企業内部提效幫助很大。
AI賺錢之道各有招
在AIGC商業化方面,徐棟表示目前AIGC應用尚未出現殺手級産品,未來可能出現基于訂閱制的創新商業模式,可以拭目以待。
高玉石則表示他們主要通過爲C端用戶提供增值服務獲利,如醫療健康類的保險、商城、科普付費等。對B端則主要是按需付費。
周健提到一種可能性是把AI Agent/基于大語言模型的數字員工按月收費。将專家知識、模型、算力等全新生産要素整合爲一套服務,面向金融等行業按使用量收費分成。
對于如何評判一款AIGC産品的價值,三位嘉賓一緻認爲要看其能否提升ROI,包括降本增效、提高收入或改善用戶體驗等。但具體衡量方式要根據行業和場景特點而定。
百模大戰利大于弊
針對去年百家争鳴的"百大模大戰"是否有必要,高玉石認爲從加速技術發展角度看是有價值的,但資源損耗問題需要注意。他預判最終可能在科技巨頭及其投資的創企中展開洗牌。
周健提出,未來通用大模型可能隻需要少數幾家,但細分的垂直領域模型可能多達上百個,需要更多創業公司參與。
徐棟也認爲,"百模大戰"并非完全鋪張浪費,它培養了人才隊伍,積累了模型和數據方面的經驗,我們也歡迎非同質化的模型的競争,這些培養的人才、積累的經驗也會幫助大模型落地到千行百業,對未來AIGC的商業化大有裨益。
後續還将有大會嘉賓更詳細版内容分享,盡情關注!
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~