國産大模型能大戰,又有一員猛将入局。
就在剛剛,第四範式自研大模型" 式說 "(4Paradigm SageGPT)在上線 2 個月後,終于來了一波能力首秀。
而且縱觀整場活動的發布,最直觀的感受就是:不一樣,着實不一樣。
怎麽說?
首先,他敢在現場演示的時候,拔!網!線!
效果是這樣的,例如上傳一張《狂飙》劇照之後,讓 " 式說 " 描述一下照片,它的回答是:
這張照片中有一組穿着制服的男子站在一張桌子前。
而後追問劇照中有幾個人," 式說 " 也立即給出了答案:9 個。
再來看下以文生圖的能力,先讓它畫一下" 獅子頭 ":
不難看出,生成圖片的效果是過關的;此時現場很多人立即開口說到:" 紅燒獅子頭 "呢?
第四範式不在怕的,馬上在現場演示了起來:
接下來,是代碼生成方面,第四範式在現場直接讓 " 式說 " 秀了一下"Python 猜随機數 ":
面對敢于拔網線的 live 演示,現場觀衆也是驚歎與掌聲不斷。
但 " 不一樣 " 的點還不隻于此,而且上面展示的這些能力,也僅僅是" 開胃菜 "。
因爲第四範式的 GPT,并不是 " 你以爲的你以爲 ",而是不同于其它廠商的一套玩法——
用 AIGC 的能力重構軟件(AIGS),目的就是以此來提高企業軟件的用戶體驗和開發效率。
例如讓 " 式說 " 分析集裝箱及小箱子尺寸,并設計裝箱方案。
它就會先向用戶咨詢與之相關的細節的信息,然後便一步一步執行它的方案,還是會給出思考過程的那種。
對此,第四範式 CEO 戴文淵在現場給出了他的解釋:
C 端産品已經逼近用戶體驗的上限,而 B 端的企業級軟件往往是個十分複雜的執行系統。
目前這些 B 端軟件極爲複雜的交互體驗,以及複雜性帶來的極低開發效率,恰恰爲生成式 AI 留下足夠大的重構和改造空間。
不是你以爲的 GPT
整體來看," 式說 " 之所以能夠擁有上面展示的這般能力,是因爲在它的背後擁有三大技術 " 利器 "。
首先就是多模态大語言模型技術。
" 式說 " 在最初 2 月發布之際所支持的能力是單一模态的,即文本對話能力。
而時隔僅 1 個月,第四範式便将語音、圖像、表格、視頻等多模态輸入及輸出能力融入了進來。
第二大技術 " 利器 ",則是企業級 Copilot。
值得一提的是,這個 Copilot 并非是微軟、GitHub 的那個 Copilot。
而是第四範式通過自研大語言模型對專業領域的知識做理解,以便幫助用戶實現某些功能。
例如在開發的過程中,在企業級 Copilot 的加持之下,所需的成本就隻是把 API 對接進來即可。
什麽概念?
這就好比 ChatGPT Plugins 一般,隻需要安裝特定領域第三方的插件,就能讓 ChatGPT 在這個領域變得更加聰明、專業。
同樣的,當企業使用 " 式說 " 時,Copilot 就可以調出企業軟件的有關功能,員工可以通過語音、圖像、表格、視頻等形式獲取想要的答案。
例如在航空制造業,軟件設計人員隻需要上傳一些圖片,即可提出要求讓 " 式說 " 在上百萬的工裝零件庫中找出相似零件,并進行組裝:
由此可見," 多模态大語言模型 +Copilot"這套組合打法,可以讓 AIGC 在産業實際落地過程中更加得心應手。
但若是僅僅如此,依舊還是遠遠不夠的。
因爲上述能力隻能去應對某些單一的、碎片化的任務,而産業中的問題往往更加紛繁複雜。
就好比我們在用 Photoshop 去美化一張圖片時,往往需要涉及裁剪、調濾鏡、調亮度等等多個步驟。
不過往往人們想要的結果是一步到位,直接說一句 " 給我生成某個産品的海報 ",所問即所得。
而這種情況放在企業生産過程中,不僅是要完整結果那麽簡單,還需要對生成的過程做到 " 不黑箱 ",步步均可解釋。
爲此,第四範式便在上述兩大 " 利器 " 之上,引入了第三個關鍵技術——企業級思維鏈(Chain of Thought,CoT)。
思維鏈這個概念最早是由谷歌提出,是一種特殊的上下文學習。
它不同于标準提示隻是給出輸入 - 輸出對的示例,思維鏈提示還會額外增加一段推理的過程。
員工隻需要交代一個任務,它不僅能夠給你一個較爲完美的答案,而且還會把期間所有流程是怎麽思考的、如何執行的,一一都解釋清楚。
值得一提的是,第四範式這種企業級思維鏈是針對特定領域學習的 " 套路 ",是更具專業性、可信度的那種。
不過有一說一,第四範式今天的發布,并非是趁着這波大熱潮一蹴而就的事情。
據第四範式介紹,早在 BERT 出來的時候,範式研究院就開始關注并投入在這個技術領域,GPT3 出來以後就更加明确了這個方向。
與此同時,第四範式也坦誠地說 " 相比今年的投入,過去幾年肯定還是有差距的 "。
整體來看第四範式的技術路線,大緻可以總結爲三步:
式說 1.0:擁有生成語言對話能力,主要場景是文庫問答;相當于讓 GPT 學習的企業知識後,可以自然地與員工交互,解答專業問題,并且是可溯源的。
式說 2.0:加入文本、語音、圖像、表格、視頻等多模态輸入及輸出能力,并增加了企業級 Copilot 能力。
式說 3.0:發力 Copilot 和思維鏈,提升使用傳統 B 端企業軟件的體驗。
爲何如此布局?
一言蔽之,AIGS,即用 AIGC 的能力重構軟件。
畢竟能夠用起來的技術好技術,雖然 AIGC 熱潮很火爆、諸如 GPT-4 這般效果非常強悍的技術出現了,但它們之于産業,目前又帶來了怎麽技術價值?
這便是第四範式所思考的根本問題,而且戴文淵表示:
要做到 AIGS,大模型未必需要是知識廣博、十項全能冠軍的通才。
更重要的在于模型具備 Copilot 和思維鏈 CoT 的能力。
在第四範式看來,傳統 B 端軟件先是出現過體驗上的不足,例如企業内的報銷系統、HR 系統、OA 系統等,可以說是 " 菜單接菜單,菜單何其多 "。
而大語言模型的到來,使得這些複雜系統可以通過更好的交互方式去實現功能的調用,這是颠覆之一。
例如在 AI 改造後的企業軟件,以預定會議室爲例,不再需要在選日期、選時間段、選會議室了。
而是像跟秘書對話一般,直接來一句 " 幫我預定某某時間段的會議室 ",即可。
在企業軟件開發上,亦是如此。
因爲傳統 B 端企業軟件往往都是高度定制化、基于菜單式的開發,每次一個功能升級,又要周而複始的經曆原型圖、設計、開發等,至少是月級别的開發時間。
但由于新的交互形式的出現,現在功能和邏輯隻需在數據、API 和内容層面下功夫即可,變成了天級别的開發效率,這又是颠覆之一。
正如第四範式所說:
我們看到大模型能夠帶來用戶體驗的提升,開發效率的提升,所以一定會形成軟件行業的飛躍,就是誰率先能做出來的問題。
當軟件産業被改造以後,整個行業的業務價值、商業模式都會得到飛躍。這是一個巨大的市場。
那麽 AIGS 這條路,具體又該如何走?
第四範式對這個問題也給出了自己的見解,主要分爲三大階段:
第一階段:Copilot 調動不同的信息、數據、應用,作爲助手完成用戶的指令。相當于在所有企業級軟件系統裏,配備一個指揮官。指揮官聽用戶的指揮,比如 " 把照片亮度調亮 20%"。
第二階段:Copilot+ 基于企業規則的 " 知識庫 ",AI 能夠參照規則做複雜工作,比如 AI 查詢了 " 人像美化 " 知識庫後,能執行把照片修好看的步驟。
第三階段:Copilot+CoT。軟件系統的使用行爲最終會被大模型學會,形成 AI 針對這個領域的思維鏈,意味着 " 把照片處理得更好看 " 這種複雜指令,AI 能自動地按照步驟完成。
但更深一層的,若是細看下第四範式的過往,就不難發現如此布局背後的本質—— " 做企業級 "、" 與軟件公司打交道 " 似乎一直是刻在第四範式的一個基因。
那麽這一次,第四範式是否能用 AIGC 重塑産業軟件的新範式,是值得期待了。
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~