多模态能力中的理解能力,其實比生成能力更重要。
文|《中國企業家》記者 闫俊文
編輯|李薇
頭圖來源|受訪者
誰是 AI 界的餘承東,敢說敢幹,貼着技術最領先的公司打仗?劉慶峰顯然算一個。
20 多年前,劉慶峰和科大訊飛的對手是微軟、百度等大公司,戰場是智能語音;現在,劉慶峰的目光跨越兩萬公裏的太平洋,他隻有一個态度:貼着矽谷一家名爲 OpenAI 的公司打仗。
"GPT-5 一出來,我們有可能跟它又有點差距了,但我們還在迎頭趕上,我們知道怎麽做。" 今年全國兩會期間,全國人大代表、科大訊飛董事長劉慶峰接受《中國企業家》獨家專訪時說。
科大訊飛的作戰圖是這樣的:2023 年 5 月,科大訊飛發布星火認知大模型;6 月 9 日,突破開放式問答,多輪對話能力和數學能力再升級;8 月 15 日,突破代碼能力,多模态交互再升級;10 月 24 日,通用模型對标 2022 年 11 月發布的 ChatGPT(GPT3.5),中文能力實現超越 ChatGPT,英文能力與 ChatGPT 相當;到了今年 1 月,星火認知大模型的數學、語言理解、語音交互能力都超過了 GPT-4 Turbo,代碼和多模态理解能力也達到了 GPT-4 Turbo 的九成。
"6 個月内,我們可以達到現在全世界最好的 GPT-4 最優的水平。" 劉慶峰說。
OpenAI 最新推出的 Sora,被稱爲 " 世界模拟器 ",被認爲颠覆了現實與虛拟的界限。但不同于 OpenAI 在技術上的 " 花活 ",劉慶峰是一個堅定的務實主義者。
來源:受訪者
劉慶峰認爲,對于大模型的多模态能力,生成視頻隻是娛樂,更優先級的是進入工業場景、生活場景、家庭陪伴機器人等具身智能," 大模型的多模态理解能力比多模态生成更重要 "。
1 月底,科大訊飛發布業績預告,預計 2023 年實現歸屬于上市公司股東的淨利潤 6.45 億元 ~7.3 億元,同比增長 15%~30%,公司在人工智能通用大模型及行業大模型方面高強度投入并取得顯著進展。2023 年,科大訊飛的股價上漲了大約 42%,截至 3 月 7 日收盤,其股價爲 50.27 元,總市值 1164 億元。
以下爲劉慶峰采訪内容實錄(有删減):
談 AGI 與新質生産力
劉慶峰:第一,通過人工智能對現有的産業,以 " 人工智能 +" 的行動來進行全面賦能。由于這一次以大模型爲代表的通用人工智能的發展,它在文本生成、知識問答、邏輯推理、數學能力、代碼能力、多模态能力等方面都有非常強的提升。
所以它可以改變信息生成的方式,改變知識生成的方式,改變人機交互的方式,改變科研範式和代碼編程這些産業的效率,會徹底颠覆現代以人力和市場爲主要形式的商業模式。
人工智能本身就會爲傳統産業以及各産業在升級過程中,帶來全新的新質生産力價值環節的提升。
第二,人工智能可以創造更多的全新的産品和業态,可以帶來未來全新的發展機會。舉個例子,當我們的(機器)翻譯技術沒有超過人工之前,翻譯機是很難普及的,可是随着技術進步,現在伴随出境遊客變多,我們的翻譯機銷量大增。它不僅僅是一個中英翻譯,它有 80 多個翻譯語種,覆蓋全世界 200 多個國家和地區,這些技術都帶來了全新的成長。
類似翻譯機這樣,人工智能創造了很多全新的産品形态,比如醫療方面,有了銀發關懷、家庭醫生随訪、慢病管理、院後随訪等,很多原來沒有的服務形态,現在通過人工智能技術一把創造出來了。
談 AGI 實現的路徑
劉慶峰:我覺得基本邏輯是這樣的:ChatGPT 讓人看到,用戶是願意爲好技術買單的。
OpenAI 通過技術,一開始有用戶因爲好奇心買單,但是我們可以看到更多的是實用主義來買單。
2023 年五六月份,ChatGPT 的活躍度一度有所下滑,但到 9 月、10 月的時候又重新上來了。最早大家是因爲好奇,但實際上它有很多方面做不好的地方,比如有時一本正經地胡說八道,也有很多錯誤。
從我們既有代碼能力來看,它可以通過谷歌二級程序員測試,可是用我們現在給的代碼測試集,在真實場景下,GPT 得分隻有 62 分,GPT-4 是 71 分,現在我們科大訊飛已經做到 68、69 分了,所以很多人在用的時候會一開始極度興奮,但在使用過程中也會出現一些失望。
這就跟 Gartner 曲線(描述技術發展周期的專業圖表)一樣,總有一個概念爆發的夢幻期,然後到泡沫破滅。但它不是真的破滅,是有很多人帶着過度樂觀、過度神化的角度看到沒有那麽好,又開始理性,理性之後再慢慢堅持下來,又會出現持續增長,進入推動社會進步的階段。
這一次我們看到大模型的進程非常快。從訊飛星火也能看到,現在我們有将近 3000 萬用戶,他們使用最多的不是周末而是工作日,不是晚上而是白天,上午 9:30、下午 3:30 是高峰期,因爲它提升了你的工作效率,帶來了很多剛需應用上的提高。
所以通用人工智能表現出的特點是一個技術的進步,一個專門的技術應用就可以獲得 VIP 用戶的付費,可以形成一個産業生态。
但我覺得更大的賦能肯定還是在各個行業領域的最終落地,體現在最後的具體産品、系統和服務上面,這才是更主流的。
訊飛星火在 2023 年 5 月 6 号推出來之後,短短半年多時間已經有 40 多萬個開發者團隊,而且在我們整個 AI 開放平台上,2023 年一年新增了 200 多萬個開發者團隊,大家在各個領域用它來創造新的産品。
談 OpenAI 推出的 Sora
劉慶峰:大家對 Sora 過度神化了。實際上,它的底層能力還是 GPT-4。沒有 GPT-4 的語義理解能力、文本生成能力,Sora 是沒法做出來的。
在基本能力之上,OpenAI 做了語音大模型 Whisper,做了視頻理解大模型 GPT-4V,實際上因爲有了 GPT-4 的底層能力和 GPT-4V 來幫助做标注,因爲很多的視頻原來靠人去标注,一幀畫面,你要花很長時間才把所有細節都寫清楚。
舉個例子,迪士尼動畫片《白雪公主》畫了好幾年,因爲你要把它一幀幀的所有細節都描述出來,靠人難度太大。GPT-4 會幫助人标注,使得數據标注這件工作能夠快速啓動,從而使得大模型可以訓練,然後用傳統的常規圖像生成方式結合 Transformer 的架構,就是現在我們看到的 Sora。
來源:Sora 演示視頻截圖
Sora 并未讓大模型應用對真實世界理解又上了個大台階,也不是對物理的認知又上了個台階,本質是 GPT-4 的底層能力在這個領域的一個成功實踐。
對千行百業賦能更重要
劉慶峰:訊飛星火 3.5 現在已經超過 GPT-3.5 了,我們正在對标 GPT-4,半年内,我們能夠達到現在 GPT-4 最好的水平。
當然,GPT-5 一出來,我們有可能跟它又有點差距了,但我們還在迎頭趕上,我們知道怎麽做。我們本來計劃是星火對标 GPT-4Turbo,然後年内會出 GPT-4V,現在 Sora 出來,大家有很多需求,有可能我們會把 GPT-4V 的進度往前提,然後再做 Sora。
從本質上來說,我們和 OpenAI 沒有代際差距,隻是我們的算力、我們的數據資源優先往哪邊放的問題。我們也有類似的計劃(推出 Sora),但這個計劃要排在通用大模型後面一點。
在我看來,對千行百業的賦能,大模型多模态能力中的多模态理解能力,其實比多模态生成更重要,它會對工業場景,對生活場景,對家庭陪伴機器人,對具身智能有巨大的推動。
生成視頻還隻是對娛樂,對媒體(賦能)。大模型的多模态識别才是對千行百業深度賦能,這個我們排在更優先級,而且我們現在在國内更加領先了。
與華爲合作新進展
劉慶峰:我們跟華爲通過軟硬件深度聯手,2023 年 10 月,我們在國内推出首個萬卡規模的可以訓練萬億浮點參數的國産大模型 " 飛星一号 "。
星火 V3.5 就是基于完全國産算力訓練出來的,國産算力現在跟美國最新的算力比還有一些差距,但是通過軟件和硬件的深度結合,通過網絡,多卡多機聯動的優勢可以做适當彌補,從而使得在算力方面我們不至于被徹底卡住 " 脖子 "。
在這個基礎上,我們同樣可以訓練出追趕美國最好的大模型系統。通過大模型能力快速追趕的同時,我們就可以在教育、醫