出品 | 虎嗅科技組
作者 | 齊健
編輯 | 廖影
頭圖 | 視覺中國
8 月 30 日下午,網上傳出一則消息稱:百度、字節、商湯、中科院旗下紫東太初、百川智能、智譜華章等 8 家企業 / 機構的大模型位列首批通過《生成式人工智能服務管理暫行辦法》(以下簡稱 " 生成式 AI 管理辦法 ")備案的名單。
博主 " 李飛 " 的爆料微博
經過一晚發酵,8 月 31 日,這則消息中的多家廠商對外官宣了全面開放服務的消息。
對于算法備案流程,2022 年 2 月 28 日中央網絡安全和信息化委員會辦公室(以下簡稱 " 中央網信辦 ")發布的 " 關于互聯網信息服務算法備案系統上線的通告 " 中,曾對此作出過解釋:互聯網信息服務算法備案僅對備案主體所提供的算法推薦服務及服務中使用的算法推薦技術進行備案,信息由備案主體自行填報,該備案不代表對有關主體、算法、産品、服務等的認可,任何組織和個人不得将備案結果用于宣傳和其他商業用途。
目前這 8 家公司在宣傳上均未強調 " 備案 ",隻是宣傳産品和對公衆開放的舉措。 "其實這次的備案就是發放牌照的前奏。" 參與了某大模型備案工作的張華(化名)告訴虎嗅,雖說備案不等于獲得 " 牌照 ",但目前這 8 家陸續對公衆開放模型的動作,無一例外都在暗示他們已經非常接近牌照了。
AI 新規何以閃電落地
有關部門上一次推出人工智能管理規定,是在不到一年前,2022 年 11 月公布的《互聯網信息服務深度合成管理規定》。這則規定的征求意見稿發布于 2022 年 1 月,2023 年 1 月正式施行,到 6 月 20 日公布了阿裏、騰訊、字節、美團等第一批備案企業。
相比于上一條規定,這次的生成式 AI 新規不可謂不快。
生成式 AI 管理辦法自 2023 年 4 月開始征集意見,僅用 3 個月時間,就完成了暫行辦法制定。新規 8 月 15 日正式生效,此後半個月時間就已經公布了第一批備案企業。
閃電出台,閃電落地,AI 大模型市場的變化日新月異,規則的制定也不得不随着技術發展實時更新。
" 最近我們和監管部門的交流幾乎是一周三次,同時也不斷在跟北京市相關部門報材料。" 另一位參與了本次備案工作的楊明(化名)告訴虎嗅,從 4 月生成式 AI 管理辦法征集意見開始,監管部門頻繁與大模型技術供應商開會探讨技術、管理細節,并在内部對管理辦法進行了幾輪叠代。
在規則的叠代過程中,監管工作也是平行開展的。
" 其實備案工作已經跑了幾個月,遠比 8 月 15 日早很多。" 楊明告訴虎嗅,2021 年底頒布的《互聯網信息服務算法推薦管理規定》中規定,算法備案的法定時限爲 30 個工作日。但在實際操作過程中企業往往會不斷補充新材料,完成時間可能在 2-3 個月。在國内百模大戰的情況下,這個工作難度更大了。
新規迅速落地的動力,一方面來自高層對生成式 AI 等前沿技術的重視,另一方面則來自巨大市場潛力的倒逼。
" 在消費場景、勞動密集型的工作場景中,大模型工具都是面向公衆用戶的,缺乏監管會給技術供應商帶來巨大的困擾。" 在某數字化技術供應商 6 月召開的大模型應用産品發布會上,該公司技術負責人曾向虎嗅表示,他們被這家 AI 技術供應商要求嚴格保密,如果透露使用了誰的大模型,會被視爲違約。而對于爲何要對案例保密,這位負責人分析,很大一部分原因可能是要規避監管風險。
" 生成式 AI 的安全風險在全球範圍内都有共識,但它畢竟是一個商業化産品,其背後蘊含的市場潛力巨大,任何市場也不會因噎廢食,一味封堵。" 接近監管部門的馮清(化名)表示,對于生成式 AI 來說,符合商業化、市場化需求的監管或将是當前的重點。
" 生成式 AI 管理辦法出台後,政策會從問題導向轉爲目标導向發展就是我們的目标。" 觀韬中茂律師事務所合夥人王渝偉認爲,從規定的條文來看,新規是重 " 疏 " 而不重 " 堵 "。
備案之後還有多長的路?
楊明告訴虎嗅,目前生成式 AI 的責任主體仍是技術供應商,這對于技術供應商來說,存在很大的安全挑戰。但要在技術上把控大模型輸出的内容并不十分困難,真正的難點在于如何識别用戶對模型的惡意引導。
在實際操作中,通過前後處理、SFT、Prompt 微調,以及域内知識增強等多種方法,都可以減少大模型的錯誤和幻覺。某國産大模型研發經理周鑫(化名)介紹說,國内一些基于開源模型發布的對話産品曾出現過:在回答 " 你是誰 " 這個簡單問題時,錯把 LLaMA 當國産模型的情況,這就是因爲開發者對 " 你是誰 " 這個問題進行了處理。
然而,在一些用戶隐晦的表達中,這些技術手段并不能保證百分之百地過濾有害信息。在此前對 ChatGPT 的測試中,就曾有網友以電影劇本創作爲陷阱,誘導 AI 描述了危險爆炸物的制作方法。
" 我們曾經在大模型上做過多個測試,很多問題不一定會觸發敏感詞,但輸出的内容卻可能不太合規。" 楊明表示,中文裏有很多詞語在不同語境中的表達意思完全不同,這也很容易導緻生成内容 " 跑偏 "。
雖然監管嚴格,但有了 " 合法身份 " 的大模型在研發和商業化方面,無疑會更加快人一步。首先,在研發方面,随着公衆用戶的湧入,大模型可以獲得更多來自真實用戶的數據反饋,對模型的優化叠代能起到很大的支持。
在商業化方面,二級市場對通過備案的 AI 公司表示了 " 熱烈歡迎 "。 8 月 31 日收盤後,百度股價上漲 2.12%,商湯股價上漲 3.31%,未在備案名單中被提及的科大訊飛股價則下跌了 1.14%。
然而,一些業内人士對此并不看好。多位 AI 大模型研發人員對虎嗅表示,取得牌照對大模型商業化的主力—— B 端、G 端用戶的刺激恐怕不會太大,因爲這些應用本來都在強監管下,生成内容能産生的社會影響有限且可控。
通過備案真正獲益的應該是 C 端用戶," 最大的受益者應該是像百度這樣,C 端産品比較成熟的公司。" 張華表示,國内 C 端用戶對 AI 大模型的好奇心很強,但一直沒有特别好的使用途徑,開放公衆注冊,會大大降低生成式 AI 的使用門檻。
" 不過大模型的運營成本太高了,國内大模型可能也會像 ChatGPT 一樣,在開放初期免費,後續再逐步收費。" 不過,張華認爲,雖然很多人都對 AI 大模型感興趣,但最終爲 AI 付費、買單的人恐怕不會是使用 AI 的人。
彭博社在 7 月 30 日發布的一項對股票市場投資者的調查 Markets Live Pulse 顯示,在 514 名受調投資者中,約 77% 的人計劃在未來六個月内增加或保持對科技股的投資,且隻有不到 10% 的投資者認爲科技行業面臨嚴重的泡沫危機。然而這些看好科技行業發展的投資者中,卻隻有一半人對 AI 技術持開放的接受态度。
50.2% 的受訪者表示,目前還不打算爲購買 AI 工具付費,多數投資公司也沒有計劃将 AI 大範圍應用到交易或投資中。
即便是在 SaaS 意識比較強的美國市場的專業投資人士,對 AI 工具的付費意願都不甚強烈,國内的普通用戶付費意願可想而知。
百度、谷歌兩大搜索巨頭分别在最新一季度的财報中強調了 AI 對廣告業務的推動作用。由此看去,AI 時代的商業模式,很可能會與互聯網時代一樣。爲 ToC 市場買單的人大概率還是那些互聯網公司的廣告主們。
下一波備案的可能有誰?
除中國科學院自動化研究所的紫東太初是多模态模型,本次提出的備案産品大多是文生文内容。不過,在 6 月 20 日公布的《互聯網信息服務深度合成管理規定》備案算法清單中,百度的文生圖産品文心一格已經完成了備案。
在安全方面,雖然文生圖通過圖片識别、prompt 調整,在技術上很容易限制生成不安全内容,但對于一些細節内容的生成仍然存在風險,例如旗幟、地圖的生成都很容易出問題。
楊明認爲,本次備案的企業在篩選過程中,可能考慮到企業成分的平衡。有商業化公司,有高校背景的企業,也有中科院這樣的研究機構。另一方面,也是考察大模型産品的能力。
在本次備案的模型中,并未出現備受關注的通義千問、訊飛星火,以及 360 智腦等。新華社研究院此前發布的《人工智能大模型體驗報告 2.0》中,上述 3 款模型均位列國産主流大模型測評榜前列,僅次于文心一言、商湯商量和智譜 ChatGLM。
"我認爲首批備案的模型,首先是考察能力和安全性,另一方面可能也會考慮到國産化的因素。" 中國科學院自動化研究所主管劉昊介紹說,紫東太初的研發主要是基于自建的全棧國産化基礎軟件體系,在訓練過程中,用到的算力也大多基于華爲昇騰 GPU 的 910 和 910b。
截至發稿,登錄網信辦官方的 " 互聯網信息服務算法備案系統 ",仍隻能查到 6 月 20 日公布的, " 根據《互聯網信息服務深度合成管理規定》,公開發布境内深度合成服務算法備案信息 "。前述消息中提到的,根據《生成式人工智能服務管理暫行辦法》公布的備案算法名單仍無法在系統中查到。
互聯網信息服務算法備案系統