11 月 13 日,在 " 數聚未來 —— 鳳凰大模型數據研讨沙龍 " 上,鳳凰衛視正式推出 " 鳳凰智媒 AI 數據業務 ",并發布首批 " 中文訪談對話數據集 " 和 " 正向價值對齊數據集 "。
據介紹, " 中文訪談對話數據集 " 基于鳳凰衛視訪談類節目生成,規模達百萬輪次,連續對話的平均輪次超 30 輪次。" 正向價值對齊數據集 " 的構建則以權威學術團隊的研究成果爲指導,由鳳凰衛視專業内容團隊人工撰寫而成,規模達十萬個問答對。
除上述兩個數據集外,鳳凰數據還有多個數據集正在加工生成中,包括面向财經領域的評論數據集、面向視頻内容理解領域的視頻問答數據集、面向數字人領域的談話動作數據集和語音合成數據集等。同時,鳳凰數據也在同相關數據夥伴共同構建具有高價值和稀缺性的高質量數據集,包括華語圖文對數據集、華語書籍數據集和網絡流行語數據集。
除了高質量數據集産品外,鳳凰數據還将推出以數據爲中心的一站式 AI 訓練平台,計劃于近期開放内測。平台将與高質量數據集市實現互聯互通,确保數據在平台内的安全使用。平台也将提供一系列以數據爲中心的服務,包括豐富的數據處理工具、可視化模型訓練和微調套件、全面的數據和模型評估框架和多雲異構的算力資源。
據悉,2024 年,鳳凰數據計劃分三批發布更多高質量數據集,并正式上線 AI 訓練平台。同時,鳳凰數據還将舉行 "Link + 科技峰會 " 和 "AI 數據挑戰賽 " 等系列活動,連接各界,解決行業痛點,共同推進 AI 與華語文化的認知進程。
面向高校及科研院所,鳳凰衛視發布了 " 鳳凰智媒 AI 築巢計劃 ",提供部分數據集的免費授權,以助力學術研究和創新。鳳凰 AI 數據官網目前已正式上線,爲行業客戶提供數據集試用下載服務。
鳳凰衛視執行總裁兼運營副總裁李奇表示,數據仍然是目前人工智能發展的短闆之一。數據就像是人工智能時代的石油資源,它的開發和應用都将是一個系統工程,需要産業界無數企業共同參與。鳳凰衛視作爲一個立足香港、背靠内地、面向全球發展的國際媒體,也将是人工智能時代的積極參與者,期望發揮鳳凰的媒體平台優勢,爲産業界建立一個共建共享的數據平台,共同推進人工智能的快速發展。
鳳凰衛視融媒體研發副總經理馮偉表示,高質量的數據語料庫是 AI 時代承載中華文化的新載體,鳳凰數據的核心目标是爲 AI 時代的中華文化傳播奠定堅實基礎,讓 AI 與中華文化認知對齊更簡單。
微博 COO、新浪移動 CEO 、新浪 AI 媒體研究院院長王巍在主旨演講《數據賦能:微博探索 AIGC 多場景應用》中提出,圍繞大模型,目前已經形成由基礎設施層、模型層、應用層共同構成的 AIGC 生态體系。對于媒體而言,AIGC 将帶來内容生産方式的變革,AIGC 時代的内容質量、效率及産量都将迎來高速發展。在未來,AI 将創造出一種新型的 " 人機共存消費模式 "。
智譜 AI 副總裁劉佳帶來《ChatGLM3: 模型、平台與應用 》的主旨演講。劉佳表示,随着 2020 年 ChatGPT 的問世,生成式 AI 步入 " 第一階段 "。而在當前,市場已進入 " 第二階段 ",生成式 AI 開始在千行百業落地。劉佳形容說,之前我們找到了錘子,現在我們要發現更多的釘子,讓大模型的能力應用落地。
華爲雲 EI 産品部部長尤鵬帶來《盤古大模型的數據之道》的主旨演講。尤鵬表示,華爲希望和鳳凰衛視一起共建數據黑土地,共同探索産業界自下而上的數據合作路徑和商業模式,共同構建大模型的 " 數據 - 算力 - 商業 " 飛輪,推動數據産業發展。
中國科學院信息工程研究所研究員張潇丹介紹了 " 正向價值 " 對于大模型的重要性。她表示,雖然大模型正處在蓬勃發展的時代,但也存在諸多風險因素,比如虛假信息的生成、語言偏見等,這些風險源自于訓練數據的偏頗、模型自身邏輯缺陷及缺乏糾錯能力等,因此亟需建立大模型的正向價值體系。
此外,MiniMax 副總編輯蘇彤分享了《大模型應用落地與安全管理探索》的主旨演講,百度、京東、螞蟻、360、知乎、曠視、蜜度、面壁智能等業界廠商代表也出席了此次論壇活動。
除主旨演講外,香港科技大學 ( 廣州 ) 協理副校長熊輝,視覺中國創始人、總裁柴繼軍,商湯科技數字文娛總經理栾青,中科聞歌創始合夥人兼 CTO 曹家參加了《" 與未來對話 " 大模型下一階段的落點挑戰與機會》圓桌論壇,磐霖資本風險合夥人、獨到科技聯合創始⼈兼 CTO 陳利人擔任主持人。
香港科技大學 ( 廣州 ) 協理副校長熊輝指出,雖然算力是行業公認的中國大模型面臨的挑戰之一,但在他看來,真正的挑戰是數據。雖然國内大模型在中文數據上占有優勢,但整體的中文數據在整個人類知識的數據體系中僅占很小一部分,中國大模型如何能夠真正做到跨語言體系、跨文化體系,構建起高價值、高質量、全方位的數據集,仍然面臨較大挑戰。
視覺中國創始人、總裁柴繼軍表示,AIGC 将會對傳統的版權生态形成極大挑戰。在他看來,人類創作與機器創作能否真正做到人機協同尚無明确答案,如何更好地保護版權,讓内容源頭的創作者分享人工智能再創作的價值,也仍然充滿挑戰。
商湯科技數字文娛總經理栾青指出,當前市場對于大模型的未來發展及應用暫時處在探索階段,需要各方力量共同努力。作爲發展大模型公司之一的商湯科技,她表示,鳳凰衛視此次推出的數據平台令人振奮,期望行業中有更多的媒體、企業能參與其中,推出更多具備結構化、更豐富的數據資源。
中科聞歌創始合夥人兼 CTO 曹家認爲,我們需要正視本土大模型與國外以 OpenAI 爲首的大模型産品的差距,但本土大模型在中文能力仍具有一定優勢。他表示,大模型的訓練數據首先規模要足夠大,其次需要平衡數據之間的内容配比,同時要保證數據的高質量,清洗掉數據中的冗餘、劣質信息。