訊飛聽見 CTO 兼訊飛聽見平台業務部總經理蘇文暢
2023 年 12 月 1-3 日,2023T-EDGE 全球創新大會暨 EDGE AWARDS 創新評選在北京 751D · PARK 傳導空間舉辦,本次大會主題爲「新視野 新鏈接」,邀請國内外頂尖創新與商業領袖齊聚一堂,共同回顧 2023 年的行業洞察與發展,展望未來一年的技術革新趨勢與可能。
12 月 1 日下午,訊飛聽見 CTO 兼訊飛聽見平台業務部總經理蘇文暢在钛媒體 2023T-EDGE 大會上發表了名爲《基于 AI 的内容處理革新》的主題演講。
今年,人工智能的應用與迅發展迅速沖進大衆的視野,行業也随之掀起了 " 百模大戰 "。在蘇文暢看來,人工智能的持續積累爲通用人工智能打下了紮實的基礎,現階段通用人工智能已具備文本生成、語言理解、知識問答、邏輯推理等七個維度的多模态能力。
他表示,之前科大訊飛在人工智能領域已經做了大量的工作,包括 2008 年在語音合成上面,也達到了普通人的普通話水平。在 2015 年,首次超過了人類速記員的水平,有了這樣的突破才有了後面記錄包括現場同傳場景所做的工作。
随着時代的發展,内容創作所使用内容創作的工具也是在不斷發展的。AIGC 時代,科大訊飛也在思考是不是會有一些新的内容創作工具的出現,來滿足用戶更多的需求,比如語音轉文字後可以直接生成采訪稿件或者會議紀要等。
"認知大模型的出現,帶來了解決人類剛需的全新機遇",蘇文暢說道," 認知大模型一個很重要的變化就是基于算力、算法以及數據的整體提升,帶來’智能湧現’,可以讓我們基于一個通用大模型,去做很多任務。"
從最早的語音文字以及翻譯,到現在基于 AIGC 在記錄和寫作兩個場景了做了一些提升,科大訊飛的産品除了提供在線的 C 端訪問的端口,也可以提供 B 端或者 G 端定制化解決方案。
" 我們希望通過之前的 AI 感知的技術,以及認知大模型相關的技術結合,爲我們的企業、各種組織和個人提供生産力效率的工具,激發大家的想象力 ",蘇文暢如是說。
以下爲蘇文暢演講實錄,略經钛媒體 App 編輯:
各位領導、各位嘉賓下午好,我是科大訊飛的蘇文暢,今天會場兩邊有中英雙語字幕,這也是我們訊飛聽見的産品。
今天談到 AIGC 都會提到 AIGC 對于内容創作的影響,以及對于内容創作的機遇。我今天演講主要聚焦于我自己在科大訊飛裏面做的業務,核心聚焦在兩個場景的内容處理,一個記錄的場景還有一個寫作的場景。我們從最早的語音轉文字以及翻譯,以及基于現在的 AIGC 在記錄和寫作兩個場景做了一些工作。接下來會跟大家逐步的做一些分享。
科大訊飛一直從 1999 年成立以來,緻力于語音及人工智能相關技術研發以及相關産業化,我們也建立了多個國家級平台,一直緻力于讓機器能聽會說,讓機器能理解會思考,用人工智能介紹美好世界。
說到人工智能,之前科大訊飛已經做了大量的一些工作,包括 2008 年在語音合成上面,達到了普通人的普通話水平。在 2015 年,我們首次超過了人類速記員的水平,有這樣的突破才有了後面記錄包括現場同傳場景所做的工作。後續我們通過智醫助理這樣的産品,通過國家級醫學的考試,也是超過大多數人類考生的水平。
5 月 6 号,科大訊飛發布了星火大模型,6 月 9 号做了升級,對開放式問答還有數學能力做了升級,8 月 15 号在代碼能力以及多模态交互上面做了一些升級,以及在 "1024" 發布了訊飛星火 3.0 的版本。
我們發布認知大模型,獲得了很多業界的好評,包括在新華社研究院國産大模型報告當中獲得了不錯的成績,麻省理工科技評論方面給予了我們最聰明大模型的稱号。
認知大模型很重要的變化,基于算力還有算法以及數據整體的不斷的提升,帶來了智能的湧現,讓我們基于通用大模型做很多的任務。我們總結起來,當前通用人工智能主要有文本生成、語言理解還有知識問達、邏輯推理 7 個維度的能力,這些能力對我們改變信息的分發獲取模式,以及革新内容生産模式,全自然交互領域,帶來一些全新的機遇。
大家都知道内容創作是需要使用這樣的工具,随着時代的發展,内容創作所使用内容創作的工具也是在不斷發展的。尤其到近現代,處理内容創作的文檔,從最早的比較注重排版到移動互聯網時代比較注重團隊協作以及随時随地可訪問性。
在 AIGC 時代,我們也在思考是不是會有一些新的内容創作工具的出現。每個人都會有這樣的寫作的場景,有些任務會很緊張,沒有足夠時間完成,另外很多時候被領導或者客戶安排了任務,沒有相應的靈感,不知道該從何下筆,即使寫了,寫出來之後因爲各方面原因,個人寫作技巧也不是很好,會浪費大量的時間。因此,我們也會感到非常焦慮或者帶來一些壓力。
針對這個,我們最早的時候涉足内容處理領域,在 2015 年基于語音轉文字技術開發了一些 APP 和網站,能夠很快速的記錄,便于分享成爲了可能。在所有記錄方式中,記錄方式有很多種,可以采用手寫或者使用錄音,錄音有一個問題錄是非常容易的,事後回聽非常痛苦,這場會議多長時間就花費多長時間。
過往,我們跟很多用戶做一些交流,他們會給我們反饋。我們把語音轉成一個文字,會後他可以看相應的内容,可以快速的浏覽,他想基于此做一些采訪稿或者歇一歇會議紀要之類的,更深層次的問題。基于這些,剛好 AIGC 認知大模型的出現,爲我們解決這一類問題帶來了新的機會。
我們在 5 月 6 号訊飛星火發布的時間,發布了希望訊飛寫作的産品,最早的時候這個産品展示了一段錄音一鍵成稿,不管做采訪還是開會,需要上傳一段錄音幫你生成新聞稿,或者有這樣一段錄音幫你生成一篇會議紀要這樣的一個場景。随着多個版本不斷的叠代,對話寫作、模闆寫作、寫作工具,還有個性化素材是我們的四大核心功能,能夠幫助用戶更好的完成自己的寫作,讓你更會寫。
具體來說,第一個寫作模式就是對話式寫作,從後台去看,很多用戶還是很樂于使用對話式寫作的,這個可以很好的激發靈感以及幫助你做一些頭腦風暴,讓你獲取更多的信息,方便你後期的寫作。
我們也圍繞對話設計了一些方便你寫作的菜單提示,以及方便你完成多輪交互。對于用戶來說,帶來很大便捷,使用起來有很大的發揮空間。我們還針對營銷、職場、新聞、學習、創作各大類的場景,訂制了很多模闆,方便不是特别熟悉的用戶能夠快速完成自己寫作的工作。
寫作本身除了産生相應的内容,過程當中還需要做一些校度以及改寫或者摘要,我們提供了規整、摘要、改寫、擴寫、續寫等針對寫作場景的工具,方便更快速的寫作。
我們把訊飛寫作和記錄相應的産品做了打通,提供軟硬件一體的方案。目前的産品除了提供在線的 C 端訪問的端口,也提供 B 端或者 G 端定制化解決方案。
我們希望通過之前的 AI 感知的技術,以及認知大模型相關的技術的結合,爲企業或者各種組織個人提供生産力、效率的工具,激發大家的想象力,我的分享到此結束,謝謝。(本文首發钛媒體 App,作者 / 杜志強,編輯 / 鍾毅)