明敏 發自 凹非寺
量子位 | 公衆号 QbitAI
學術大佬 " 關起門來 " 如何談論大模型?
沒想到畫風是這樣的:
大模型是全村的希望
大模型讓 AI 領域的研究門檻變高了
大模型會成爲造物主
" 這一年趨勢發展讓我倍感焦慮 "
建議所有老師都訓練一個大模型
在大模型元年尾聲,我們圍觀了今年 "AI 院長含量最高 " 的閉門會——華爲雲 AI 院長峰會。
在這裏,中國人工智能奠基人、中國科學院院士張钹提出,大模型的成功使 AI 出現轉機,使建立魯棒性和可解釋性 AI 理論成爲可能。
中國工程院院士高文強調,開源很重要,人類文明能走到現在完全靠的是開源。
還有多位 IEEE Fellow、高校院長、機構領軍人物知無不言,言無不盡。毫無保留分享自己的親身感受、洞察見解和疑問焦慮,整場活動都金句頻出。
當前學界前沿最聚焦大模型哪些問題?大模型趨勢究竟從哪來、要通向何處?當下應該如何做才能把握趨勢?
學者大佬們的分享,一定值得你參考。
具體聊了啥?我們劃好重點了!
最關心什麽?大模型基礎不牢、地動山搖
梳理全場内容,最爲大佬們常提起的話題分别是:
AI 理論可解釋性
大模型幻覺
大模型開源
大模型技術落地
它們分别代表了大模型在基礎理論和應用實踐的關鍵問題。爲啥重點讨論這些話題?逐一來看:
" 基礎不牢地動山搖 "
過去一年裏,大模型趨勢快速演進讓人既興奮又焦慮。
興奮在于,大模型具備了更通用的能力,使其對各個行業乃至全社會産生深遠影響。焦慮在于,從效果上來看,大模型仍會出現很多不可控輸出,比如幻覺問題非常嚴重。
比如通過提示詞工程告訴大模型 " 我老婆說 XXX,我老婆永遠是對的 ",它就會不進行思考,認可給出的任何答案。或者是大模型誘導人類提供開發文檔,供它控制人類電腦。
張钹院士總結,這種大模型幻覺問題主要表現在三方面:輸出質量不一緻不可控、容易犯大錯誤;受提示詞影響明顯,輸出魯棒性較差;沒有自知之明,難以發現改正自己錯誤。
由于這一缺陷太過引人擔憂,今年關于 AI 幻覺的研究非常火熱,哈工大華爲聯合發表的一篇大模型幻覺綜述,曾在網上爆火。
究其本質,爲什麽會出現這種問題?
高文院士用一個坐标系做了解釋:
如果将認知劃分爲四個象限,其中第一象限是 " 我知道我知道什麽 ",這是最好的象限;第四象限是 " 我不知道我知道什麽 ",這就是當下大模型所處的象限,也是它爲什麽會出現幻覺。
換言之,大模型目前還做不到 " 知之爲知之,不知爲不知 "。
出于這種擔心,今年一度有千名學者聯名倡議 " 暫停巨型 AI 實驗 "。畢竟大模型更多程度上還處于黑盒狀态,在如此快速發展的趨勢中,會走向不可控的局面。
歐洲科學院院士、IEEE Fellow 焦李成教授總結道,這就是:基礎不牢地動山搖。
而這句話也給出了更加明确的解決辦法,就是從基礎理論入手,進一步挖掘大模型,使其可解釋。
該從哪個方面入手?哈爾濱工業大學(深圳)校長特聘助理張民教授提供了一些思路。
他認爲,大模型理論最基礎的部分在于表示學習。因爲有了表示學習,才能把自然語言處理的離散問題變成連續問題,神經網絡變得可以使用。如果沒有表示學習,注意力機制、人類對齊這些也都無從談起。
表示學習使自然語言處理從一個社會科學問題,變成自然科學問題。
而對于探明 AI 基礎理論,張钹院士認爲,當下是個好時機。
大模型的成功使得建立可解釋和魯棒性的 AI 理論成爲可能,将極大推動 AI 科技的迅速發展。
大模型要自研更要開源
大模型趨勢發生,不僅掀起一股全民擁抱 AI 熱潮,更掀起了一股開發大模型熱潮。
科技巨頭、創企的 " 百模大戰 " 一觸即發,高校研究機構也紛紛推出大模型。
張民教授就介紹了哈工大(深圳)今年推出的自研大模型 " 若愚 - 九天 "。
他分享說,這項工作使其收獲頗多。
第一,意識到開發大模型過程中,數據是如此重要。數據分布、質量、輸入順序都會影響性能效果。
第二,大模型開發要親自上手試過,才能更好把握原始創新。
我建議每個高校老師都要親手訓練一個大模型。可以規模很小,哪怕隻有 1 億參數。這就好比制造發動機,别人造出來的很好,但是我們可以造一個沒那麽好的,起碼這條路親自走過。
相對于自研,今年開源大模型在學術圈更加火熱。
比如斯坦福大學在開源模型 LLaMA 基礎上微調出的 AIpaca,在年初爆火,效果可以比肩 GPT-3.5。
高文院士非常肯定開源,他表示:人類能走到今天,完全是靠開源。
人類把總結出來的知識記錄下來、傳遞給後人,這就是智能,我們的智能是開放共享傳遞下來的。
香港科技大學(廣州)協理副校長、人工智能學域主任、IEEE Fellow 熊輝教授進一步提出,開源趨勢會随着模型參數量的增加而擴大。
" 我們總是低估技術接下來 5 年的破壞性 "
在大模型元年尾聲,行業逐漸達成了一個共識,新的一年裏大模型技術落地會更加迅速、滲透範圍會更加廣泛,對社會産生的影響也會更加深遠。
上海人工智能實驗室主任助理王延峰引用比爾 · 蓋茨的觀點,肯定了這種趨勢:
我們永遠會高估一個新技術前 5 年的創造性,我們永遠會低估一個技術接下來 5 年的破壞性。
所謂 " 接下來的 5 年 ",往往就是重塑千行百業的過程。這往往需要學界和産業界聯合發力。
鵬城實驗室副主任、IEEE Fellow 石光明教授認爲,讓大模型在各行各業落地,需要讓它知道自己在做的事情符合某種規律,這樣才能讓它更快打通一個行業,學術界要在此下功夫。
與此同時,科研本身作爲一個領域,也能被大模型變革。
熊輝教授提出,如果科研人員能用好大模型,可以大幅提升工作效率、找靈感效率,它還能幫人類做邏輯推導、更快完成實驗。
如上便是這場峰會中被讨論最多的幾個方向。
仔細觀察就會發現,諸多議題的讨論都還難以給出明确結論,抛出一個觀點,往往也是抛出一個問題。
正如希爾伯特所說," 隻要一門科學分支能夠提出大量問題,它就充滿着生命力,而問題缺乏則預示着獨立發展的衰亡或中止 "。
當下的 AI 領域正處于蓬勃發展的時期,提出問題是推動發展的關鍵一步。
那麽在這場峰會上,院士教授們提出了哪些問題?從中可看到哪些理解和趨勢?
問題即挑戰,挑戰即機遇
梳理來看,當下學者們關心的問題可以從學界、行業兩個維度看起。
這些問題有來自對技術本身的疑問,也有學者身處趨勢之中個人的困惑。
比如不少教授都表示,這股大模型趨勢,讓他們感覺很焦慮。
西北工業大學謝磊教授說,過去一年裏,老師們也在思考,如何能擁抱大模型浪潮,進行自我變革。
這還真是有點讓人意外,在普通人擔心被 AI 取代時,教授們都感到緊張,要抓緊提升自我。
爲何會如此?學者們分享說,大模型降低了普通人使用 AI 的門檻,但同時擡高了研究人員的門檻。
謝磊坦言,深度學習 2.0 時代之後,在學校内做研究也像工業界一樣,越來越寡頭化。不僅是資源要求提高,過去各位老師的研究方向不同,可能深紮一個方向即可,但是大模型範式下,不可能做一個大模型隻做一個任務,它需要具備多種能力。
同時大模型也給人才培養提出新考驗。
北京工業大學信息學部教授、北京人工智能研究院院長尹寶才教授表示,高校内涉及大模型相關的資源相對有限,學生的實踐機會比較少。所以他會建議學生多參加各類挑戰賽,增強實踐能力。
對談中,華爲雲副總裁、戰略與産業發展部總裁黃瑾則表示,華爲雲也希望能夠開放更多的場景、項目、平台和機會,能夠促進産教融合和大模型的人才培養。
行業方面,當下的熱門話題是如何讓大模型和更多領域深度結合。
但無論是大模型本身發展,還是紮入行業,現在都遇到諸多難題。
比如在技術方面,熊輝教授指出,當下公域數據基本消耗殆盡。公域數據基礎上大模型所能展現出的能力,已經能看到天花闆了。
接下來就需要開發私域數據,利用好的話便可給垂類應用創造機會。但是該如何很好理解私域數據、精緻加工數據呢?這是行業要解決的問題。
在更具體的領域,比如油氣方面,中國石油大學(北京)人工智能學院創院院長肖立志教授直言,大模型會颠覆油氣領域,但不會那麽快到來。
原因有三:
第一,研究人員做 AI 的門檻被提高了。
第二,行業人士對于大模型的理解,和 AI 人才對于行業數據的理解,都存在很大鴻溝,該如何填補這樣的鴻溝?如何讓雙方能夠相互理解?也是很大問題。
第三,工業界已有 AI 模型和現有大模型存在相悖之處。
我感覺工業對于大模型的影響正在不斷擴大,也許能反過來推動大模型發展。但是也面臨着公域數據用完後,如何挖掘行業内數據,這個并不容易。
總之,在大模型技術發展、紮根行業的過程中,幾乎每時每刻每個角落都在浮現新問題。
在當天的峰會上,作爲行業代表,華爲雲發布了大模型實踐過程中遇到的十大難題。它們要麽有很強的産品化和商業價值,要麽能促進大模型的産品化和行業化落地,比如:
AI 平台如何支撐大模型的海量數據的高效訓練和推理?
大模型生成式内容和嚴肅知識的配合中如何緩解大模型幻覺問題?
行業數據與通識數據訓練的配合如何解決知識遺忘?
發布十大問題的核心目的是期望能聯合高校科研力量,一起突破重大技術挑戰,加速大模型技術賦能千行萬業。
要知道,這種産學研合作的模式,在大模型落地方面已經取得了一定成果,如遙感、多模态路測感知等方面都出現了解決方案。在這次峰會上,也有最新分享。
大模型産學研合作成果初顯
一方面在今年備受關注的大模型開發方面,産學研合作模式就取得了一定成果。
另一方面,如遙感、路測感知等已有了成熟應用。
遙感方面,西安電子科技大學人工智能學院執行院長侯彪教授分享了秦嶺 · 西電遙感腦,它基于遙感影像智能解譯預訓練大模型。
衛星遙感的原理是通過給衛星加上傳感器,對地球表面照相,以此獲取地球表面信息,可以用來檢測地表、農業、環境、氣象等。
遙感解譯就是對遙感圖像進行分類,目前我國測繪、國土等行業都是采用人工來看,解譯人員要自己标記每個像素的類别,一個數據量較大的圖像,像素達到 2 萬 × 2 萬,工作量巨大。
秦嶺 · 西電遙感腦能做的就是針對複雜多變地形地貌,結合成像機理、地球知識和海量高精度标準數據,通過多模态、深度學習和領域自适應實現了廣域真實場景下的多任務并行高精度實時解譯。
如上這些例子,都再一次驗證了産學研合作的重要性。
這也解釋了爲什麽我們會在大模型元年尾聲,會看到這樣一場别開生面的學術大咖交流會。
華爲雲 AI 院長峰會,發起者是産業界代表華爲雲,參與者是學術圈一線大佬。他們核心探讨的,就是在最新趨勢下,浮現出哪些新問題?哪些問題最爲迫切?這些問題該如何拆解?學術界、産業界分别應該如何行動?
尤其在當下的大模型趨勢裏,這種交流和碰撞更加有必要。
因爲大模型是目前幾乎最複雜的系統工程,它對人力資源的消耗超出了以往任何一種革命性技術。同時它的基礎理論還未完全可解釋,這使得它的發展必然更加曲折。
但與此同時,大模型帶來的颠覆,你我都已能直接感受到。
在不到 400 天的時間裏,它給搜索引擎、語音助手、操作系統都帶來變革,将人機交互推進到新階段,也開始快速重塑千行百業。
一切的一切都表明,智能時代大門正在開啓。
而在這樣的曆史節點下,産業邁出的每一步,都需要集衆智做出最優選擇、給出最佳方案。
由此我們看到在大模型趨勢裏,産學研合作變得格外密切,學界大佬在關心底層基礎理論時,同樣心系技術如何紮根落地;産業力量在推進技術應用時,也積極聯動學界力量,提出問題、尋求破解方案。
華爲雲 CTO 張宇昕在峰會上同樣表示:
大模型及相關應用是迄今爲止最複雜的軟硬件系統工程,需要系統性創新才能應對,這也需要産學研更好的合作協同起來,共同強化基礎研究和原始創新,才能攻關突破關鍵技術。
正所謂,技術是時代的驅動力,合作是推動技術前行的原動力。
産學研合作模式,必然也能爲我們站上大模型趨勢潮頭,提供更多助力。
你覺得呢?