從2012年到2022年,機器學習引發的新一輪人工智能熱潮已經十年。
巧合的是,2022年的Diffusion和ChatGPT,以大衆可感知、可體驗的方式,讓大模型湧現的超能力成功破圈。
從學術界到工業界,從政府到投融資,從巨頭到創業團隊,或興奮、或焦慮、或擔憂、或冷靜。
站在過去和未來的交叉點,從學界和業界大咖的視角,會如何看待過去,看待當下、看待未來?每一位行業中人,又該如何應對?
近日,清華大學美術學院、清華未來實驗室主任徐迎慶教授,微軟亞洲研究院網絡圖形組首席研究員、微軟全球合夥人童欣博士,粵港澳大灣區數字經濟研究院講席科學家、認知計算與自然語言研究中心負責人張家興博士,和小冰公司技術副總裁王寶元博士,進行了一次圓桌對談。
以下爲對話實錄(做了不影響原意的精簡):
王寶元博士:各位老師好。第一個問題是,面對ChatGPT,你們是什麽樣的心情和心态?
張家興博士:我是來自IDEA的張家興,剛才寶元也說了,我也是在這一波ChatGPT創業的大潮裏邊,準備入局。
我個人的理解,這是一個非常重大的機會,因爲這代表着人工智能從2012以來的新舊十年。
過去十年,如果隻用兩個詞來說,叫做Deep Understanding,就是Deep Learning加上Content Understanding。
ChatGPT的出現,開啓了一個新十年。新的十年,就是Generative + General,就是未來是屬于生成式AI和通用AI的。
過去十年,Deep Understanding這條路其實已經很成熟了,或者說面臨瓶頸了。現在我們終于找到了一個新的方向,下一個十年的方向,所以說我感覺非常興奮。
王寶元博士:童老師呢?
童欣博士:我自己是做圖形和視覺方向的,那麽這個ChatGPT出來對我來說一方面非常的震撼。
因爲它所表現的這個能力,可以說至少在自然語言界是我們長期夢寐以求的,大模型所展現出的能力和技術特點,都值得研究和學習。
第二點就是緊迫感,就是說我們做圖形生成的,那麽我們的ChatGPT什麽時候出現,視覺領域的湧現能力怎麽表現?所以是既震撼又緊迫。
王寶元:我覺得前面兩位老師都很激動,那徐老師你一定也很激動。
徐迎慶教授:我覺得ChatGPT打開了一個新的可能性,它目前主要圍繞着NLP的應用,但是未來在設計上、在建築上,也利用類似的思想和技術,做全新的探索。
我昨天從香港到上海,一路上大家都在談論它。
但我覺得它的應用和有效性,還有待于就是用戶真的大批量開始用,并且經過一段時間的檢驗,才能真正的發現它到底怎麽用、能用多深以及怎麽往前走。
我們知道,以前也有過類似的很好的技術。
但是釋放了以後,比如說一些NLP模型,但是胡說八道,說一些不該說的話,說一些有悖于社會準則,就是普遍人類共同認知的話,那就會帶來一些困惑。
如何讓ChatGPT更加合理、更加有效、更加能夠符合人類共同認知,能夠讓它真正活躍起來,我覺得可能還有很長的路要走。
但是無論怎樣,它畢竟開拓了一個新的時代。ChatGPT不同于過去幾年的技術創新,它是颠覆性的,所以我很期待它的未來。
王寶元博士:感謝三位老師,大家總體來講都是非常的興奮。
那麽我們深入讨論下,究竟是什麽新突破,令現在所有人一夜之間都對它充滿了期待?
家興博士,您談一下主要的技術突破在哪裏?
張家興博士:好的,我主要從NLP來談。NLP在過去這些年,随着深度學習有很大進步,比如當年GPT3就有重大進步,但影響力還主要在學術和行業,普通大衆沒有感知。
那爲什麽ChatGPT一來,大家就街頭巷尾人人必談?我覺得深層次看的話,這涉及一個重大變化,就是AI能力觸達最終用戶方式的方式變了。
過去的自然語言專家,擅長于自己的領域,有人專門做文本分類、有人專門做信息抽取、有人做問答、有人做閱讀理解。
大家會定義自然語言領域的各種各樣的任務,這些任務可能有上百個,非常多。
每個任務都有專門的模型和框架,然後還有專門的專家,根據專門數據訓練出來,然後擺在那兒供大家調用,所有這些NLP能力,就像一個工具集,成百上千個工具擺在架子上。
那麽這個對于想觸達這些能力的人來說,就存在挑戰,就是我怎麽知道成千上百個工具,哪個是适合我的。
所以還需要算法專家進一步解釋,你面臨的這個問題是文本分類問題,那個問題是閱讀理解問題,再把工具給你。
所以大家可以看到,制造AI能力的人,跟最終使用這個能力的人中間,是巨大的Gap,如何去彌補?
其實我們之前一直沒有想到很好的方法,大家做了各種各樣的平台,都試圖去彌補Gap,但現在看起來都不成功。
最終ChatGPT告訴我們一件事情,彌補AI自然語言能力跟用戶之間Gap的方法,就是自然語言本身,讓用戶他用自然語言去描述,讓大模型去理解用戶想幹什麽,然後把這個能力給到它。
舉個例子,請描述一下中國足球的未來。
這個容易,如果加一個約束,請簡短的用三條來描述,這個在過去的問答系統裏邊,你就很難讓實現,需要算法專家把它專門變成一個有約束的問題。
現在ChatGPT不用了,你能用自然語言去描述你想做什麽就可以了,ChatGPT都能理解。
所以大模型實際上縮短了AI能力跟用戶之間的距離,所有人都可以用了,一下子就火了。
王寶元博士:那可不可以這麽理解,原來很多傳統NLP的任務已經不存在了?
張家興博士:如果我們套用《三體》裏面非常著名的一句話,"物理學不存在了",那麽我們今天從某種意義上也可以說,NLP技術不存在了。
王寶元博士:這個講法非常大膽。
張家興博士:對,NLP技術不存在了。但還是要加一句解釋,隻是傳統的那種。不再需要單純的算法專家去設計單個的NLP能力。
那新的NLP方式是什麽,就是努力去做一個通用的ChatGPT,把所有提供給用戶的能力,都注入到一個模型裏,讓這個模型可以通過自然語言的方式,給用戶提供所有的能力。
王寶元博士:謝謝家興博士。
童老師,你做Graphics有二十多年了,看到AIGC,特别是文生圖、文生視頻,或文生幾何Mesh,它的進程是非常快的。
那從您的角度看,大模型對傳統Graphics研究,是不是也帶來了很大沖擊?有沒有具體的一些範式也遷移了?
童欣博士:大模型的出現,對圖形學和三維的研究,解決了兩個根本性的問題,提供了全新的路徑和方式。
首先是多模态帶來的維度躍遷,第一次擺脫了要用圖形的輸入創造圖形的方法,實現了夢寐以求的跨模态生成。
另一個是DreamFusion出現後,第一次實現了,向大模型裏輸入圖片去訓練,就能擁有所需要的海量三維數據,不再需要傳統的三維建模和三維重構,隻需要去思考如何從大模型裏有效提取這些三維數據。
王寶元博士:所以也是就是說把Language作爲Interface,去創造圖形?
童欣博士:對,一是把Language作爲Interface;第二就是,從圖片出發,自動生成你想要的所有高質量的三維内容,這個躍遷以前是做不到的。
王寶元博士:我們自己在小冰内部做這個圖像生成、視頻生成也有同感。
這個進展可能超過想象,所以我們其實有類似的焦慮感,就是都要花很多的精力去理解,新技術到底意味着什麽,看懂以後還要轉化成動作。
那麽徐老師,您做很多年自然用戶界面設計,有大量了不起的成就。
您過去幾年做大量嗅覺的研究, ChatGPT跟嗅覺的研究有沒有一些關系,研究範式會不會有變化?
徐迎慶教授:對,我想多說兩句。ChatGPT因爲數據量太大了,不再是過去我們傳統意義上的Domain數據,那它對未來的知識學習、傳承都會産生深遠的影響。
比如我自己,我現在在美術學院當老師,但是實際上我本科是學代數的,又做了七年的計算機動畫和電影電視廣告專業,後來讀了計算機博士,然後又做了幾年ERP,後來在MSRA做了幾年研究,現在是清華美術學院信息設計系教書。
回顧這幾十年很有意思,我是在不斷把已有的知識爲基礎,做新的遷移和學習,不斷的獲取新的知識。
那這個過程,我拿自己當試驗,花了30多年。如果有ChatGPT來幫助我,也許三個月或者三年就夠了,學習效率和實踐成本都會大大加速和降低。
談到大模型對研究的影響,我認爲大模型對學科之間的融合、交叉創興,有可能産生革命性、颠覆性的影響。
比如,我們在做的嗅覺計算中包括氣味檢測,人類知識庫裏有很多對氣味的自然語言描述,比如花香調的香水,這些香水通過語言描述,會讓人直接感受到心理學上的認知。
我們在做數據的時候特别需要這一部分。另一個可能性,是大模型是否可能建立類似幾何空間、色彩空間一樣的嗅覺空間,用少量的參數就能夠定義和描述。
王寶元博士:謝謝徐老師。家興博士,就是剛才徐老師講嗅覺的表達,以及嗅覺有可能跟語言本身的描述是有這個關聯的。
但是其實我們看到這樣的工作其實很少的,那你覺得就是說從NLP的角度,有沒有可能大模型本身已經蘊含了隐式的嗅覺,我們怎麽把它給提出來,然後用來做嗅覺相關的研究?
張家興博士:關于嗅覺我了解的不是特别多,但嗅覺跟情感是有關系的。當我們讨論嗅覺的時候,很多時候也是在說情感。
而在情感方面,有這方面的研究,也是清華的學者研究的,在大模型裏面發現了情感神經元,大概意思是輸入一個正向情感,對應的某個神經元就激活;輸入負向情感的,另一個神經元就激活。
其實這一點,我覺得跟嗅覺所産生的情感是類似的,我相信如果把嗅覺跟語言放在一起訓練的話,那麽正向的這種嗅覺感受,它也會在語言空間會激活。
現在整個認知科學裏,尤其ChatGPT出來之後,語言跑的比較靠前,原因正如童老師說的,語言原始數據多而且成本很低,隻要花點人工把它清洗好就可以,這個跟3D内容沒法比。
所以說語言率先實現了突破,也足夠完整,大家想要的所有東西也許自然語言大模型裏都有。
所以或許可以通過語言空間的表示其他的模态,比如包括情感的、視覺的、嗅覺的都牽起來,這是是一個可能。
徐迎慶教授:我插一句,剛才家興提了非常好的一個點,在自然語言裏有很多很多比如情感的表達,或者對一些味道描述的表達。
但是這種表達其實也是一個新的挑戰,比如我們經常會說一些正面情緒、負面情緒,但在嗅覺裏什麽是正面、什麽是負面,其實是非常不一樣的。
對群體來說,有趨勢性的正面和趨勢性的負面,但是放到任何一個人身上,就完全不一樣。
比如說,統計上講都喜歡聞比較香的味道,比較舒适的味道,比如花香讓你舒适,那麽臭味很少有人喜歡。
但是你換一個場景,比如你吃臭豆腐、榴蓮的時候,那個臭味是非常吸引你的,你要的就是那個味。
所以在這個時候,怎麽更加精準地提供标注和分類,實際上我覺得,這倒是提了一個很大的難題。
王寶元博士:謝謝家興和徐老師。
童老師,AIGC可能大部分人講的概念可能更多的還是說内容生成,但是對Graphics而言,其實有很多交互式應用。
那我們知道ChatGPT當然展示了多輪語言交互,但它還沒有多模态,也許馬上GPT4可能會多模态,那在圖形學的交互上,您覺得有哪些新的研究問題會湧現?
童欣博士:對我來講,其實ChatGPT或者大模型接下來,我主要想研究兩件事兒,一個是最後一公裏,一個是開始一公裏。
首先是大模型生成三維模型的落地,需要解決最後一公裏的問題,因爲大模型生成的三維内容和真正使用的三維模型之間還有一個距離,爲什麽?
因爲真正使用的三維模型的每個語義、每個面的東西都是分割好了的,有了這些才能支持後面所有的動作、形态、交互,甚至是兩個物體之間的交互。
所有這些物理屬性都需要賦予給它,那麽大家以前建立了一套很好的流水線來做這個事情。
那麽現在AIGC做了第一步,後續怎麽用新的流水線把這些特性也走完,這是最後一公裏的事情。
開始一公裏,是說有沒有可能基于新的表達,創造一個全新的三位内容生産方式和流水線?
比如NeRF或者其他的新表達方式,就要做開始一公裏。
過去的流水線很沉重,工業界被綁架了,甚至大家覺得就應該這麽用。
但是有了新工具的時候,也許現在可能是一個最好的機會,我們能夠創造一個全新的三維内容生産的一個方式,整個的表達、生成、交互都是完全不同的。
如果有一個這樣的三維世界模型在這裏,可能隻需要給video輸出,它不需要去識别這個物體是什麽,那個物體是什麽,它就能夠做出正确的動作。
那麽假設你有一個神經網絡,你給出人的初始動作,我就把這個環境的所有的視頻、應該發生的改變給你,這有點像"缸中之腦"的那個概念了。
那麽它即使不是三維表達,但是可能已經滿足你很多應用的需求了,這個方面我覺得會有很多非常開腦洞的、全新的課題出來,我是覺得非常激動人心的。
王寶元博士:所以不光是用戶體驗會有颠覆性,同時對于技術研究或者是開發人員來講,無論如何都要去跟進、去擁抱、去理解它到底意味着什麽。
不過我們講了這麽多的範式遷移,童老師講了Graphics新的問題,徐老師講嗅覺的新問題,那大模型依然有很多問題沒有解決,我們在興奮的同時也要冷靜。
就是說有哪些問題其實是急需要解決的,但是就是目前還感覺沒有找到特别好的辦法?家興先談一下NLP這邊?
張家興博士:現在亟待解決的一個問題是,如果真如我們所想的那樣,希望用自然語言的形式把NLP的能力呈現給用戶,我們需要把所有的能力都去用這樣一個ChatGPT去承載的話,那麽會涉及到兩個問題:
一個是說我們現有這些大模型,哪怕你是ChatGPT,1000多億參數,這個容量夠不夠,你可能是存不下所有的能力的,所以這個是一個問題。
再一個問題是,是不是所有的任務都要灌注到同一個模型結構。我們過去做了99個開源訓練模型,叫預訓練大模型體系,然後爲每個任務都有專門的模型結構。
比如自然語言理解的任務,其實雙向處理的模型是最好的,就是BERT這類,比如我們兩億參數的BERT模型,我們在零樣本分類上就敢去PK Google的5400億參數的PaLM,這就說明有些任務它天然适合一個特定模型。
但是如果要全用ChatGPT呈現給用戶,非要把所有的任務都要注入到一個Decoder-Only的Transformer結構裏邊,反而讓準确率再也做不上來?
這是一個非常大的擔心,從我做自然語言的角度來說,就是ChatGPT它是通用的、萬能的,但是有些功能永遠也做不到單一模型那麽好,這是我一個擔心。
王寶元:對,我有個非常想問的問題,就是說我們也是覺得對很多具體的問題來講,會不會有"大炮打蒼蠅"的這種問題?
就是說你強迫所有的問題都要統一用這個GPT的架構,強迫所有任務用一個Model,但是對于很多小的問題來說,它也許不需要那麽大,會不會有這樣的?
張家興:是的,這個問題問的挺好。
這其實涉及到ChatGPT未來的發展,到底是我們需要一個大而全的、什麽都能做的,還是說其實我們需要一個一個小的,它可能也是類似ChatGPT的,也能多輪對話,也具有一定通用性,但是每個模型尺寸不大,但是隻解決一類問題。
終歸來說,我覺得ChatGPT這條總的路線是沒有錯的,就是說我們不要再去強調一定要用戶去按照算法專家所設計的格式輸入。
哪怕就是隻做抽取信息,抽取實體、抽取關系,能不能也做成多輪對話的?在這個過程中,你可以不斷地以交互的方式,去提取出裏邊所有的東西。
ChatGPT的方式沒有錯,但是不是一定需要把所有能力都要壓縮到一個大模型裏邊,這個我覺得是值得考慮的。
王寶元博士:除了結構的擔憂以外,現在ChatGPT包括New Bing,曝出有很多問題,比如捏造事實,家興你覺得,有哪些好的辦法?
第一解決溯源問題,大模型生成的内容源到底是從哪裏來的;第二,怎麽确保不要亂講,就是說不要捏造事實。在這方面有什麽想法?
張家興博士:現在ChatGPT最大的問題就是,它不知道自己不知道。它非常自信,什麽都想去回答,但是其實它不知道。
那這個問題怎麽解決呢?
那有人可能就說,第一個是讓模型自己去學,去學"自己知道不知道",或者旁邊放一個監督模型去學"你知道不知道",但是恐怕"知道不知道"這個事情,要比随機問答的難度高一個級别。
所以如果要解決大模型"知道不知道"的問題,會是複雜度上一個數量級的挑戰,因爲你要讓新的監督模型知道ChatGPT不知道,新的監督模型要比ChatGPT還要複雜的多。
那麽我覺得,在當下的技術水平,更加合理的選擇,還是讓大模型學會使用工具。
就是比如說學會使用搜索引擎去搜一下,每一次它都是在搜索出結果的情況下,先做驗證,然後輸出,這是目前比較現實的一個解決方案。
王寶元博士:有點像Meta前段時間放出的ToFormer。
張家興:對,這是目前學術界一個熱點了,其實整個2022年,大家一直都在做這個事情,也有很多好的工作了。
王寶元博士:好,謝謝家興。
童老師,您能談一下這個Graphics這邊您看到的這個大模型有哪些大的限制,前段時間那個ControlNet非常火。
單張圖片生成已經非常的驚豔、真實,但如果拿這樣的技術去做視頻,那麽立刻你會發現一緻性有很大挑戰,比如說背景不能動,衣服要保持,identity不能亂變。
所以這裏面肯定有新技術要突破。那除此之外,童老師您看到哪些大的問題?
童欣博士:我覺得首要的也是本質的問題,就是所謂一緻性的問題。
之所以很多時候視覺用三維表達,因爲它可以提供視覺表達的一緻性。
如果你沒有這個物理世界的表達,你直接去學的時候,這個一緻性能表達,當大模型學會這個一緻性,就意味着它知道了隐含的三維表達,隻不過它的表達是隐性、顯性,這肯定是第一個根本的問題。
第二個問題就是,How and Why。
How是說,假如有這麽一個類似ChatGPT的視覺大模型,那用什麽方式把三維數據提取出來,就像現在大家用Prompt方法抽取語言大模型,這是一個技術上的挑戰。
還有一個問題就是,怎麽保證大模型輸出的東西是事實。
在視覺領域類似的情況是,如果生成一張圖或一個三維内容,如果隻是天馬行空,那怎麽漂亮怎麽來。
但如果要落地在實際應用中,比如在一個Game Engine,它要去動,它要合理的時候,它要符合一些基礎物理規則,那麽我們靠什麽東西,就像事實檢測一樣,我們怎麽知道這個東西它該不該動、動起來是不是合理呢?
我們需要一個檢測器,比如有Fake Call Simulator,可以給你提供反饋。
我覺得這是另外一個非常有趣的研究方向,就是怎麽通過檢測器給大模型反饋,讓它能夠學會生成符合規則的内容。
王寶元博士:就是說現在的AIGC大模型,它本身并不提供物理特性、物流規則,所以說它隻能是一種參考,它達不到這種物理仿真的級别。
童欣博士:對,或者說它隻有一個前向的生成過程,然後這個生成了以後,你是沒辦法給它另外一個反饋讓它形成一個閉環的,現在這個反饋來自于人,通過RLHF來做。
但我希望,未來有一個自動的物理反饋給它,那這兩個東西互相動,那也許生成的就不太一樣了。
王寶元博士:徐老師有沒有補充的?
徐迎慶教授:ChatGPT現象發生的時候,我是最興奮的。
因爲我做人機交互,覺得它爲人機交互和人機協同工作打開了一個全新的時代。ChatGPT代表了最最重要的新一代交互模式,所以各位開發者,我建議在這個方向可以下功夫。
第一點,是大模型的邏輯推理還需要優化。
比如剛才李笛講了一個例子,說ChatGPT無法回答"刺殺林肯的兇手和林肯是不是在同一個大陸上"。
然後小冰鏈(X-CoTA)可以做到,然後它基于時序推理、上下文推理,先問什麽時候發生的、然後在哪兒等等推理了一大堆,然後最後得到結論是在一個大陸上。
但其實人不是這麽想問題的,如果人機交互,人就跟機器說笨蛋,在19世紀,一個人要刺殺另一個人,一定得在同一個環境下,不然他怎麽開槍呢?他也沒有現在的遠程武器。
所以人類想問題和所有的大模型推理是不太一樣的,這是第一點。
第二點,剛才兩位也都談到Physical Based Modeling和Physical Based Simulation。
這需要經過物理試驗,才能真正應用在創新。舉個例子,現在要設計一輛新車,需要上百個設計師、工程師做好幾年,然後進行各種各樣的測試。
但是在未來,可能當ChatGPT的知識足夠的時候,說我們要給20出頭、剛工作的年輕人設計一個城市通勤和郊遊爲主的新車,那它可能一晚上給你100個方案。
這些方案一定不是完美的,但它能包括外觀、材料、底盤、發動機、油箱等總成,還包括去哪兒采購,供應鏈關系等,甚至市場推廣怎麽做都做好了,然後用少量的設計師、工程師和相關人力,就可以完成了。
所以未來就是人類可以做很多外叉的事情,那麽目前機器做的大部分是内叉的任務,少部分是外叉。那麽以前三年、三十年的任務,未來也許三個月就完成了。
所以我覺得ChatGPT未來一個非常大的影響,可能是正面的,也可能是負面的。
正面的是,會大大加速社會進步、技術進步;負面的是,很多人确實要考慮自己的工作應該怎麽保住,我就講這個。
王寶元博士:徐老師引出非常好的一個問題,不過我想稍微反問一下,就是說那ChatGPT學出來的創造的能力,它也是從人類大量的作品學出來的對吧?
徐迎慶教授:對。
王寶元博士:那它不一定能夠生成真正有用的知識,或者有用的這種創意的idea,會嗎?應該是以怎麽樣的方式去結合,跟人去協同創造?
徐迎慶教授:對,是這樣。
比如說我們以前做過一個案例,我們自己的人工智能系統,給它看了4萬張椅子的照片,然後說要生成一把新椅子,生成了31萬把椅子,人工看是看不過來的,加了一個約束後得到了十幾把。
這十幾把椅子的概念,有的合理、有的不合理,我們挑了一個最喜歡的,就真的做了一把椅子出來,從設計師的角度看是非常酷的,它既有明代風格,又有現代風格,融合了很多東西。
那這樣的人機協同設計,就變得非常現實,這就是我說的一定要人機協同工作,光靠大模型肯定不行,無論如何都不行。
王寶元博士:非常同意徐老師這個觀點。
最後有一個問題非常重要,我也想最後每個人都總結一下,就是今天來了這麽多的開發者,我想大家都是可能非常年輕的剛進入這個行業,有的還是學生。
各位有沒有一些具體的建議,告訴他們應該以什麽樣的心态,去面對新技術帶來的變革?
徐迎慶教授:第一個就是,大家不要怕這個東西。
因爲其實我們想一想曆史,比如當攝影術剛發明的時候,很多畫家很恐慌,因爲他畫了半年、一年,結果那個鎂光燈一亮,整個影像就記錄下來了。
那其實對當時以貴族、商人肖像畫爲主的畫家帶來了很大的威脅,反而逼着新的藝術流派誕生。
走到今天,攝影成了一個單獨的門類,藝術繪畫還在那裏。
第二個,學會掌握新的工具,ChatGPT是你大腦裏的一支畫筆。
最早人類記錄影像、文字,是有顔色的石塊,後來是木棍、鵝毛、鉛筆、鋼筆、鼠标、數字筆,他們都是筆的延伸。
數字筆在數字闆上是很滑的,不像在紙上的感覺,所以比較難學,但ChatGPT比數字筆還要難适應。但你要去适應它,如果你不去适應,那你永遠用不好這杆筆。
第三個,當然我作爲一個老師,這就更逼着大家,特别是年輕的一代,要去學習一些全新的知識,逼着自己去學,不學習沒有出路。
現在一個很明顯的現象,據我所知有很多非常先進的設備,但能開的人非常少,爲什麽?
因爲他要儲存和具備足夠的知識和技能,那ChatGPT是一樣的。如果每個人都以另外一種方式在前進,而你還不會,那就和這個時代脫節了。
這些不一定對,但是跟大家分享。
王寶元博士:謝謝徐老師,家興。
張家興博士:我做過學術研究,也在工業界做過各種技術落地,經過多年的觀察和思考,我的建議時候,當我們把自己定位成技術人的時候,我們不能隻是低頭走路,還要擡頭看看天。
這個時代變化太快。大家今天爲ChatGPT驚呼,但再往前推,其來有自。2020年是GPT3,2018年是BERT,2017年是Transformer,2015年ResNet,2012年深度學習興起,技術範式的變化是加速度,而不是是勻速。基本兩年一個大變局。
其實當年GPT3和BERT出來的時候,已經沖擊非常大了,很多當時做NLP的就不知道接下來論文該怎麽寫了,要跟BERT比還是不比?
而且當時一個趣事是,BERT最開始大家覺得這個隻是學術界用,但實際上也就三個月到半年,工業界就都用了,所以技術範式的變化速度真是大家以前想象不到的。
所以我的建議是,大家除了每天學好技術細節,做好手頭工作之外,一定一定要關注,整體技術範式的變化,多做一些更深層次的、更抽象的、更大框架下的思考,到底我們這個時代,技術在發生什麽變化,有些時候可能你聽别人講很多,但大家得形成自己的思想和判斷。
當你自己的思想和判斷越來越準,這時你自己選擇說,我該投身于哪個技術方向,還是要帶一個更大的團隊,甚至爲一個公司制定技術戰略,這都是非常重要的。
這些能力,要從年輕的時候開始積累和培養,這就是我的建議。
王寶元博士:童老師。
童欣博士:剛才兩位老師講了很多關于技術、關于知識儲備、學習方面的,我講點稍微不一樣的。
我做研究做了二十多年,可以說做了很多工作,但是我現在越來越意識到,就是現在真的是太卷了。
這個時代也許會越來越卷,因爲技術的發展進入奇點時代,隻會越來越快,但是我想跟大家講的是,就是說什麽時候,都不要忘了你首先是一個人。
什麽意思呢?在你不斷的做這些工作的時候,最重要的還是學會享受你生活中的樂趣。
當你最後回顧自己的一生,你不會說ChatGPT這個那個,你想到的,最終還是你生活中特别幸福美好的那些瞬間。
别忘了,那些瞬間最重要,不管時代怎麽變,你永遠是幸福的。我越來越意識到,讓自己感到幸福,比技術還重要。
王寶元博士:謝謝。我聽完三位老師最後的建議,我自己的焦慮感都瞬間少了很多,不管你們信不信,反正我是全信了。因爲時間關系,今天就聊到這兒,再次感謝三位嘉賓,謝謝大家。
張家興博士
1、過去十年屬于Deep Understanding,未來十年屬于Generative和General。這是一個讓人興奮的新時代。
2、傳統的NLP技術不存在了。
3、如何解決大模型一本正經胡說八道的問題?目前比較好的方式,是讓大模型學會使用工具,比如搜索引擎。
4、技術人不能隻是低頭走路,還要擡頭看天。做好日常重要,更重要的是關注整體技術範式的變化,多做深層次的、抽象的、更大框架下的思考,得有自己的思想和判斷。
童欣博士
1、ChatGPT非常震撼,它湧現出很多夢寐以求的能力。這給我們帶來了緊迫感,視覺領域的大模型湧現能力該如何表現?
2、大模型的出現,解決了兩個根本性的問題,提供了全新的路徑和方式。
首先是多模态帶來的維度躍遷,實現了夢寐以求的跨模态生成;另一個是DreamFusion第一次實現了,輸入圖片獲得三維數據。傳統的三維建模和三維重構不重要了。
3、大模型生成三維内容的落地,需要解決兩個一公裏的問題。現在AIGC走出了革新的第一步,往下有沒有機會,創造出一個全新的三維内容的生産方式與流程?
4、視覺領域的大模型生成,目前還需要解決一些限制和挑戰。
比如,大模型生成的三維表達和真實世界物理三維表達一緻性的問題;大模型生成三維輸出的How和Why的問題,這個領域的prompt該如何做;其三是大模型生成的三維表達如何在具體場景裏自動學習、遵守相應的規則。
5、人生的幸福瞬間,比技術變革更重要。任何時候都要先記得,自己首先是一個人,不是機器。你回顧一生的時候,你首先想到的,都是特别幸福的那些瞬間。
徐迎慶教授
1、大模型對學科之間的融合、交叉創興,有可能産生革命性、颠覆性的影響。
我們在做的嗅覺計算中包括氣味檢測,人類知識庫裏有很多對氣味的自然語言描述,比如花香調的香水,這些香水通過語言描述,會讓人直接感受到心理學上的認知,我們在做數據的時候特别需要這一部分。
另一個可能性,是大模型是否可能建立類似幾何空間、色彩空間一樣的嗅覺空間,用少量的參數就能夠定義和描述。
2、ChatGPT爲人機交互和人機協同,打開了一個全新的時代。它能讓人類更好地發揮創造力,可能三個月就能完成三年、三十年才能完成的任務。
3、ChatGPT是一支新的筆,在你的大腦裏,用它來描繪出什麽,取決于你是不是能掌握它,用好它。如果你沒有足夠的知識和技能,沒有足夠的創造力,那你可能就會和這個時代脫節。