我們無法忽視世界是三維的,解決三維智能是根本性的。
李飛飛最新采訪來了,繼續延伸她在 NeurIPS 有關視覺智能的話題。
她表示,解決空間智能問題是邁向全面智能化的基礎和關鍵一步。
不過從現場傳出的 NeurIPS 演講 PPT 中竟然有寫:AI 将取代人類?!
這究竟是怎麽一回事?!
有網友表示,當她看到這頁時,她的表情 be like:
有一說一,今年 NeurIPS 好不熱鬧,大佬們聚在一起,就是容易制造各種話題(Doge)。
比如,疑似 Bengio 和 OpenAI o1 的人吵起來了。
何恺明竟然探讨起了 AI 宿命論???
來來來,來看看一個吃瓜彙總。
李飛飛 180 頁 PPT 談視覺智能
今年李飛飛在 NeurIPS 演講的話題是《從看到到做:攀登視覺智能的階梯》。
她自曝準備了 180 頁 ppt,從各種路透圖來看,确實是幹貨滿滿。
而在最新 IEEE Spectrum 采訪中,她進一步揭示了相關細節。(該采訪是在 NeurIPS 演講前進行)
采訪實錄:
Q:爲什麽演講題目是 " 攀登視覺智能的階梯(Ascending the Ladder of Visual Intelligence)"?
李飛飛:我認爲,直覺告訴我們,智能具有不同的複雜度和精密度。在演講中,我想傳達這樣一種感覺:在過去的幾十年裏,尤其是過去十多年的深度學習革命中,我們在視覺智能方面所取得的成就令人驚歎。我們越來越擅長使用這項技術。我還受到了 Judea Pearl 的 " 因果關系階梯 " 的啓發。(收錄于 2020 年出版的《the Book of Why》)
(這裏插一嘴,Judea Pearl 本人還特意糾正了一下,他表示因果關系階梯所定義的等級是第一定律的數學結果,而不是一種判斷性的建構。)
李飛飛:演講還有一個副标題,即 " 從看到到做(From Seeing to Doing)"。這是人們沒有足夠重視的一點:" 看 " 都與互動和 " 做 " 密切相關,無論是對于動物,還是 AI Agents 來說都是如此。這與語言是不同的。語言從根本上說是一種交流工具,用來傳遞思想。在我看來,這些都是非常互補但同樣深刻的智能模式。
Q:你的意思是說,我們會對某些景象做出本能的反應?
李飛飛:我說的不僅僅是本能。如果你看一下感知力的進化和動物智力的進化,就會發現這兩者之間有着深刻的聯系。每當我們能夠從環境中獲得更多信息時,進化的力量就會推動能力和智力的發展。如果你不能感知環境,你與世界的關系就會非常被動;你是吃還是被吃,都是非常被動的行爲。但是,一旦你能夠通過感知從環境中獲取線索,進化的壓力就會真正增強,從而推動智力向前發展。
Q:你認爲這就是我們創造更深入的機器智能的方式嗎?讓機器感知更多的環境?
李飛飛:我不知道 " 深度 " 是不是我想用的形容詞。我認爲我們正在創造更多的能力。我認爲它正變得越來越複雜,越來越有能力。我認爲,解決空間智能問題是邁向全面智能化的基礎和關鍵一步,這是絕對正确的。
Q:我看過世界實驗室的演示。你爲什麽要研究空間智能并構建這些三維世界?
李飛飛:我認爲空間智能是視覺智能的發展方向。如果我們真的要破解視覺問題,并将其與做事聯系起來,那麽有一個極其簡單、一目了然的事實:世界是三維的。我們生活的世界不是平面的。我們的物理 Agent,無論是機器人還是設備,都将生活在三維世界中。就連虛拟世界也變得越來越 3D 化。如果你與藝術家、遊戲開發者、設計師、建築師、醫生交談,即使他們是在虛拟世界中工作,其中大部分也是三維的。如果你能花點時間認識到這個簡單而深刻的事實,那麽毫無疑問,解決 3D 智能問題就是根本所在。
一旦你尊重了世界的三維性,很多事情就自然而然地發生了。例如,在我們發布在社交媒體上的一個視頻中,籃球被投放到一個場景中。因爲它是三維的,所以你可以擁有這種能力。如果場景隻是 2D 生成的像素,籃球将無處可去。
Q:或者,就像 Sora 中那樣,它可能會去到某個地方,但随後就消失了。在你嘗試推進這項技術的過程中,最大的技術挑戰是什麽?
李飛飛:沒有人解決過這個問題,對吧?這非常非常難。在世界實驗室的演示視頻中,你可以看到我們将一幅梵高的畫作,以一緻的風格生成了它周圍的整個場景:藝術風格、燈光,甚至是那個社區會有什麽樣的建築。如果你轉過身去,它就變成了摩天大樓,那就完全沒有說服力了,對嗎?它必須是 3D 的。你必須進入其中。所以它不僅僅是像素。
Q:你能說說你用來訓練它的數據嗎?
李飛飛:很多。
Q:你們在計算負擔方面遇到過技術挑戰嗎?
李飛飛:計算量很大。這是公共部門負擔不起的計算量。這也是我很高興能休假,以私營部門的方式來做這件事的部分原因。我的親身經曆強調了在獲得充足資源的情況下進行創新的重要性。
知識的發現需要資源的支持,對吧?在伽利略時代,是最好的望遠鏡讓天文學家觀測到了新的天體。是虎克意識到放大鏡可以變成顯微鏡,發現了細胞。每一次新技術工具的出現,都有助于知識的探尋。而現在,在人工智能時代,技術工具涉及計算和數據。我們必須認識到這一點。
Q:假設我們能讓人工智能系統真正理解三維世界,這會給我們帶來什麽?
李飛飛:它将爲人們釋放大量的創造力和生産力。我希望能以更高效的方式設計我的房子。我知道,許多醫療用途都涉及到理解一個非常特殊的三維世界,那就是人體。我們總在談論未來人類将創造機器人來幫助我們,但機器人是在三維世界中航行的,它們需要空間智能作爲大腦的一部分。我們也在談論虛拟世界,它能讓人們參觀景點、學習概念或娛樂。這些虛拟世界使用三維技術,尤其是混合技術,也就是我們所說的 AR(增強現實技術)。我很想戴着一副眼鏡在國家公園裏漫步,它能爲我提供有關樹木、道路和雲彩的信息。我還想通過空間智能學習不同的技能。
Q:什麽樣的技能?
李飛飛:我舉個蹩腳的例子,如果我在高速公路上爆胎了,我該怎麽辦?現在,我打開了一個 " 如何換輪胎 " 的視頻。但如果我能戴上眼鏡,看到我的車發生了什麽,然後在指導下完成這個過程,那就很酷了。但這隻是個蹩腳的例子。你可以考慮烹饪,可以考慮雕刻—有趣的事情。
Q:你認爲我們在有生之年能在這方面取得多大進展?
李飛飛:哦,我認爲這将在我們有生之年實現,因爲科技進步的步伐真的很快。你已經看到了過去 10 年所帶來的變化。這無疑預示着下一步會發生什麽。
今年 NeurIPS 好熱鬧
NeurIPS 整個會議期間,可以說是好不熱鬧。
比如,Bengio 和 OpenAI 的人吵起來了。
據在場的人爆料,在今年因果關系小組讨論中,OpenAI o1 的主創表示,我們最終應該訓練 Agent 來優化對世界的理解,來解決科學問題。
Bengio 還有一位谷歌 AGI 安全研究員 Tom Everitt 則指出這樣做很可怕!他們表示不應該制造這樣強大的 Agent,還有其他方法可以增強人類的能力,并進行科學研究,比如讓模型學習因果圖。
而就在剛才,Bengio 還進一步回應了,再次強調了 AI Agent 潛在的風險。
如果我們不解決調整和控制問題,随着我們賦予系統越來越多的代理權,人工智能的風險将繼續增長。在此之前,我們需要在科學和政策兩方面取得重大進展。
而何恺明竟然探讨起了 AI 宿命論?!
據熱心網友們的爆料,他是在被問到 AI 屬于發明還是發現的時候。
他表示這要看你相不相信宿命論了。(Doge)
除此之外,他在演講中探讨了 AI 未來的發展:Super-human AI?
據小紅書網友爆料,他提到一個有意思的觀點,他将人類比作大模型的傳感器:
人類感知,理解,壓縮了世界的所有的知識并用文本和語言記錄下來。大語言模型吸取,學習這些内容并将其建模爲一個強大而豐富的空間。但是就像你隻用 RGB 觀測宇宙一樣,總會有紫外,紅外這樣看不到,看不清的東西。
△授權自博主 @時間煮雨我主 Q
好了,NeurIPS 期間還有沒有發生什麽有意思的事情,歡迎小夥伴們跟我們爆料。
參考鏈接:
[ 1 ] https://spectrum.ieee.org/fei-fei-li-world-labs
[ 2 ] https://x.com/connoraxiotes/status/1866921924703498412
[ 3 ] https://x.com/kyliebytes/status/1866987524805234785
[ 4 ] https://www.xiaohongshu.com/explore/6759be860000000001029429
[ 5 ] http://xhslink.com/a/IFIoiN1IoRy1
[ 6 ] https://x.com/yoshua_bengio/status/1867274312941523193?s=46&t=iTysI4vQLQqCNJjSmBODPw
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>