

作者 | Ra · Zero
來源 | 人工智能産業鏈 管理智慧
咨詢合作 | 13699120588
文章僅代表作者本人觀點
【文章核心預覽】
李飛飛從五億年前生命感知能力的進化講起,一路講到圖靈時代,展現 AI 發展的宏大曆史脈絡。
首次系統闡述現代 AI 崛起背後的三大支柱:感知算法的突破、認知科學的啓發、計算能力的躍升。
深度剖析 2012 年 ImageNet 革命到 2025 年大語言模型時代,AI 從觀察者到執行者的曆史性轉變。
提出 " 以人爲本的 AI" 三大核心價值:維護人的尊嚴、增強人的能力、促進社區發展。
呼籲抛開科幻化想象,采取務實态度推動 AI 發展,構建開放多元的健康生态系統。
在全球矚目的巴黎 AI 峰會開幕式上,斯坦福大學李飛飛教授發表生動的演講。作爲 ImageNet 創始人,她的每一次公開發聲都格外引人注目。這一次,她帶來了一個跨越五億年的宏大叙事:從生命最初獲得感知能力的進化史,講到如今 AI 的突飛猛進。
" 毫無疑問,曆史學家今後一定會把這段時間稱作 ' 真正的第一個 AI 時代 '。" 李飛飛在演講中如此斷言。在她看來,從任何維度來看——無論是計算機專業中人工智能方向的學生人數、投資金額、新創企業數量,還是技術突破—— AI 都正在掀起一場深度和廣度空前的革命。

各位早上好,我非常榮幸且激動能夠在本周與大家共聚一堂,并帶來此次開幕演講。我也非常期待接下來最充滿活力的讨論,甚至可能做出一些重要決定。
人工智能的曆史與起源
對我們許多人而言,人工智能往往被視爲一個關于技術、關于現代世界的故事,也毋庸置疑是一個關于未來的故事——這正是我們大家今天齊聚于此的原因。然而對我而言,它還是一個可以追溯到所有生命起源之初的故事,早在五億年前就已經開始。那是一個極其久遠的時代,當時連 " 視覺 " 這一概念都尚未出現,實際上連眼睛都尚未進化,沒有任何生物曾看過這個世界,所有生命都被置于你現在在屏幕上所看到的那片黑暗當中。
當然,要在十分鍾左右的時間裏講完五億年的曆史确實有點勉爲其難,所以我給大家帶來一個簡要版:當進化賦予了你們在屏幕上所見的這些簡單生物以感知周圍世界并對這些感知(即便十分微弱)做出反應的能力時,一場進化軍備競賽由此展開。最初隻是一種被動的體驗——讓光線進入體内,但不久之後就變得更加豐富并富有主動性。神經系統開始進化," 看見 " 開始轉變爲 " 洞察 ",看見進而變爲理解,而理解則推動了行動,所有這些都孕育了 " 智能 ",從而永久地重塑了地球上生命的本質。
時至今日,五億年之後,人類的智能已經讓我們的物種可以想象并塑造工作和生活的方方面面。而我們也不再滿足于僅僅擁有自然賦予的這份智慧。我們懷着的好奇心如今驅使我們想要創造出與我們同樣聰明、甚至更勝一籌的機器。這也是爲什麽我們本周要讨論的這項重要技術,其起源可以追溯到 20 世紀中葉。
英國的偉大數學家艾倫 · 圖靈(AlanTuring)極具前瞻性,早在計算機尚未真正出現之前,他就已經開始思考如何讓它們擁有可與人類比肩的認知能力。對我而言,他的著作一直在向人類發出挑戰:要大膽設想能夠思考的機器,就像他自己所想象的那樣。這股好奇心與雄心同樣也感染了美國的早期計算機科學家們,他們不僅舉辦了首個研究項目來探索 " 會思考的機器 " 的可能性,還在 1956 年那個炎熱的夏天正式提出了 " 人工智能 " 這一術語——比這個概念進入公衆視野要早幾十年。這張圖片正是當時他們爲那次研讨會撰寫的研究論文截圖。
說實話,令人覺得有趣的是,他們當時以爲隻需要兩個月就能解決這一重大課題的很大一部分,甚至能破解智能的奧秘。也許他們太過樂觀,但不得不佩服他們的膽識。如今,我們已經在那個 " 兩個月項目 " 裏走過了 820 個月,但确實也取得了不少實質性進展。
現代 AI 三大關鍵要素
另一個對 AI 的誤解在于,認爲它隻是計算機和工程領域的事情,然而事實上,它一直以來都是一門高度跨學科、富有活力的追求。我們當今所處的現代 AI 時代,正是三項極其重要又各自獨立的技術與科學進步彙聚而成的成果。
第一項是對感知算法的研究——即生物(包括動物乃至人類)如何理解周圍世界,并最終創造出讓機器也能具備類似能力的數學模型。在達特茅斯 AI 夏季研讨會上延續了圖靈的大膽假設之後,神經生理學家 DavidHubel 和 TorstenWiesel 率先揭示了哺乳動物視覺皮層中神經處理的層次結構,爲他們赢得了諾貝爾獎,也徹底改變了我們對視覺處理的認知。大約在同一時期,心理學家 FrankRosenblatt 搭建了最早的神經網絡原型之一——感知器(Perceptron)。這項工作啓發了數十年後無數計算機科學家,尤其是早期先驅者,如 KunihikoFukushima、JeffHinton、YannLeCun、YoshuaBengio 等,去設計愈發先進的模型,最終形成了我們今天所熟知的深度學習神經網絡算法,讓機器擁有了自身近乎神奇的感知和分析能力。
與此同時,第二條研究脈絡也開始出現——認知科學家轉而研究人類自身的大腦,揭示我們對周圍環境進行感知時所擁有的驚人深度和複雜性。他們的研究明确指出,無法将我們的腦與其所處的進化環境分割開來。大腦不過是一個被禁锢在顱骨黑暗之中的機器,卻又從生命最初時刻開始,就急切地向外部學習,通過每一次光線的照射、每一次觸覺刺激、每一聲細語來獲取信息。
對我個人而言,作爲在 21 世紀初成長起來的科學家,當時感知算法幾乎是我所在領域的唯一關注點,而認知科學帶給我的啓示在于 " 規模 "。演化與發育能如此有效地塑造人類智慧,是因爲它們能利用大量數據來驅動我們的學習。我和我的合作者、學生們推測,同樣的規律也适用于機器,隻不過這一次,數據來自現代數字設備和互聯網,而不再是依靠生物感官。由此激發了我所在實驗室發起的 ImageNet 項目——它是第一個針對人工智能的大規模互聯網訓練與評測數據集。我們提出了一個關鍵假設:數據是讓神經網絡等高容量算法真正 " 活起來 " 的關鍵。這個理念讓神經網絡煥發新生,開啓了利用海量數據來推動 AI 進步的全球趨勢,也成爲如今所說的 AI" 規模定律 "(scalinglaw)的一部分。
最後,如果沒有極其強大的運算能力來支撐,以上所有成就都不會發生,或者根本連起點都無法跨越。最初的裏程碑包括馮 · 諾依曼(vonNeumann)在上世紀 40 年代提出的計算機體系結構理論,它一直沿用至今,并在 70 年代初催生了第一批微處理器。可有趣的是,真正讓矽芯片原始運算速度獲得飛躍的,竟是電子遊戲。爲追求更逼真的遊戲畫面,90 年代初誕生了一個小型産業,但在短短二十年内迅速膨脹爲全球巨頭——以英偉達(NVIDIA)等公司爲代表,開發出了越來越強大的圖形處理器(GPU)。結果證明,這恰恰是讓神經網絡算法得以利用互聯網規模大數據進行學習的最後一塊拼圖。所以,如果現場有遊戲玩家,那我們要感謝你們。
2012 年之後的 AI 突破
當然,後面的故事不僅僅是 " 曆史 ",更是建構未來的 " 配方 "。2012 年,在 ImageNet 挑戰賽上,我的實驗室率先将算法、數據和計算這三大要素首次大規模結合在一起,幾乎在一夜之間就改變了我們整個領域。那是機器首次能夠理解并準确地描述海量圖像——成百上千萬張之多。如今我們對此已經習以爲常,但在當時,這是一項前所未有的壯舉,甚至有些像科幻小說裏的場景。它就像推倒了第一塊多米諾骨牌,随後的一系列突破接連不斷,并且來得越來越快。
如今,十多年過去了,我們依然在探索這一切的意義。當初隻是學術界的一個好奇心驅動的研究,如今卻年複一年地吸引着商界領袖、創業者、行業分析師,甚至政治家們的熱切關注。如今,十多年過去了,我們依然看不到盡頭。毫無疑問,曆史學家今後一定會把這段時間稱作 " 真正的第一個 AI 時代 "。從任何一個你能想到的指标來看——無論是計算機專業中人工智能方向的學生人數、投資金額、新創企業數量,還是其他方面—— AI 都是一場在深度和廣度上不斷擴大的革命。我想在座的各位都不需要我來重複,過去幾年裏,人工智能又迎來了更驚人的躍進——也就是大型語言模型的出現。
這些大型語言模型把現代 AI 所依賴的三大要素——算法、數據和計算力——都推向了更極緻的規模。它們采用了一種名爲 "Transformer" 的新型模型架構,訓練數據幾乎覆蓋了整個互聯網,并在數量驚人的最新、最強大芯片上運行。正如我們所見,其結果是在機器能力上比過去十年來的任何一次突破都更爲迅猛。現在我們幾乎将 "AI 可以用自然語言流暢地跟我們對話 " 視爲理所當然,AI 能回答我們提出的幾乎任何領域的問題,甚至能夠生成各種複雜形式的内容——從圖像、聲音、音樂到視頻,無所不包。ChatGPT 所取得的驚人成就就是這項創新如何影響我們日常生活的最佳例證,因其創造了用戶采用速度的曆史新紀錄。
而且,這些能力并不隻是表面上看着 " 會說話 " 而已。若你看看這張圖表,會發現 AI 模型在各種基準測試(從手寫識别到博士水平的科學問答)上的表現近幾年都在飛速攀升;其中一些難度極高、對人類來說具有挑戰性的任務,AI 的成績簡直像坐火箭一樣往上蹿,幾乎呈垂直上升的趨勢。
大模型與近期 AI 進展
不僅如此,從能夠流暢使用語言開始,大型語言模型還在朝更具 " 主動性 " 的方向發展——它們學會了将複雜任務分解成若幹步驟,并逐步規劃如何實現目标。人們目前将這種趨勢稱作 " 具備代理能力(agentic)的 AI"。而在 2025 年,這似乎正成爲這場深遠技術演進的新篇章。對許多用戶和企業而言,這些能力已經非常實用,而它們還遠不止于此,後續的發展潛力更是不可估量。
我們目前所讨論的還大多停留在 " 語言智能 " 層面,但人類之所以爲人,是因爲我們擁有更全面、更完整的智能。從 " 被動感知 " 到 " 主動行動 " 的新階段正在到來。在我自己的研究領域——涉及攝像頭和機器人時,我看到 AI 正逐漸具備 " 創造、理解、推理和交互 " 這些維度,進而在數字或物理的三維空間裏與人和環境相互作用。我們稱之爲 " 空間智能(spatialintelligence)" 和 " 具身智能(embodiedintelligence)"。
舉個例子:假設你看到這樣一張圖片,視覺智能很容易讓我們識别出裏面的所有物品:那隻貓、那盆植物、那張桌子,以及那杯牛奶。但是,這就代表我們感知系統的全部功能了嗎?我敢打賭,其中不少人不僅僅 " 看懂了 " 那張圖,還會産生 " 哎呀,快伸手把那杯牛奶抓住,别讓它掉到地上打碎了!" 的沖動。這隻是個小例子,但它清楚展示了 " 從觀察到行動 " 之間多麽巨大的差别,也說明了我認爲我們如今所處的拐點:AI 正從觀察者變成與我們并肩行動的 " 執行者 "。
實際上,就連我一直崇拜的圖靈先生,他對于未來的預見在這一點上也可能有些 " 過于狹隘 " 或 " 向内看 " 了。因爲進化本身已經一再告訴我們:智能的真正強大之處,不僅僅在于 " 思考 ",而在于讓思考能驅動行動。想想看,人類的空間智能讓我們得以建立燦爛的文明:從古老的金字塔到工業革命,從科學發現到藝術創作。如今,當 AI 逐漸拓展我們的空間和具身智能,這将如何進一步改變我們與周遭世界的關系?它又能幫助我們創造和發現些什麽?可以預見,我們已經在打造某種面向未來的新形态了。
空間與具身智能的興起
接下來,我想給各位展示一些 " 空間智能 " 技術迅猛發展的例子。這四個案例來自我在斯坦福的學生和與 WorldLabs 同事所做的工作:左上角是對複雜日常視頻的語義标注,右上角是藝術風格遷移,左下角是通過文本提示生成視頻的算法,右下角則是讓任何圖像都能變成一個 3D 世界。沒錯,你現在看到的就是梵高畫作中那家法國咖啡館,被我們用生成式 AI 模型帶進了一個想象中的三維世界。
同樣令人激動的還有機器人技術,也就是 " 具身 AI"。這兩項出自我實驗室的研究成果,将大型語言模型與視覺模型整合到機器人的學習中,使得機器人能在更開放、更貼近現實的環境下執行人類日常任務,而不僅僅是過去那種在高度編程和設定好動作序列的場景裏活動。這些進展都蘊藏着巨大潛能。
不過,如果 AI 真的不再隻是 " 會思考的機器 ",而是同時成爲 " 會行動的機器 ",那麽我們整個社會在引導這項技術發展方向時,就承擔着更加緊迫而重大的責任。我認爲毫不誇張地說,這一切正将我們帶到一個對整個人類文明至關重要的曆史關頭。我們要如何應對?我想,這也正是我們這周聚在這裏的主要原因。
以人爲本的 AI 與三大核心價值
這個問題其實一直在指引我的研究工作。雖然我肯定,想要找到簡單答案幾乎不可能,但有一個主線在我多年的探索中始終貫穿,那就是我所說的 " 以人爲本的 AI(Human-CenteredAI)",并且它包含三個核心價值:尊嚴(dignity)、能動性(agency)和社區(community)。
首先是尊嚴。當面對越來越強大的技術時,我們人類常常會反思:到底是什麽在定義 " 我們是誰 "?如果把我們能做的所有事情都一一剝離,剩下的、那份能夠自主決策并親自行動的尊嚴感,依然是我們作爲人的本質之一。如果 AI 這項技術能幫助我們守護并且 " 找回 " 這份尊嚴,尤其是能幫助到最脆弱的人群,那将是讓我最激動的事情。
在這一點上,我想給各位看一個例子:如何讓機器人和 AI 技術幫助那些嚴重癱瘓患者重新獲得自主行動的可能。在這項斯坦福大學的研究中,我的學生利用完全 " 非侵入式 " 腦電波(EEG)記錄獲取使用者的思維信号,通過 AI 算法對這些信号進行解碼并發送指令給機械手臂。最終,機械手臂在患者 " 意念 " 的控制下做出包括烹制日式壽喜燒在内的一整套烹饪動作。這便是 AI 幫助人們重新赢得自主與尊嚴的一個示例。
其次是能動性(agency)。我所在實驗室多年來的核心理念,就是探索如何讓 AI" 增強(augment)" 人類的能力,而不是取代人類。毫無疑問,每一次重大的技術變革都會對勞動力市場産生沖擊,AI 也不例外。然而,我相信 AI 可以幫助我們從創造力到醫療保健、從科研到制造業,在方方面面獲得新的能力。因爲在許多方面,AI 的技能與人類的技能其實是互補關系。我們完全可以利用這個 " 數字或物理上的合作者 " 來強化自身能力。
過去十年裏,我的實驗室一直在研究 AI 如何改進醫療服務,這讓我見識到許多能讓 AI 幫助提高醫療質量、同時減輕醫護人員負擔的機會。這裏給大家展示三個例子:利用搭載 AI 的智能攝像頭來協助醫院監督醫護人員的洗手規範,輔助記錄病人複健時的移動訓練情況,以及跟蹤手術器械的使用狀況。
最後是社區(community)。過去十年裏,科技也常常被诟病 " 把人們越拉越遠 ",催生了各種 " 信息繭房 " 和 " 狂熱話題誘餌 " 等。如今,AI 又一次走到了十字路口:一條路是讓 AI 主導很多社交體驗,甚至爲每個人極度定制并強化他們原本的偏見;另一條路則可能幫助我們構建更健康、更強大并具有包容性的社區,比如借助 AI 教育助手,讓更多人(包括孩子和成人)獲得學習的機會。這裏我舉兩個簡單案例:左圖是利用 AI 和虛拟現實技術,爲有閱讀障礙的大學生提供個性化輔助工具;右圖是美國水牛城大學開發的一個 AI 專家系統,用來緩解語言治療師(speech-languagepathologist)短缺的問題,幫助對 3 至 10 歲兒童進行早期語言幹預。
AI 治理:理性、務實與多方協作
以上這些例子引出了我今天想和大家分享的最後一個想法:在這樣一個關乎人類文明走向的關鍵時刻,我們如何通力合作,以一種理性、務實且負責任的方式去治理 AI,從而讓它繼續釋放驚人的潛力?最起碼,我們需要從以下幾個方面開始:
首先,務必要基于科學而不是科幻來進行治理。無論是大街小巷還是華爾街,關于 AI 的話題中都充斥着誇張炒作和聳人聽聞的描述,往往導緻對 AI 的治理政策被各種誤導。相反,我們應該用更科學的方法來評估和測量 AI 的實際能力與局限,從而制定更加精準、可落實的政策,并且基于現實而非幻想。
其次,我們需要采取務實而非意識形态化的态度來看待 AI 治理。AI 有望成爲一種強大技術,如果使用得當,它确實能讓我們更好地工作和生活。因此,我們不應該隻顧在上遊阻礙這項仍然非常年輕的技術進一步探索與研究;相反,我們應該更多關注它的具體應用場景,确保它能被善加利用,并對可能産生的不良後果加以防範。
最後,我們必須投入更多資源,構建更健康、更蓬勃的 AI 生态系統,讓學術界、創業者、開源社群以及公共部門都能與大企業一道參與進來、發揮關鍵作用。如果 AI 真的要改變世界,我們就需要各行各業、社會各個群體都能在這個變革過程中發揮作用、共同塑造未來。
我在演講開頭提到過,現代 AI 之所以興起,主要歸功于算法、數據和計算力這三大要素的結合。但若這三種關鍵資源僅僅掌握在少數幾家公司手中,AI 生态系統就會面臨好奇心驅動的研究乏力、頂尖教育人才受限、開源項目缺少資源、多學科交叉探索不足等諸多問題。
75 年前,艾倫 · 圖靈對未來一瞥,發出了 " 人類是否有膽量去構造能夠思考的機器 " 的挑戰。今天,我們已經把這個挑戰推進到一個恐怕是他當年難以想象的高度。AI 時代的技術飛躍令人歎爲觀止,我相信,如今是時候提出一種新的挑戰了:與其再問 " 我們能否創造 AI",不如問 " 我們能否創造一股向善的 AI 力量 "。
簡而言之,今天我想向各位發出邀請:讓我們共同努力,去構建 " 以人爲本 " 的 AI。
謝謝大家。