在如今這樣一個大時代背景下,說到 " 天才 ",人們很容易就能想到那些遊走在時代前端的科技開拓者。
今年 7 月份,在 2023 年中國互聯網大會上,一組中國人工智能産業創新人才競争力的數據頗引人注目——百度公司在預訓練大模型、深度學習、自然語言處理、知識圖譜、智能語音、計算機視覺、自動駕駛等七大領域的專利積累和人才儲備,都遙遙領先于其他同行。
爲什麽是百度?這個問題,可能隻有他們自己才能回答。
在中國,幾乎人人都在用百度。然而,或許也正是因爲人們對百度過于熟悉,所以便輕易地忽視了它背後的 " 機器 " 一直在如何運轉。
實際上,作爲一家産業化公司,百度一直在悄悄地 " 搞發明 "。2022 年年底,随着 ChatGPT 在全球範圍内掀起了一場大爆發,一場科技賽程的追趕開始了,等到大家回過神來的時候,百度已迅速拿出了自己已錘煉多年的大模型、高端芯片 " 昆侖芯 "、飛槳深度學習平台、量子、自動駕駛等科技前沿成果。
2023 年 7 月 6 日,上海世博展覽館,參觀者走過百度的展台。(圖 / 視覺中國)
據了解,在過去的一年裏,百度核心研發費用達到了 214.16 億元,占了百度核心收入比例的五分之一。近十年來,百度累計研發投入也是超過了 1400 億元。
早在 2013 年,李彥宏宣布百度将成立專注于 Deep Learning(深度學習)的研究院,要做中國人工智能領域的 " 貝爾實驗室 ",吸引全球最頂級的人才。多年來,百度高度重視人才培養。2020 年,爲培養高校 AI 人才,飛槳啓航計劃投入總價值 5 億元的資金與資源;2021 年,飛槳再發布 " 大航海 " 計劃,3 年投入 15 億元資金和資源,李彥宏稱,要爲中國培養 500 萬名 AI 人才。
如今,随着大模型時代的到來,人們的生活開始慢慢從 " 數字化 " 往 " 數智化 " 邁進,當越來越多的百度 " 創造 " 抵達用戶之後,人們不禁疑問,到底是什麽樣的人,才可以發明出這些了不起的東西?2023 年 9 月 12 日,百度在北京發布了 2023 年 " 百度十大科技前沿發明 ",同時也把那些科技幕後的創造者們,推到了台前。
都是普通人,在做不普通的事
說起新時代的科技發明,似乎并不能像學習一個物理公式那樣輕松,也無法像理解愛迪生如何發明了電燈泡那樣簡單。自從互聯網誕生之後,人類從物質的三維世界,邁向了更廣闊的維度。
爲了更清楚地揭秘現在的科技開發者都在做些什麽,百度公司的同學們,向《新周刊》介紹了如今的互聯網行業,爲什麽會被稱爲 " 大模型時代 " ——相較于傳統的 " 操作系統 + 應用 " 的運行方式,AI 時代的到來,将互聯網科技的技術棧,拆分成了現如今的四層架構。
這麽說來,或許很容易讓人費解,但其實簡單地說,就是 AI 技術在傳統的運行方式上,植入了一個智能 " 插件 ",隻不過這個 " 插件 ",需要芯片、深度學習框架、預訓練大模型,以及各種落地應用來共同運轉。
就在這樣的行業背景之下,百度近年來自主研發的 " 飛槳深度學習平台 " 和 " 文心大模型 ",仿佛一對 " 組合拳 ",連接了整個上下遊産業鏈,并且在國内遙遙領先于其他科研機構。
上海 2023 世界人工智能大會上,百度展示文心大模型(文心一格,文心一言)的核心技術創新。(圖 / 視覺中國)
百度知識圖譜部的小凡,2011 年研究生畢業就加入了百度,目前主要負責大語言模型推理技術及應用。他說與很多科技工作者一樣,自己會有一個通用人工智能(AGI)的夢想,而大語言模型将加速它的實現。據他介紹,正如 " 文心 " 出自《文心雕龍》的典故,百度對于大模型的開發就好比雕刻,如何讓其能像人一樣去思考和推理,是他所在團隊的主要工作目标。爲了達成這樣一個目标,他們基于百度超大規模知識圖譜,進行大規模的思維數據構建與模型訓練,并通過大量的實驗印證,以各種形式逐步提升大模型的推理能力。
如今,這項基于思維鏈的大模型推理技術,在小凡等人的推動下,大大提升了大模型的推理能力,并且面向涉及複雜推理的應用場景,展現出了強大的技術實力和創新性。
此外,與 " 文心大模型 " 聯系密切的 " 飛槳深度學習平台 ",自從 2016 年開源以來,目前已凝聚了超過 800 萬名開發者,廣泛服務于金融、能源、制造、交通等領域,穩居中國深度學習平台市場綜合份額第一。
據百度深度學習技術平台部的華琪介紹,随着大模型時代的到來,算力的需求越發凸顯,對深度學習框架的硬件适配技術,也提出了更高的要求。華琪自 2020 年加入百度後,便開始主要負責飛槳框架的硬件适配工作。如今,飛槳已經和 40 多家硬件廠商完成适配。
華琪告訴《新周刊》,爲了解決 AI 技術的三要素—— " 算法、數據、算力 " 中的算力,芯片的選型和适配是一個非常大的問題。飛槳多硬件分層适配一體化技術,大大降低了适配開發成本,提升了硬件适配效率,加速了人工智能基礎設施的建設,有助于未來更多的技術突破。
飛槳深度學習開源框架。
" 我們做的事談不上多麽神秘莫測,除了我本身就容易被前沿技術吸引之外,更重要的是,我們覺得工作應該是件有意義的事情。" 華琪說。不過在筆者看來,他們的确與普通人無異,隻是做的事都并不普通。
專注如一,不設限,
把事情做到極緻
科技的發展作用于社會、造福于人,很多時候不可避免地會向着各種不同行業進行延展,比如生物醫藥、未來教育,以及駕駛出行等,涉及到社會生活中的方方面面。
百度自然語言處理部的張肖男,本科是數學專業,研究生偏重于電子計算機領域,然而當她開始進入到 " 生物計算大模型 " 的研發,看到那些小分子化合物和大分子蛋白質,感覺既熟悉又陌生,這就使得她不得不從 0 開始學習生物醫藥方面的專業知識。不過張肖男表示,這種從計算機向生物醫藥的跨學科相對還好些,有些反過來從其他行業跨入計算機行業的同事,就要難受很多。
據張肖男介紹,随着 2020 年全球新冠疫情的暴發,AI 在生命科學領域的應用取得了突破性進展,比如谷歌 AlphaFold2 的出現,爲人工智能技術的落地開辟了新的思路。突如其來的研究課題,落到百度科技研發團隊人員的身上,不僅變成了技術攻堅,同時也成了一種社會責任。
" 百度最開始在國内做生物醫藥的時候,由于此前積累很少,所以受到過不少跨行業人士的質疑。但是這兩年多來,我們通過不斷學習,堅信自己的實驗數據,最終取得的成果也逐漸得到了行業的認可。" 張肖男說。
文心 · 生物計算大模型技術。
學習是永恒的母題。除了對生物計算大模型的研發,百度投身于高性能自研量子芯片的研發,不斷地在尋求新的突破。
百度量子計算研究所的舍骝策告訴《新周刊》,随着信息技術的不斷發展,量子計算作爲一項前沿科技,一直備受關注。我們社會的生活與生産都需要 " 算力 ",無論是 ChatGPT,還是文心大語言模型,背後對算力的需求愈來愈強烈。于是," 後摩爾時代 " 新的計算範式成爲大家努力追尋的方向。受益于量子的特性,高性能量子芯片能夠在某些複雜計算任務展現 " 量子優勢 ",提供超越于經典計算機的算力。
百度研發的量子芯片。
2014 年,舍骝策還在法國攻讀博士,當他通過新聞留意到美國的 IBM 和 Google 公司已經開始投入量子計算的研發,而彼時國内還沒有任何一家企業在做的時候,便萌生了投身量子計算産業的想法。後來,舍骝策畢業歸國,經人引薦認識了百度量子計算研究所的所長段潤堯。經過幾次交流後,舍骝策倍受鼓舞,不甘于停留在學術界的他,意識到讓量子計算落地才是自己真正想做的事業。
2018 年,舍骝策加入百度。作爲 " 高性能自研量子芯片項目 " 的核心研發人員,舍骝策瞄準 " 設計—流片—測控 " 閉環中的核心技術,在 Feature Team 的團隊氛圍之下,攻克了不少量子芯片研發中的短闆問題。如今他和團隊同學所研發的專利技術,爲百度量子計算産業化提供了非常重要的量子硬件基礎。
" ‘專注如一,不設限,把事情做到極緻’是我們的信條。" 舍骝策善于觀察,他說百度的同事之間,都會互相稱呼 " 同學 "。" 叫‘同學’是百度的文化之一,其實在我們的團隊當中,大家教育背景和專業不盡相同,但是無論來自哪裏,當大家聚集在一起時,就都成了一種互相學習的關系。"
不斷學習似乎成了百度最流行的文化,正如張肖男所說:" 如果站在曆史的長河裏去看百度的産業布局,我覺得任何時候都無法斷言它趨于完整,比如國内的開源生态現在也很繁榮,各自都有各自的優勢吧。" 在她看來,科研的開發永遠沒有終點,百度隻不過是引領了國内大模型的技術産業生态,而未來是不可預測的,也是充滿機會的,這個機會對于每個做科技的公司,以及對于每個做開發的人來說,都是均等的。
做這行不太容易 " 犯焦慮 "
" 做科研開發的人,很容易被視作‘狠人’‘大牛’,更何況百度的價值導向,是一種長期的技術信仰。" 柳長春在介紹自己關于 " 自動駕駛決策系統 " 的發明專利時說,爲了讓汽車在不同的路況環境中做到甚至是超越人眼和大腦的判斷,需要不斷攻克和解決自動駕駛中的基礎問題,這其實還是回到了對深度學習技術的應用,在這個過程裏,柳長春隻能逼着自己往前走," 因爲問題都是可視的,一項一項去解決就好了。"
據柳長春回憶,2015 年,百度的第一輛無人駕駛車開上北京的五環的消息,轟動了整個社會。作爲當時剛從清華大學自動駕駛專業研究生畢業的他,沒作多想,便将自己的簡曆投向了百度。在加入百度之後的六七年當中,他自覺與自動駕駛技術的研發工作,是一種共同成長的關系,有突破的時候,當然也有低谷的時候,不過隻要看到項目推進哪怕一點點、問題解決一小個,他都能重新振奮起來,因爲他相信 " 悲觀者看到問題,樂觀者改變世界 "。
百度無人駕駛車的決策數據閉環系統。
畢業于北京大學的史海波,與柳長春幾乎是同一時間加入了百度,不過他所參與研究的領域,是公司的看家本領—— " 百度搜索 "。六七年來,爲了讓搜索引擎變得更高效,早在 ChatGPT-4 爆發之前,他便一直在機器問答領域不斷摸索,如今研發出了 " 生成式搜索系統 " 的發明,爲百度搜索的叠代做好了充分的準備。
" 學術界關注更多的是科學突破,但是在工業界,想的卻是把想法變成現實,真正把東西造出來。" 史海波說," 當代的年輕人普遍容易焦慮,不過做這一行就不太可能,因爲每天都在解決實際問題。"
相比起年輕人,早在 2006 年入職百度的秦同學,就是 " 幹實事 " 的最好例子。作爲 " 鳳巢 " 的首席構架師,他通過搜索變現的方式,曾爲百度每年帶來上百億元的收入。他也一直從未停止過想象,怎樣才能把推薦算法變得更加智能。據他回憶自己曾經看過的一部電影《Her》,裏面那個 " 陪伴式的智能體 ",成了他的願望和目标。
電影《Her》裏的 " 陪伴式智能體 "。(圖 /《Her》)
直到 2019 年,秦同學轉入推薦策略部後,通過千億級參數的 " 文心大語言模型 ",他找到了抵達 " 目标 " 的關鍵技術突破口,曆時三年終于研發出了 " 基于用戶心智理解的對話式推薦技術 "。名字乍一看有些長,但其實不難理解,這是一種從 " 數字 " 到 " 數智 " 的飛躍。
在秦同學看來,創新的目标是用科技讓複雜的世界更簡單。在掌握核心技術的百度,一如既往地工作了 17 年,是他從未後悔過的決定。據他透露,百度内部有一個科技創新最高獎,也是中國互聯網行業最高級别的獎,每個獎金是 100 萬美元,而光是他帶領的團隊,就拿到過六次。
" 其實沒想那麽多,就是做自己最擅長的事,而且百度的企業文化一直是簡單可依賴,沒有複雜的人際關系,大家自上而下都是懂技術的,所以都在踏踏實實做事情。" 秦同學說。
百度量子。
他創新的腳步一直在前行,最近又在推動大模型往個人智能助理的領域發展,這一想法來源于他在生活中觀察到的,人們一直期望高效獲取信息,獲得高情緒價值、教育價值等,在他看來,如果大模型在個人智能助理領域能夠成功做到,那麽将來就能泛化應用到人們生活的各個領域。
秦同學說:" 我們無須過于擔心,科技的發展會如何影響人類的生活,其實隻要将科技視作一種方法,讓社會朝着更良性、更公平的方向發展,一切就都是值得的,也是每個科技研發者共同肩負的責任。"
作者:段志飛
校對:鄒蔚昀
排版:小 野
封面:《Her》