圖片來源 @視覺中國
文|矽谷 101,作者|何源清,編輯|泓君
OpenAI,是一個人工智能研究的實驗室,它是由非營利組織 Open AI inc 的母公司與一個盈利的子公司 OpenAI LP 組成。它的目标是實現通用人工智能,在實現這個目标的過程中,搞出了幾個模型,一個是我們之前的播客讨論過的 GPT3,還有一個是最近帶火 " 文字生成圖片 " 的 Dall · E · 2。如果說 Google 搜索引擎開啟了上一個周期的印鈔機模式,下一代的巨頭是不是像 OpenAI 和 Stability 這樣的做 AI 底層模型的公司呢?
這輪由生成式 AI 主導的人工智能跟上一輪不太一樣的地方是,上一輪 AI 很多靠 to B 的大公司獲取收入,而 AIGC 的出現,不必像自動駕駛那樣做到萬無一失才可以應用,成立 18 個月的 Jasper.AI 就可以有 9000 萬美元的收入。
AIGC 是指 Artificial Intelligence Generated Content,簡單來說,就是用 AI 生成内容,比如 AI 生成圖片、生成文字、生成代碼、生成視頻。本期節目,《矽谷 101》邀請到了中國知名加速器 AIGC 負責人晉英傑 Jack 和大廠 AIGC 戰略胡家康,來聊聊他們對于中國和美國 AIGC 創業格局現狀的看法跟未來展望。
01 文生圖火了,15 倍超募
《矽谷 101》:AIGC 方向特别火,有兩家創業公司,它是連續兩天都有新聞曝光,說他們拿了 1 億美元的融資。一個是 Stable Diffusion 背後的母公司 Stability,它是拿了大概是 1.01 億美元,它的估值現在是 10 億美元。這家公司的創建時間也不太久。另外一個公司是叫做 Jasper.AI,它也是做 AIGC 這種文字内容生成的。他剛剛拿了 1.05 億美元的融資,現在的估值是 15 億美元。我們先讨論一下為什麼說 AIGC 在這個時間點它這麼的火?
(來源于網絡)
晉英傑:最近正好在學習 Stable Diffusion,創始人是 Emad Mostaque,是一個巴基斯坦裔,之前在倫敦求學,以前是一個對沖基金的經理。他預測未來 AI 是一個需要 Super Data(超級數據), Super Talent (超級人才)和超強的算力支撐的一個屬于企業的一種資産。
就像 Open AI、谷歌,它們會擁有這樣的能力,所以他希望把這件事情做成一個開源的,讓世界有平等 AI 能力的機構,有點像一個去中心化的 Foundation Model(基礎模型)。
去年年底 DALL · E · 2 剛出現的時候 ,很多非 AI 背景的人開始關注到 AI 作畫,但是AI 作畫真正出圈或者瘋狂火起來的時候,是在今年。 Stability 的 Stable Diffusion 推出來之後的一個月, AI 作畫遍地開花。包括在 Photoshop 上出現的 AI 生成的功能。因為 Stable Diffusion,它是從模型的權重上就完全開源,所有人都可以自己做部署、二次開發。而今天我們看到很多大模型 Foundation Model(基礎模型)是沒有這樣開源的。
開始的時候就像模型的推理時間,隻能在 Nvidia GPU 上去做推理,可能需要 5 秒鐘,但是現在不同的社區的成員的努力下,在 Stable Diffusion 裡邊可以把它壓縮到 1.8 秒。也可以在 Apple 的 M1、M2 的 CPU,包括 Intel 的 CPU 上都可以去做推理。随着用戶量的增加,他們開始做一些大企業的服務,包括獲取更多的這種數據。
這個增長速度是非常可怕的。這一輪他們據我了解獲得了 15 倍的一個 Oversubscribe(超額訂閱),對外估值講的是 10 億美元,但有人開到了 40 億美元的 Offer,還沒有進去。
《矽谷 101》:為什麼隻融 1 億呢?我不知道它們的模型是不是自己研究的,因為像這種大模型,它背後靠的是堆算力,是需要很大的成本去鋪算力資源的。因為我今天還在跟人聊,有人會覺得這是一個資金密集型行業,那它為什麼隻拿 1 億美元呢?
晉英傑:好問題。他們整個團隊是相當扁平的,團隊百人的人數裡邊也隻有一個 PhD ,他們的 Stable Diffusion Model 是跟慕尼黑大學的一個實驗室做出來的,包括今天也跟 Midjourney 這款非常火的文生圖的産品開發者一塊研究。因為它是開源的,所以它會跟大量的機構去合作,去堆這樣的模型。
Emad 他自己是放了很多錢進去的。Stability 背後是有 4000 張 A100 的算力,他們算力是非常夠的。而從學術研究的角度,他們會跟一些機構去合作,推一些開源的模型,所以這個階段可能還不需要那麼多的錢。但是我猜明年估值應該還能翻 10 倍,那個時候可能會融再 10 倍的錢了。
《矽谷 101》:MidJourney 的火爆,除了 Stable Diffusion,跟 DALL · E · 2 整個 API 接口的全面開放是不是也有關系呢?
胡家康:對,我覺得是很有關系的。包括剛才晉英傑 Jack 也說過,大概是 Stable Diffusion 在七八月火的時候,9 月份我們可以看到國内市場是已經出現了一大批創業公司,這些創業公司做的文字生成圖片的應用基本上都是基于 Stable Diffusion 做的。所以看到它的開放能夠驅動整個應用層的生态繁榮的增長,并且會驅動很多創新的應用出現。
比如 DALL · E · 2 推出的那一段時間,我們看到的文生圖的一些創意應用還比較少,但是在八九月份以來,我們看到了文生圖可以用在很多不同的場景,這也激發了非常多的想象力。而且我相信從第四季度開始,我們會看到更多創新的應用形态出來。
02 為什麼長不出中國的 OpenAI
晉英傑:從你們角度,為什麼你們沒有去做一個千億的模型,你們去怎麼看這一點投入和産出?
胡家康:清華有一個團隊叫面壁智能,出過一個大模型參數的榜單:顯示了随着不同時間段、不同公司發了哪些大模型,他們的參數規模是怎樣的,其基于他們數據去做分析,可以看到幾個很明顯的趨勢:
第一,一個确實是大模型的參數達到了 5000 多億參數量級之後,大家都沒有再往上突了。今年 22 年的時候,新發的一些大模型,要麼就是在千億左右參數的規模,要麼就是可能針對某個細分場景做了一些的優化,要麼更強調跨模态,比如遊戲、強化學習、圖等等。為什麼會有這個現象?我個人理解,去提高參數的邊際收益其實已經相對沒有那麼大了,因為你想一下,從千億參數提到萬億參數,你所需要的算力規模的量其實是會比 10 倍量要需求更高的是。不是你對 10 倍的機器就能夠訓出 10 倍參數的模型,效果的提升其實是沒有相應的那麼顯著了,這是生成類任務。
第二,像 NLP 還有一類典型的任務是理解類任務,比如去做文本的分類,信息的抽取等等的。這類任務我們看到從百億到千億去跨越的時候,其實它的邊際效果的提升已經不太多了。所以我們真正去做産業應用的時候,到底是不是必須要用一個非常大參數的模型,目前其實是打一個問号的。
從下半年開始,一些新的機構加入這些戰場了,也可以說明這個領域确實是兩個特性:一是我們肯定是不需要太多家的基礎設施;第二,它是一個資金密集型的特性,并且它有比較強的規模效應,所以你在已經那麼卷的階段,你再去新切入市場,其實價值已經相應沒那麼大了。
《矽谷 101》:根據你剛剛的榜單,中國大模型參數訓練最多的是哪一家?
胡家康:根據公開資料的披露,目前中國廠商推出的大模型參數量最大的是阿裡的 M6 大模型,達到了萬億級别,但是它的萬億級别背後對應的它其實是用了一種稀疏化的模型的方式,很容易把參數堆上去,你可以理解為它的數字會比 GBP-3 的千億模型有虛高的成分存在。
其次就是一批千億模型,包括智源、清華的幾個實驗室、百度文心、華為的盤古大模型,也達到了千億的規模。去做生成類任務,其實千億是一個門檻。
《矽谷 101》:在中國做到千億模型,它大概花的比如服務器、顯卡的這些算力成本,大概是在一個什麼樣的量級?
胡家康:可能我們公司的數據不太好說,但是肯定是起碼得上千張卡規模。
《矽谷 101》:智源的模型跟百度的模型,他們的效果最後怎麼樣?
胡家康:這一類做文本生成的大模型,在中文領域的效果都是遠遠不及 GPT-3 的。背後可能有很多原因:
第一,本身對中文的理解和對英文的理解、生成,是兩個體系,中文的難度是更大;
第二,不管是 OpenAI 還是 Stability,他們都有一種更加創新與靈活的組織形式,其實是聚集了一種開放、利益互享的方式,聚集了一批頂尖的科學家一起去做貢獻,但是國内目前這個模式可能還沒有一個很成功的案例出來。對方相當于是以那種很小的杠杆可以撬動巨大的力量,但是國内可能還是依靠于各個大廠大型公司,自己的科研人員去做這個事情,再對比下來,難度還是有一點大的。
第三,還是在資源的投入上有區别。雖然國内的公司也投入了很大的資源在做這個事情,但是相比海外,比如 Stability 4000 張 A100 的卡的這樣一個量級的投入來,作為一個國内的大型公司,它很難去把這個故事給講圓的。
第四, GPT-3 2020 年推出之後,較快地形成了一個創業生态,一大堆産品去用它的 API 去得到用戶的反饋來優化模型。這個事情在國内其實目前以文本生成角度來說,還沒有形成一個可以和國外相媲美的應用生态。所以對于做技術的人來說,反饋和優化的空間也會相對的少一些,所以在這種技術叠代的加速度上,會比國外相對的落後一些。現在有很多的創業者進來,各類科技公司去提供很好的基礎設施,在這種正循環的促進下,有希望在明年看到國内能夠做起來類似海外的這樣一個應用生态起來的。
《矽谷 101》 :Jack 你要不要給大家介紹一下為什麼同樣大家都是一個千億級參數的訓練量,Open AI 它能把這事給做成了。為什麼它能夠吸引到整個行業比較頂級的科學家?
晉英傑:目前我看到了一個信息, OpenAI 能否在中國發展出來,或者是一家 AGI(通用人工智能)公司能否在中國發展出來,影響這件事情的要素在我看來會有三個:
第一個是人才的密度、高度;
第二個是資本的 goodwill(加持);
第三個是背後政策的一個支持。
從 2020 年開始,我開始尋找中國有能力做 OpenAI 的人。先去拜訪了一些老師,包括藤校的教授,大廠的大模型的一把手等等。但是會發現中國 AI 地位比較高的老師,也可能是我認知淺薄,感覺他們都有一點 懷疑的, OpenAI 300 個人大部分都不是 CS(計算機科學)的博士。中國在各個領域學術人才的交叉的密度可能還不太夠, Openness(開放程度)還不太夠。
比如像 OpenAI 的創始人 Sam Altman,還有他合夥人 Ilya Sutskever,他們都是 30 多歲,頂尖聰明的年輕人。在中國有這樣的視野 的年輕人,至少我遇到的還是蠻少的,可能人才上還是要比美國落後 3-5 年。
另外一方面,從開放性 上,剛才我們提到 5000 億和 1000 億,為什麼沒有人再去堆 1 萬億了?剛才家康提到特别好的一點,你成本是非線性的,每個 GPU 之間的一個通訊成本會大幅度增加。怎麼去解這一點?或者從第一性原理上,它應該是什麼樣的?我們人腦有 860 億個神經元,有 1.7 萬億左右的連結。1.7 萬億對應我們模型的一個參數量,也就是 GPT-3 做了一個參數量是人腦 1/10 倍的模型。
如果我們真的想對标人腦的這種鍊接能力,沒準我們還真的需要一個 1.7 萬億參數的模型,你不光是需要從數據、算法層面去做革新,你還需要從硬件方面去做革新。怎麼讓 GPU 之間打破這樣馮諾伊曼架構的牆壁,需要腦架構,或者認知科學,或者腦神經科學相關的一些科學家跟模型的科學家老師聯合跨組,在大廠裡面直接是跨部門的一種合作了。這方面看到的還是相對少一些的。
在 OpenAI 裡邊就 300 個人,來自各種各樣的一些領域,化學的、生命科學的、物理學的、數學的,有頂尖的 CEO 和科學家去帶領着,都很年輕,裡邊分成很多組,這些組不單單是都去沖 AIGC 的,對于他們這件事情來說,風險是其實極高的,它落地的收益又是相對少的。
做 OpenAI 這家公司,美國是有一部分資本是有耐心的,微軟給他們的資金。國内很少有機構願意去賭,一個團隊兩年的時間,什麼商業化的東西都沒做出來,就做了一篇論文。但是這家機構就是為了 AGI(通用人工智能)一路走到黑。Deepmind 和 OpenAI 都是這樣的一個氣質。國内就會比如我要求你半年給我産生點東西,有一個什麼模型之後,我就立刻需要落地的一個營收回報來證明這件事情有價值。
《矽谷 101》:馬斯克當時說:你應該擔心人工智能的安全問題,因為它比朝鮮問題還要危險。他是怕人工智能作惡的這樣的一個初心。最開始 OpenAI,它在解決一個什麼問題?它想做通用人工智能。
所謂的通用人工智能就是人工智能在所有的領域都可以做得比人好,或者至少跟人能達到一樣的治理水準。關于這樣的一個願景,在業界跟學界,包括一直到今天是有非常多的争議的。就像我知道有很多的教授,到現在都覺得通用人工智能的這種提法是有問題的,甚至有很多人就直接覺得馬斯克要做這件事情,是因為他不懂 AI,包括紮克伯格也是這樣怼過的。所以馬斯克懂不懂 AI 我們不知道。我們可能會專門花一期的時間去讨論這件事情。
03 生成式 AI:可生萬物
《矽谷 101》:AIGC 有很多 To B 的應用,To C 也很有想象力,很有想象力。還有一個特别小衆的領域的應用,《矽谷 101 》之前的一位嘉賓 Howie 提到,有一個考古學的教授發現 AIGC 在考古學裡面太有用了。因為考古它的場景,它其實是一個不太清晰的發掘現場。但是他其實很需要根據現場去還原成一個清晰的、有過往想象力的東西,他發現用 DALLE2 的模型,就能更好地去幫他們看考古當時的場景是怎麼樣的,我還挺沒有想到的。
晉英傑:有意思,不隻是如此,Sam Altman 就聊到 AI 有可能的三個很關鍵的任務:
第一個是做科學家的工具,比如像 Alphafold;
第二個是解決每一個人日常的一些需求,比如 AI coding,做編程;
第三個就是 AI 自己演化成一個科學家。
藝術在我們看來是非常難的一件事情,但是 AI 做得很好;做一個科學家也是很難的事情,有可能 AI 也可以做好。我們今天去解決一些複雜的問題,比如阿爾茲海默綜合征,我們如果有足夠的數據的情況下,我會把它拆成一個個的子問題,在不同的學科裡邊尋找答案。每個科學家都會有一個自己的實驗記錄本,記錄我可能為什麼這裡用的公式,那裡邊用了這樣的一個物理學的原理,直到我們解開這樣一個科學的謎題。
《矽谷 101》:剛剛你們提到的, AI 可以去賦能科學家這件事情,它到底是 AI 還是 AIGC?因為比如 AI,它可以參與到制藥,它可以去探索蛋白質的結構,是就 Alphafold 做的那些事情,它是 AI 做的,它跟 AIGC 有沒有關系?
晉英傑:我們今天話題雖然是 AIGC,但是紅杉那篇文章的标題是 Generative AI: A Creative New World。它不單單是生成内容,後邊的東西可以是萬物。 決定于你把什麼樣的模态放進去,你今天放代碼,我就生代碼;你今天放蛋白質三維結構,我就生蛋白質;你要是放科學推理,我就給你直接變成科學家。還是挺有意思的,我們可以往這一塊去讨論。
《矽谷 101》:所以 AI 不僅僅可以生成文字、圖片、視頻,它也可以生成代碼或者萬物,就看我們想要它生成什麼。
《矽谷 101》:跟生成式 AI 相對應的是什麼?
胡家康:我覺得相對應的就是理解式 AI,因為我們一般會把生成和理解做一個對應。有點類似人的成長過程:一個小朋友剛誕生的時候,他就隻能去看到這個世界萬物是什麼樣的。他知道樹葉是樹葉,媽媽是媽媽,但是他無法表達,更無法創新。但是生成式 AI,它随着逐步的發展,智能化程度不斷提高,它就有點像人類到了十幾歲的狀态,能夠去做演講,能夠去作畫,甚至能夠去産生更多的思考和創作。
《矽谷 101》:從你們個人的角度,你們相信通用人工智能可以實現嗎?
晉英傑:從我的角度,我還挺喜歡 John Carmack 說的那句話。John Carmack 就是之前 Oculus 的首席科學家,他是在領域裡邊很少的又懂遊戲,又懂 AI,又懂 VR 又懂圖形學的人。他帶着他的兒子在 2020 年去做了自己的一家 AI 公司,是今年爆出來的新聞,但是他從 2020 年就走了,去幹 AGI 了。那時候也有一波報道的,可能今天公司才成立,或者是正式對外招人之類的。
他最近說了一句話,他說:" 今天通往 AGI 的路徑可能已經存在于我們現在已有的人類的信息的各種各樣的教科書和知識庫裡面了,隻不過我們還沒有以正确的方式把它們組合起來。"
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App