OpenAI 剛剛推出的 Sora 像是一顆炸彈,再一次引爆全球。
作爲 AI 視頻模型,Sora 可以根據文本指令創建現實且富有想象力的場景,能夠生成具有多個角色、特定類型的運動,以及主體和背景的準确細節的複雜場景的高清視頻,并且時長可以達到一分鍾。
Sora 對語言的理解也達到了一個新的層級,使其能夠準确地理解提示詞,并生成表達充滿活力的情感的視頻。它建立在過去對 DALL · E 和 GPT 模型的綜合研究之上,提出了一種新的模型可能。它不僅可以理解用戶在提示中提出的要求,還能理解它們在物理世界中的存在方式。
重要的是,Sora 是一個 diffusion transformer,而 transformers 已經在語言建模、計算機視覺和圖像生成等各大領域已經表現出了傑出的擴展特性。
作爲一種擴散模型(diffusion models),Sora 除了能夠根據文本指令生成視頻之外,還能夠獲取現有的靜态圖像并從中生成視頻,準确地動畫圖像的内容并關注小細節。Sora 還可以獲取現有視頻并對其進行擴展或填充缺失的畫面。
Sora 從大型語言模型中獲得靈感,這些模型通過互聯網規模數據的訓練來獲得通用能力。(截圖來自 OpenAI 發布的 Sora 技術研究報告:Video generation models as world simulators)
OpenAI 發布的技術報告認爲,Sora 的研究結果表明,擴展視頻生成模型是構建物理世界通用模拟器一條極具前景的途徑。它使人工智能理解和模拟運動中的物理世界,邁向了一個新的高度。
因此,Sora 也被認爲是 AGI 實現過程裏的重大裏程碑事件,而不僅僅隻是視頻生成。
在 Sora 發布之前,Runway 和 Pika 都被認爲是視頻生成賽道的佼佼者。Sora 發布之後,很多人認爲,它憑一己之力已經輕松 " 吊打 " 且即将 " 幹翻 " 這兩家新興獨角獸公司,并對創業者的命運表示擔憂。
然而,他們自己對此卻似乎興奮更多于恐懼。Pika 創始人郭文景獨家回應钛媒體 App 稱," 我們覺得這是一個很振奮人心的消息,我們已經在籌備直接沖,将直接對标 Sora。"
此外,郭文景還透露,目前已經在招人了,具體計劃暫時還不能對外透露。
Pika Labs 成立于 2023 年 4 月,同年 11 月發布首個産品 Pika 1.0。Pika1.0 能夠生成和編輯 3D 動畫、動漫、卡通和電影,并且普通用戶還可以對其進行加工,被視爲一款零門檻 " 視頻生成神器 "。
在與钛媒體創始人趙何娟的【AI 新生代】系列對話中,郭文景也曾提到,目前生成式視頻發展的一個重要限制是算法的成熟度,這也是 Pika 的核心主攻方向。
" 我覺得視頻跟語言模型不太一樣,關于語言模型大家已經知道大概的方法,算法其實已經比較成熟了。但視頻現在沒有很好的算法,它不是一個規模化的問題,不是說現在大家的 GPU 不夠多,很多時候其實是算法上還沒有很好的一個思路。" 郭文景說。
而此次 Sora 的發布,也給行業提供了一個非常好的算法思路,可能反倒爲 Pika 這樣的領先創業公司提供更成熟算法路線可能。
事實上,面對實力強勁的 OpenAI,郭文景也早已做好了準備。早在數月前,趙何娟也曾問過郭文景,在視頻生成賽道上最關心的對手是誰,郭文景當時即表示,應該是 OpenAI。
作爲一個在東亞文化裏成長的女生,郭文景大學本科畢業于哈佛,而斯坦福博士尚未畢業就辍學創業。其創立的 Pika 1.0 版本的 demo 視頻流出之後,即一鳴驚人,它能夠生成和編輯包括 3D 動畫、動漫、卡通或者電影風格的視頻,并且使用起來也很容易上手。
它還允許用戶自己上傳視頻片段,并使用生成式 AI 來編輯和重新構建場景。電影質感,動畫級特效,Pika 1.0 的視覺效果十分炸裂,似乎讓普通人都能成爲電影導演,即将成爲一種可能。
這支最初由 4 個人組建 pika_labs,融資超過 5500 萬美元,幾乎所有 AI 領域的知名早期投資公司都參與了此輪融資。
而就在 Pika1.0 發布才過去四個月不到,同賽道的 Sora 的橫空出世,在 AI 視頻生成這條路上,又增加了很多變數和可能性。
以下是之前钛媒體創始人趙何娟與 Pika 創始人郭文景的【AI 新生代】對話實錄:
當電影夢疊加 AI 的 " 魔法 "
趙何娟:Hello,Demi,很高興又見面了,很高興你能夠來到我的直播間,與我們一起來探讨這一波 AI 浪潮下新生代崛起的話題。作爲矽谷最近非常火熱的 AI 生成式視頻項目 Pika 的創始人,外界對你們的讨論也特别多。我想大家應該都會對你的創業,對你本人都會很感興趣。
我們可不可以先從你自己的經曆開始聊一聊,你是怎麽從哈佛大學讀本科,然後到斯坦福大學讀的碩博的?又怎麽選擇了文本生成視頻這個方向來創業的?
郭文景:大家好,我是 Demi。我從小就對創意行業比較感興趣,也因此我選擇去斯坦福大學。之前我一直在做 AI,兩年前加入斯坦福大學讀博,我選的方向就是 AI for content creation.,用 AI 做一些内容創作。
我當時跟了兩個老師。一個老師是斯坦福大學人工智能實驗室的主任 Chris Manning,另一個老師之前是用計算機做電影的,他曾經獲過兩次奧斯卡獎。斯坦福也是一直嘗試用 AI 做内容創作。我也在遊戲公司做過一些 AI for 虛拟人,AI for 3D 遊戲内容,以及原畫的一些的探索。
之所以開始創立 Pika,一個是對這個方向比較感興趣,另外也是我自己特别想做一些電影和視頻,但我不是專業的。我曾經跟一些朋友想做一個 AI 電影,過程讓我意識到,雖然現在視頻制作已經非常先進,但還是有很多瓶頸。
我覺得 AI 一定會改變現在視頻制作的方式。如果能夠用最好的 AI 技術,去想象未來視頻制作的方式,是一件非常有意思的事情。我就開始做 Pika 這個項目。
趙何娟:你在創立 Pika 之前,先參加了 Runway 的 AI 視頻大賽。你現在做的 Pika,一個很重要的或者說比較大的競争對手就是 Runway。你爲什麽去參加 Runway 的大賽,同時要做一個跟 Runway 完全競争的項目?而且,Runway 在這個領域裏目前還是領先的。
郭文景:我當時參加這個大賽的時候,沒有想要做 AI 視頻的公司,純粹是興趣。當時我們放寒假,我發現這個比賽就挺有意思的,我想做一個電影。我們當時還找了一個編劇去寫這個劇本,也找了一些做 AI 的朋友和大學同學。
這個過程,讓我們意識到現在視頻制作還是非常複雜。我們有很多創意是很好的,但并不能很好地實現。我們也用了很多 Runway 的工具,也用了一些其他的工具,我們發現還有很多空間。
趙何娟:你發現在做視頻或者電影創作的時候,深入研究發現制作過程還是有很多瓶頸,主要的瓶頸是哪些?
郭文景:我當時想要把視頻的背景變成一些其他的背景,包括幾秒鍾的視頻,就要花掉我好幾個小時,電腦還會出錯。我想要把一個視頻放嵌入到 iPad 的屏幕,過程也非常複雜。我根據一些教程學了一遍以後,第二遍我就直接忘記了,中間還有可能出錯。這應該是比較簡單的任務,沒想到還需要花這麽多時間和精力去做。
我們當時做的電影,找了演員,做的是從真人變成動漫的形式,當時可能還沒有任何模型去做,視頻到視頻的功能。我們其實是用了一些新的論文,去實現的。其實 AI 能做,但是市面上沒有很好的工具。
堅定 AI 信仰:比起數據,技術才是底氣
趙何娟:現在 GPT 大模型也在不斷升級,叠代速度還是蠻快的。可能在你想做那件事情的時候,還沒有工具能做,但是可能當你自己去做的時候,發現其他的工具都開始做了。所以,你們來做這件事情的核心競争力是什麽呢?
郭文景:首先,我們還是比較相信自己的技術背景的。我們創始團隊有斯坦福博士,團隊還有麻省理工等院校的博士,和一些比較非常優秀的本科生,我還是想打造一個比較頂尖的技術團隊。
相對 Runway 來說,我們還有幾個不同。關于産品的定位和産品的策略,Runway 可能還是更偏向于一些專業的用戶。它們推出的很多功能,主要是面向電影制作,或者說電影工作室,更偏于一些專業用戶。
但我們想做得更加偏普通用戶能用的一些工具。不一定說是要做電影,也可以是幫你編輯一些個人的視頻,或者是做一些比較有趣味的視頻。
Runway 它可能做的範圍會更加廣一些,比如說 3D、語音、agent,各種不同的模型,方式更偏向于有一個新的算法,有新的一些功能。但我們是從視頻編輯和視頻制作的角度出發。
趙何娟:還有一個很重要的問題是數據。相比 Runway 這樣已經跑在前面的公司,或者是相比其他的一些大的平台,比如說,像迪士尼現在也在做自己的視頻生成的相關的模型,你們會不會認爲,數據是最難與之競争的?你們怎麽解決數據的問題?
郭文景:數據的确很難與迪士尼競争。OpenAI 是現在最好的語言模型,但是爲什麽有很多語料庫的公司,沒有做出最好的語言模型呢?迪士尼也不代表它的數據一定會更好,因爲它的數據量比較有限。其實很多語言公司最後還是看技術。
趙何娟:你剛才講到的另外一個不同,你們的定位不一樣。你們更偏向于普通用戶,普通消費者,而不是隻針對電影制作者這類專業用戶。怎麽理解你們想要針對普通用戶這樣的一個定位?像 TikTok 這樣也是針對普通用戶,每個人都可以在上面做一段創作或者短視頻,是不是你們也會往平台方向去拓展?
郭文景:我們現在沒有這方面的想法,我們更多是基于技術之外的一些功能性的開發。
趙何娟:那普通用戶怎麽用你們呢?他們用 Pika,更多是用來做什麽呢?
郭文景:我們現在更多是希望用戶可以做一些視頻的生成和視頻編輯。具體的應用,目前我們還是比較開放态度,是讓用戶去決定。我們現在更多是把技術瓶頸突破。
趙何娟:現在技術突破上最大的一個難題是什麽?
郭文景:我覺得視頻跟語言模型不太一樣,關于語言模型大家已經知道大概的方法,算法其實已經比較成熟了。但視頻現在沒有很好的算法,它不是一個規模化的問題,不是說現在大家的 GPU 不夠多,很多時候其實是算法上還沒有很好的一個思路。
舉例子來說,比如現在大部分常用的視頻模型,根據設計來講,它就不可能生成很長的視頻,因爲它每一幀的圖片是一起生成的。它有一些算法上的瓶頸,無法做出我們想象的那種非常長、非常好的視頻。它其實還需要一些算法知識上的突破。
趙何娟:接下來的創業裏,對于你來說,還會有哪些挑戰?
郭文景:AI 是高速發展的一個行業,一定會有很多的變化,競争對手也有很多的變化,整個行業日新月異。更多的挑戰是一些不确定的挑戰,我們也不知道未來會發生什麽。所以,對我們來講,我們的心态是,這就是沒有什麽挑戰。
現在我們更多的是想建立一支比較好的團隊。沒有什麽挑戰是不能克服的。可能有些挑戰更難一些,你花的時間需要更多,去探索,去找到一個解決方案。
趙何娟:你之前是對 AI 和創作感興趣,但你與團隊在磨合的過程,或者在組建團隊的過程裏,發現就憑興趣做事,和做公司之後,感受有什麽不一樣的嗎?
郭文景:我們很幸運的一點是,我們做的公司,就是我們的興趣。我就是目标用戶。我有時候工作閑的時候,就會去用我們的産品,去做一些視頻。包括我們最早的一些市場向的視頻,就是我做的。
我們比較幸運的一點,是因爲我們對自己的這個方向特别感興趣。所以,我們的團隊也是相對比較有活力,都是屬于比較有自主動力的人,而且團隊還比較小。創業是最幸福的事情,在做自己最想做的事情,而且跟一群我們覺得非常優秀,同樣對這件事感興趣的人一起做這件事情。
趙何娟:你們的投資機構,光速創投的合夥人 Michael,他說,Pika 團隊是他見過行動力最快的團隊,我不知道你怎麽看待這個評價?
郭文景:我們團隊一直比較看重執行的效率,這可能也是小團隊的一個優勢。
趙何娟:我們再來聊聊趨勢。之前我有看到英偉達的科學家說,2022 年是影像之年,2023 年是聲波之年,2024 年是視頻之年,你怎麽看這個演化的過程?近幾年說視頻也都好多年了,爲什麽說今年是視頻之年?
郭文景:視頻可能現在雖然沒有那麽完美,但是今年一定會有比較大的突破,因爲現在用 AI 一個做好的視頻,需要在 prompting,提示詞上有一些技術。你可能需要在這方面比較有經驗,就能做比較好的視頻。但如果你沒有很有經驗,就不能做出很好的視頻。
這是因爲現在視頻模型還沒有那麽成熟,但我們覺得馬上會非常成熟。今年可能就可以做出産品,是能夠讓所有人不需要有很多的經驗,就能夠做很好的視頻。
趙何娟:接下來也想聊一聊你對整個 AI 的行業的一些判斷。你怎麽看待最新的這一波的 AI 革命浪潮,有沒有可能有更多的機會也是你感興趣的?除了你現在做的視頻之外,你接下來還有沒有哪些想法?
郭文景:我非常相信 AI 浪潮。我知道很多人可能會覺得 AI 浪潮實在有點太火了,或者是有一些過度,有些泡沫。但我們還是很相信的。不管說這個熱度是否過火,但是技術真的是有突破。我們也相信,未來 AI 一定會改變很多行業,很多的應用,包括應用的一些使用。這個是毋庸置疑的。可能包括視頻制作或者說音樂制作,購物方式,AI 都會對傳統的方式有颠覆。
"别人家的女兒 " 是如何長成的?
趙何娟:你做這個的事情,你家人怎麽看呢?
郭文景:我家人還挺支持我做任何我想做的事情的。
趙何娟:Pika 創業項目出來之後,你們公布了融資信息,又發布 demo,大家也都非常關注你的家庭背景,都說這是 " 别人家的女兒 "。
所以,從你自己角度來說,你覺得家庭的教育,對你不管是求學,還是創業的想法,起到了什麽啓發或者作用?一個這麽優秀的女孩子的成長,一個很好的家庭教育還是很重要的,或者是起到了很至關重要的作用。
郭文景:我覺得我還是挺幸運的,我的整個成長經曆,也挺感恩,不管是對我的老師,或者是家裏人。因爲我從小一直對創意行業比較感興趣,我小學的時候,其實是想做一個作家,想要追求一些文藝的夢想,包括我家裏人,其實當時特别希望我能走一些文藝的路線。我當時堅持要做編程這條路線的時候,我還跟我父母大吵了一架。我有姐姐和妹妹,她們是做的偏這個藝術方面的一些工作。
趙何娟:你小時候那麽喜歡寫作,什麽時候開始又開始對編程感興趣的?是什麽觸發你突然對編程感興趣了?
郭文景:我當時特别喜歡詩歌。我小時候喜歡寫作,喜歡看詩歌、散文集。我特别喜歡一些比較抽象的詩歌,一些帶有隐喻的散文,結構上的設計上比較巧妙的詩歌和散文。
當時接觸到編程,也是純粹覺得非常有意思。五六年級的時候,剛好家裏有一本書講的是 LOGO 程序語言,是一個小烏龜畫畫的一個語言。當時暑假沒事兒幹,看了這本書,就學會了這個 LOGO 語言。你可以通過編程的方式,去做一些創作。
程序跟詩歌還是有一些共通之處的,是需要去設計的。比如說,結構化的編程,你需要設計一下,函數怎麽搞,結構怎麽搞。但它與詩歌不一樣的點是,你最後的輸出的這個東西,是可以交互的。
趙何娟:你可能在小學的時候接觸編程是玩兒,但是,在成長的過程之中,比如說,中學之後就要開始想專業方向。你在專業方向選擇的時候,爲什麽沒有選文藝那條路?比如說,去學文學或者是學藝術相關的,而是完全走上了這個計算機科學這條路。
郭文景:我其實到初中、高中以後,就逐漸喜歡上了編程。純粹是個人興趣,沒有想到編程會對我升學有幫助。當時每天要先好好做作業就開始去編程。編程與文學不一樣的有意思的點是,編程真的能做一些應用,一些實際上的大家都能用的一些應用。我覺得這件事情非常的 magical。
大學也是興趣導向的。我大學本科修的是數學。但是,我同時也與一些博士生一起,上一些計算機的課。在哈佛修的是數學學位,同時拿了一個計算機的研究生學位。我在哈佛也上了很多人文課。
前兩年,我就把計算機和數學的學位拿到了。後面兩年,其實我主要都在上人文課,關注文藝的一些事情。
趙何娟:這個也蠻有意思的,不管是計算機還是文藝,都是你的興趣。然後,你現在就把這些不同的興趣,通過創業,把它結合起來了。
郭文景:這是兩個不同方向的興趣。大一時候,我就開始接觸 AI。因爲當時覺得 AI 像是一種魔法,AI 這麽神奇,這麽 powerful。比如說,AI 當時能夠做人臉檢測之類的,我覺得非常不可思議。對 AI 也感興趣,對藝術和創作一直都很感興趣,我很難找到一個更讓我覺得更有意思的事情。
趙何娟:你從哈佛學習,又來到了斯坦福。這兩所學校,一個在美東,一個在美西。你覺得這兩所大學對你來說,以及你在這兩所學校裏收獲的東西,有什麽不一樣麽?
郭文景:兩者不同的話,其實很難說。主要是本科經曆和博士經曆不是很一樣。大學可能會更廣一些,更注重一些探索,可能會修不同的領域的課,會認識不同領域的人,但博士可能更偏專業一些。
趙何娟:美東的文化和矽谷的文化相比,差異其實也蠻大的。在你看來,這兩所學校的教育模式、創新,或者與企業界的聯合的方式,有什麽不一樣?你會更受益于哪一種?你的創業可能會更受益于哪一種?
郭文景:其實挺難對比的。每個學校環境不太一樣。可能在哈佛,在美東,大部分的朋友都在搞金融,但是,斯坦福會有更多同學對創業感興趣。
斯坦福有很多計算機的課,計算機與其他學科結合的課也非常多。哈佛與計算機相關的,沒有幾個課,我們當時要上一些博士 level 的課,可能也就二十幾個人。甚至,我當時還在 MIT 上了一節課。
其實計算機相關的,在哈佛也是第二大的學位。在哈佛很多學習計算機的人,後來也沒有去做計算機相關,很多人去做股票、咨詢或者産品經理之類的工作。
趙何娟:斯坦福的創意氛圍更濃,斯坦福大學也有很多辍學創業的,都還比較成功。你的前輩們在矽谷各領風騷好幾年。過幾年,又會有一波新興的創業新秀起來。這也與矽谷和斯坦福獨特的文化有很大的一個關系。
你當時怎麽就下定決心,決定辍學去創業的?尤其你是從小成績就很好,是家裏的掌上明珠,爲什麽有辍學這個跟你之前的人生可能很不一樣的決定?
郭文景:相比讀博來講,我個人對創業會更感興趣。我其實在哈佛從中間也辍學了一年,再回去讀的。我當時大二的時候,在 Facebook 就是現在 Meta 全職工作了一年,在 AI 研究實驗室,主要是感興趣。對創業比較感興趣,是因爲我覺得還能做一些應用。
我比較喜歡追求自己熱愛的事情。在美國,一些本科生辍學還是挺正常的一件事情。我的幸運的點是我的導師。包括我的博士的導師,都特别支持我。他們在學術上都非常資深,一個是斯坦福人工智能實驗室主任,一個是獲得了兩個奧斯卡獎。我博士的導師,現在是我創業的導師和顧問。現在我還是會定期去見他們。
趙何娟:他們怎麽看待你現在這個創業項目的?
郭文景:他們非常支持。我當時跟我一個導師說了這個事情,他馬上在電話上直接說支持我。他說,聰明的人就應該去做自己想做的事情。我覺得非常幸運,我也非常感恩我的導師,他在一些技術上的知識都會支持。現在,他還是會跟我們進行一周一次的技術上的指導。我的導師也會覺得,快樂最重要。
趙何娟:特别感謝 Demi,Demi 是一個很真實、率真,可愛的姑娘。也有很多年輕一代的人,看到 AI 這個大浪潮來了。能不能請你給你的同齡人一些方向性的建議,如何把握到這次機會?
郭文景:也不能說給什麽建議,可以分享一下我個人的想法。我覺得其實很多時候,還是要追求自己的内心想做什麽,還是要追求自己的個人的興趣。大家的人生隻有一次,要做自己熱愛的事情,隻有做自己熱愛的事情,才能做得到最好。
(本文獨家首發钛媒體 APP,作者|李程程,編輯|馬金男)