斯坦福美女博士創業項目爆火！AI視頻生成出道即頂流，半年融資5500萬美元 - 青年圖摘

斯坦福華人博士休學搞創業，直接火爆 AI 圈！

新産品瞄準AI 視頻生成，剛出道就成行業頂流，引來一衆大佬圍觀評價。

OpenAI 大牛 Andrej Karpathy 轉發，并激情附上長文一段：

每個人都能成爲多模态夢境的導演，就像《盜夢空間》裏的築夢師一樣。

就連 Stability AI 創始人也來點贊：

這個新産品名爲Pika 1.0，背後公司 Pika 于今年 4 月成立。

要知道，這一行的産品已有不少，如成立 5 年的 Runway 等公司。

在 AI 視頻生成 " 亂花迷人眼 " 的當下，這個新産品究竟是如何做到迅速破圈，吸引大量關注度的？

從放出的 Demo 效果來看，Pika 1.0 不僅能根據文字圖片，流暢地生成一段視頻，動靜轉換就在一瞬間：

而且可編輯性還特别強，指定視頻中的任意元素，一句話就能實現快速 " 換裝 "：

這樣的效果，也使得公司成立僅半年，産品用戶已經超過 52 萬人。

更是新斬獲5500 萬美元融資，其中個人投資者不乏各種大牛，如 Quara 創始人 Adam D ’ Angelo、Perplexity 的 CEO Aravind Srinivas、GitHub 前 CEO Nat Friedman 等等。

所以，Pika 究竟有沒有看起來這麽好用？我們也立刻上手體驗了一番。

AI 視頻新頂流長啥樣？

此次火爆出圈的 Pika 1.0，是 Pika 發布的第一個正式版本産品。

經過四個多月 Discord 社區的測試，Pika 認爲是時候推出本次重大升級了。

相比之前 Pika 還隻能用文字或圖像生成視頻，如今的 Pika 1.0，功能要更加豐富——

不僅能根據文字、圖片或視頻風格生成視頻，還能對視頻局部進行編輯。

可編輯性有多強？

不僅畫面大小任意擴展，從 5:2、1:1 畫布，到 9:16 以及 16:9 的超大屏，4 種選擇無縫轉換：

像什麽 3D、動漫、電影等各式各樣的風格濾鏡，那就更不用說了。

最重要的是，1.0 正式版推出了用戶更友好的網頁版，不用在 discord 中一遍遍艾特機器人，就能直接上手玩。

（不過，現在它還需要排隊，需要點耐心。）

當然，也可以移步 Discord 社區先上手體驗一番。

盡管它還未随網頁版更新到 Pika 1.0，但我們也實測了一下文字、圖片生成視頻的效果，還不錯。

加入社區之後，直奔 "Creations"，從下面的 10 個生成區随便選擇一個進入即可開耍。

在輸入框中輸出 "/"，選擇最簡單的 "/create" 命令：

在此，我們輸入"a robot dancing in the rain, sunset, 4k, -gs 8"提示詞交給機器人。

大概也就半分鍾的時候，視頻就出來了，速度相當快：

‍

‍

‍效果嘛，雨沒有表現得很明顯，但機器人的肢體動态性真的很強。

我們再來一個稍微長一些的提示詞：

a teenager walks through the city streets,takes pictures of places（一個青少年穿過城市的街道，拍攝照片）

仍然超級快，結果就出來了：

Wow，這次真的有很滿意，畫面符合腦海中的預測，甚至比我們想象得還要好。

除了純文字，咱還可以上傳一張參考圖像進行創作，使用 "/animate" 命令。

當當，一張靜态表情包就動起來了：

總的來看，Pika 給出的視頻時長都是 3s（所以使用太長的提示詞也沒用，後面會直接忽略掉），以及它還不能保證每次結果都很滿意，但總體來說多試幾次還是有不錯的結果出現的。

在自測之外，我們也來看看網友的作品，其中不乏非常驚豔的效果。

比如有人創作的這隻小怪獸，憨态可掬，讓人忍不住想摸一把：

還有這段兩位小女孩的演奏畫面，看完我好像真的聽到了優美的嗓音從中傳出：

最絕的還是這個白鴿圍繞短發美女翻飛的場面：

也太有氛圍感了吧～

看罷如上效果，我們也來盤盤這家公司究竟是什麽來頭。

兩位斯坦福華人博士創立

Pika 的創始人一共有兩位，郭文景（Demi Guo）和 Chenlin Meng，都是斯坦福博士。

據 The Information 消息，郭文景于今年四月創立了 Pika，随後 Chenlin Meng 加入成爲聯創，兩人合作開發了這個文本生成視頻模型。

從二人學術經曆來看，她們分别專注于 NLP 和計算機視覺兩個方向的 AI 研究，也都有生成式 AI 的學術經曆。

聯合創始人兼 CEO 郭文景，斯坦福大學 AI 實驗室（NLP& 圖形學方向）博士。

她在美國出生，杭州長大，初中就讀的是杭州外國語學校，從小就接觸編程，奪得過 IOI 銀牌，從本科開始正式留學，被哈佛大學提前錄取。

此次創業，她的領英主頁顯示休學中（On Leave），應該是打算先忙創業的事情。

在斯坦佛大學讀博之前，郭文景在哈佛大學取得了計算機碩士和數學本科學位。

在本科期間，她曾經 gap 過一年，專程在 Facebook AI Research 全職做了一段時間的研究工程師。

在職期間，她參與了用 Transformer 分析 2.5 億個蛋白質序列的研究，目前這篇論文引用已有1200+，其中就包括後來大火的AlphaFold2：

除此之外，她也先後在 Epic Games、谷歌和微軟等多家公司實習過。

這次創業，郭文景的導師 Christopher D Manning 也給予了不少支持。

Christopher D Manning 以 NLP 方向的研究聞名，如今在谷歌學術上的引用量已有 23w+，而他也将成爲 Pika 的學術顧問之一。

聯合創始人兼 CTO Chenlin Meng，同樣是斯坦福計算機博士。

在此之前，她于 2020 年在斯坦福大學獲得了數學本科學位。

相比郭文景在 NLP 領域的研究經驗，她在計算機視覺、3D 視覺方面的學術經曆更加豐富，參與的去噪擴散隐式模型（DDIM）論文，如今單篇引用已有 1700+：

除此之外，她還有多篇生成式 AI 相關研究發表在 ICLR、NeurIPS、CVPR、ICML 等頂會上，且多篇入選 Oral。

當然，随着 Pika 1.0 爆火，Pika 也開啓了進一步的招人計劃，從技術、産品到運營都有需求：

一個月内 5 家産品亮相

值得一提的是，不止是正在快速擴張的 Pika。

就 AI 視頻這個行業而言，這段時間來整體都迎來了一段 " 爆發期 "。

據不完全統計，從 11 月至今，短短一個月的時間就已經有 5 家 AI 視頻生成産品發布或迎來大更新：

首先就是11 月 3 日，Runway 的 Gen-2發布裏程碑式更新，支持4K 超逼真的清晰度作品。

然後時間來到11 月 16 日，Meta 發布 Emu Video，這個工具在用戶評估中号稱打敗 Gen-2、Pika 等對手，效果 be like：

從 Emu 開始，大家都好像打起比賽來了，那叫一個争先恐後。

才過兩天，11 月 18 日，字節就半路殺出發布PixelDance，作品的動态性可謂史無前者，畫面中的元素都動作幅度都相當大，且不變形，讓人眼前一亮。

又僅過 3 天之後，11 月 21 日，AIGC 領域的佼佼者Stable AI也終于推出了自家的視頻工具：Stable Video Diffusion。

效果嘛，也很能打。

同一天，Gen-2 又沒閑着，" 橫插一腳 " 上線 " 塗哪動哪 " 的運動筆刷新功能，直接标志出生成模型可控性上的一個重要裏程碑。

最後，就是今天了，11 月 29 日，來自創業公司的 Pika 直接帶着網頁版發布正式版 1.0，叫闆 " 老大哥 "Runway。

在此之外，我們還從未見過哪個階段有這麽多各有特色、來自不同背景的産品争相亮相。

這也讓人不得不感歎一句：

AI 視頻這是來到爆發前夜了？

歡迎大夥暢所欲言～

參考鏈接：

[ 1 ] https://twitter.com/demi_guo_/status/1729546758718656530

[ 2 ] https://pika.art/blog

[ 3 ] https://twitter.com/mignano/status/1729510740246020403