編者按:
本文轉載自 "Founder Park"。近期,極客公園創始人張鵬與 Pika 創始人 Demi Guo 在矽谷進行了一次深度交流。在交流中,張鵬表示 AGI 時代做産品最大的一個變化就是引擎變得超級重要,這個引擎不僅現在要能用,還得能持續進化。
2023 年 11 月底,視頻生成産品 Pika 發布 1.0 版本,同時宣布了 5500 萬美元的融資消息。
近期,極客公園創始人張鵬與 Pika 創始人 Demi Guo 在矽谷進行了一次深度交流,期間談到了視頻生成的技術現狀,Demi 本人對 AI 産品、應用創業的思考,Pika 團隊的優勢和壁壘所在,以及她對 AI 初創團隊的組織思考等等。
以下是對談部分精華内容,經 Founder Park 編輯。
01
視頻模型的穩定性是當下的關注重點
張鵬:23 年 6 月份我來矽谷的時候覺得矽谷 VC 對于生成式視頻好像沒有多大熱情,但是過了一個季度,大家好像都開始關注這事兒。
Demi:對,6 月那會我們打算融最後一輪的時候,很多人都不知道這方面是什麽樣的情況。
張鵬:那你覺得是哪些因素,讓大家開始形成共識,讓很多頭部 VC 都開始關注這件事情?
Demi:我覺得有很多因素。一個是視頻生成的進步,另外的的确确有需求的因素在裏面。之前我們剛開始的時候,有很多人對标我們,然後整個行業也慢慢成熟。
之前可能很多人覺得這條賽道火不了,一些公司做出來後大家又發現還是有些希望的。
張鵬:确實,你們這幾個優秀玩家的湧出拓寬了這條賽道。那你覺得目前生成式視頻目前技術核心的卡點在什麽地方?
Demi:現在的卡點,從模型上說的話就是視頻模型的穩定性、模型的高清程度、視頻長度以及内容的意義等等這些。
張鵬:那這些問題要怎麽去優化?比如像語言模型會關注數據的問題,視頻模型要突破的話,核心也是在數據嗎?還是一些别的什麽地方?
Demi:我覺得是比較綜合的事情,甚至可能比語言模型更難,因爲視頻模型是一個更加 open 的東西。現在語言模型大家大概知道優化的方向是 scale,那視頻模型除了 scale 的問題,還有數據的問題、模型結構之類的問題。
張鵬:就是說視頻模型裏的不确定性和 open 的程度比語言模型多得多?所以現在視頻模型的優化大家也可能會選擇不同的創新方向,結構或者架構上的創新,而不是在一個确定性的方向上大力出奇迹。
Demi:現在我覺得很大的問題不僅是算力問題,更多可能是數據,或者說方法上的問題,現在一些方法本身就有瓶頸。比如現在有的生成方法就無法生成長一點的視頻,這是一個結構問題。
張鵬:對,就看起來今天大家在應用上的一些點,背後可能涉及到模型側得做一些新的調整。比如視頻長度的問題,運鏡角度的調整,以及審美風格的多樣性,你比較關心的是哪幾個能力?
Demi:其實各方面我們都有關注,而且不同階段我們對問題關注的優先程度也不一樣。我覺得現在視頻最大的問題是它的穩定性問題,就是說如何讓每個人,不管學沒學過 prompt 工程的人都能一次性生成很棒的視頻,這是 first thing to achieve 的。
同時審美也是在我們的 top list 中的事情,我們搞數據的時候會有很多審美的元素在裏面。至于時間長度這些,随着模型的提高,都會有提高。
張鵬:所以從你的角度看,雖然各個維度都有一些點是可以修煉的,但最重要的還是像 ChatGPT 那樣,要達成一種每個人用完都想再接着用的效果,這是你們首要要達成的。
Demi:是的,核心點就是模型 improve quality,把 quality 提高後,很多問題也會迎刃而解。
張鵬:我們最近跟一些大模型領域的創業者聊,他們說現在大語言模型都是三個問題的疊加,一個是通用性,一個是穩定性(質量),還有一個是經濟性,這三個東西擱在一起,在某個特定的場景中很好地 match,就能産生價值。但現在的問題是,這三個同時要做得很好,就比較難。
Demi:我覺得不全是。
張鵬:那你是怎樣想的?
Demi:我覺得通用性和質量有些情況下可以是一緻的,有些情況是不一緻的,就是要看怎麽去提高質量。因爲提高質量有很多種方式,比如專門訓練某一方面,前期提高質量的東西。但還有一種方法是你把模型提高了,那所有都提高了。
張鵬:通用性最終覆蓋了模型的短期加強。
Demi:是的。因爲通用性,整個模型的提高是一個更長期的事情。提高質量,提高整個模型更加底層的東西的 話,很多時候都需要通用數據,這麽多數據的訓練從而提高了模型在更大領域的使用。
張鵬:小模型長期來看沒什麽意義。
Demi:對,通用性是基石,這個底打的足夠厚足夠高,單個領域往上增加特定功能的時候上限才會更高。
02
手裏要有自己的「引擎」
張鵬:剛才說的那個點我理解就是,要信 AGI,真正地信仰 AGI,相信它解放的是長期的終極能力。但從産品角度看确實有另一種方法,在今天這個節點把它湊成一種最合算,最有效率的方式,但随着技術進步,這種方式的優勢會脆弱得被馬上覆蓋掉。是不是可以這樣理解?
Demi:不同公司的目标側重點會有所不同,OpenAI 就完全目标 AGI,而更多的産品公司,這種專門做一些垂直應用的,更傾向于找到長期和短期目标之間的平衡點。因爲不可能說,因爲一些短期的東西最終會被覆蓋掉就不做,也不可能隻做長期的地基,因爲這沒法賺錢。所以我們希望的是做一些特定領域質量上提升花費比較小的一些東西,然後讓它 push 産品。産生價值的同時搭建自己的地基。
張鵬:理解,很多我聊過的創業者都認爲如果沒有一個持續有足夠力量成長的引擎,在今天去 hold 一個當下時代斷面 / 技術斷面的産品沒什麽生命力,可能很快就會被覆蓋,這個是我認爲這個時代做産品要考慮的一個基礎。這跟互聯網時代那種因爲沒什麽可以持續演進的技術,誰占着一塊地就是一塊地,占一個用戶心智就是一個平台的玩法完全不同。
AGI 時代做産品最大的一個變化就是引擎變得超級重要,這個引擎不僅現在要能用,還得能持續進化。
Demi:對,我個人的感覺是,隻要手裏有引擎,實在不行還可以退到産品,這是有引擎的 back-up 選擇。
張鵬:所以一上來就做非常短期的、在一瞬間好像最有競争力的産品,反而可能是最脆弱的。
Demi:其實做産品的,一定會依賴大模型。現在所謂的開源模型也不是真正的開源,它們隻是開放權重,用戶沒有太多能力深度修改和調整。
如果有地基,你會有更多的産品。你對模型有更多的理解力和調控權力,你就可以通過改變模型适應的産品改變模型能力。
張鵬:這就是生命力。現在技術處于一個漲潮期,不能用趕海的思維想着能撿到寶。因爲它不斷地在往上運動,沒法刻舟求劍地做一個隻是外加引擎的産品,這種過度強調外加應用的公司壽命可能非常短。
我接觸過一些中國大模型創業者,在國内還缺大模型的時候,就跳出來以做最好的國産模型爲陣地,先保證拿到足夠多的錢。然後其實心裏有個保持 18 個月生命力的安全線,一邊不斷把技術的水漲上去,同時不斷做比較輕的應用嘗試。他們的邏輯是技術越成熟,做出的産品成功率越高。同時隻要有模型作爲「引擎」能力,永遠有機會在依靠模型不能繼續融錢的時候,去做可以變現的産品,而且那時候也比其他沒有「引擎」的應用公司更有優勢。
Demi:我覺得和他們比,我們其實更偏産品,而且我們覺得技術和産品是一樣重要的。
03
AI 需要産品做好「留白」
張鵬:我還想了解一下,在生成視頻這麽大一塊領域裏,你們的産品是如何定義問題和功能邊界的?
Demi:分兩塊。一塊是技術層面,一塊是産品層面。
技術層面來說,基于大模型,一定會有擴展視頻這種應用。産品層面來說,爲什麽會做這個選擇,實現這個功能,就是基于消費者産品 hard to predict 的特性,不斷去了解行業,獲得信息,多次嘗試,理解和感受用戶需求。
用戶使用産品,使用模版本身還是處于比較早的階段,我覺得我們沒有必要去定義這個産品,能做的就是通過用戶反饋慢慢思考探索。
張鵬:很有意思,爲什麽我要提這個呢,因爲 2010 世代的互聯網産品經理一上來就要精準定義一個産品,他們會丈量技術實現能力,計算成本,然後聚焦到一個點。
而你剛才說的就是要留白,要釋放開來,讓用戶應用的過程中留給我思考的空間。上一代的産品經理是要把所有設計權把握在自己手中,讓用戶順着我的思路印證設計的合理性。這是兩條非常不同的思路。
Demi:我覺得還有很大一部分原因是 AI 本身,AI 是 enable 了一個新的産品,一個技術,一個成本,它能做很多事情,這和互聯網不一樣。
AI 主打一個模型能做很多事情,以前爲什麽說産品線一定要精準,因爲那個時候做三個功能,就有三份成本,但現在對我們來講,三份功能是一份成本,公開一個 feature 還是三個 feature,對我們來說不增加我們的技術和人力成本,隻是讓用戶的實際使用體驗發生了變化,不同的引導用戶的方式。
就算我們做十個 feature,對我們來講沒有額外的成本,不需要提前去規劃。但是如果說我們今天要不要做一個 Avatar 或者音頻的功能,這個可能需要提前考慮,因爲需要新的人力成本。如果隻是說視頻是編輯還是生成,對我們來講是一樣的成本。
04
不需要立刻找到精準需求,但要有産品預測
張鵬:所以基本上是這上面所有大家可用的功能,不管是在操控性上,還是在時間等維度上,本質上都是因爲你的模型能力可以覆蓋這些事,并沒有因爲特定的 feature,而加入額外的人力,那樣其實不合算。
所以其實我們聊到了一個很重要的點:什麽是 AGI 時代的産品思維?
我覺得這個思維可能跟移動互聯網時候有非常根本的變化,你得以技術爲核心,而不是抱住一個需求。
Demi:我覺得現在很多人還沒有轉換思維,AGI 時代産品需求的精準程度和以前是不一樣的。很多人會問我,我們産品的用戶是誰,用戶畫像是怎樣的,有什麽樣的 use case,這些都還是互聯網時代的那種玩法。AI 主打的通用性,雖然還是需要預測一些需求輪廓,但内部更精确的需求,它是可以由用戶來定義的。
未來 AGI 時代産品需求還是會有,但這個産品需求跟之前的精準程度是不一樣的。以前是非常非常精準,但現在的精準是你要不要編輯,以及可能是你要給誰編輯,你要編輯哪個用戶的台詞。
但我覺得 AI 時代,可能它的用戶群體和 use case 不像以前那麽精準的。因爲 AI 主打通用性。如果今天要做視頻編輯的功能,也是需要有額外成本,需要去預測這個需求,但這個編輯的功能是可以服務各種各樣的用戶,這個精準程度是不一樣的。
張鵬:我聽到更多探讨,都是現在大家很焦慮急于找到今天可用的模型能力和明确的需求上,能不能好好對齊出一個能夠正向産生價值的服務。你爲什麽沒有這個焦慮?
Demi:我覺得我們跟傳統的産品公司很不一樣,很多時候我并沒有覺得我們需要那麽快去找到産品的用戶群體和精準需求,因爲産品的一個交互界面,可以給很多人用。但我覺得我們跟很多大模型公司也不一樣,他們都覺得自己是 apply research lab,我們覺得還是需要預測産品需求的。
我覺得用戶界面設計是有價值的,但可能跟以前的需求不一樣,我們要做的是去發明新的用戶界面,能夠更加通用和好用。我不相信未來的視頻大模型,會是一個對話界面,但我又不相信未來的視頻大模型帶來的産品會是一個傳統的視頻編輯器,會有一個新的界面,但我不相信這個新的交互界面會是我們或者 Runway 的。
我們的交互界面隻花了一個月時間,是基于 AI 功能性的,每一個按鈕代表 AI 能做的事,其實沒有很多設計的成分。當 AI 生成視頻足夠強大的時候,一定會有一個新的 interface,甚至會去推動技術的發展。
張鵬:所以你本質上是要改變創作的方式,落到對應的産品,終極來講是改變交互。如果要這樣的話,确實需要對産品做預判,觀察用戶數據和習慣,全靠自己猜是猜不出來的。
Demi:我覺得産品分兩種,一種就是遵照用戶需求,按照 PMF 打造的産品。另一種是發明式的産品,就像 iPhone 一樣,我不是要解決某個需求某個點,而是我覺得未來産品應該長什麽樣,這也是我們真正想做的。
我們也需要有産品預判,隻是這種思維方式不是傳統的 PMF,它需要一個全新的 interface。
05
審美也是交互界面的問題
張鵬:視頻産品需要非常強烈的審美元素,這件事怎麽在模型中 work 的?審美的數據從哪來?在模型中如何成爲優勢?
Demi:我覺得這個分兩個階段,第一個階段就是 Midjourney 階段,這個階段是讓所有圖片都好看,它隻能做一種風格,但是通過改變數據就能定義他們想要的圖片審美。這是一種比較簡單粗暴提高的方法,核心點是模型能力還不夠強。
第二階段是說用這個模型真的能産出很多審美,這是我們在努力的方向,就是說我們不定義模型的審美,讓所有人都能定義自己視頻的審美。
張鵬:也就是說你們會認爲未來終極的目标應該是用最簡單的方式制造符合不同用戶審美的審美。理解審美這件事本質上還是在語言模型層面嗎?
Demi:不好說,文字在用文字定義審美的時候很重要。但對視頻這種非常視覺的東西,可能最終最準确的不是用文字,而是其他一些東西,每個人的 visualization 是很不一樣的。
張鵬:所以不能拿語言去衡量,應該增加一個(菜單)二級的反饋,有哪些風格用戶選了哪個。所以審美可以用這種方式解決,不一定說非要寫在模型裏。
Demi:對,審美更多還是交互的問題,我給你一些 reference 你來選擇,歸根到底是一種非常綜合的方式。
張鵬:未來視頻生成的速度可能更快,從成本到速度,能不能預言一下,未來 18 個月,1000 天,或者說一年半到三年的周期,可能是什麽樣的?
Demi:我覺得很神奇的一點是成本和質量、通用有矛盾,但是又不矛盾。成本永遠有提高的空間,但今天的瓶頸不在于成本,而在于質量,質量不好,成本再低也沒什麽用。
張鵬:也就是說生成視頻的時間可以更快,但質量問題更優先。還是那句話,模型能力的上升是終極目标,其他都不是關鍵問題。
Demi:我覺得成本在模型質量到一定程度的時候才變得重要。如果今天視頻模型和圖片模型一樣好,那我可能就沒那麽在乎成本。
06
保持随時從模型切到應用層的技術優勢
張鵬:用一個比較舊的,不符合 AGI 時代産品的詞,你們是如何判斷你們産品的壁壘在哪裏?
Demi:我覺得主要是有一些差異化的戰略,以及好的公司人才和組織架構。
今天有個核心的預測判斷,是說未來是大模型時代,現在的所有問題比如說技術邏輯不夠成熟的情況下,外家功夫還是有用的。但未來這些技術的内功一定都是在大模型上。
大模型才是最核心的優勢。如果你沒有,如果是本身做過大模型的人,會更加容易去做改進,因爲你更加懂大模型,有更強的技術團隊,更加有能力改變大模型,将大模型 adapt to your use case。不管說未來所有東西都要基于大模型,還是額外的算法對于做過大模型的 team 更有優勢,我們認爲未來還是要依賴會大模型的公司,實在不行我們可以變成應用公司,那個時候别人可能已經找到了所謂的 PMF,但我們有更強的技術可以做得更好。
張鵬:這種優勢就是我能夠一直保持在一個更高的能量位,我随時可以俯沖到應用公司。但如果在今天誕生的時候,就是一個各種拼湊在今天看起來很好的應用公司,其實很難轉爲模型公司。
Demi:當然,本質上我們還是想做應用,但應該去制作 ROI 比較高、不用花很多成本的應用。就是依靠模型能力爲核心,盡量在不花更多成本和人力的情況下,去做最便宜、最大 ROI 的應用。
其實這樣的應用現在是 AI 應用裏最火的,不單單是視頻,圖片和文字領域都是類似的應用。
張鵬:用戶在這個階段就是你能讓 ta 玩起來,ta 就很開心,而且不會特别在意是不是「相對高效」的解決了某個問題。ChatGPT 也沒有特别極緻高效的解決某個特定問題,但爲它 20 美金也就願意付了。因爲它能讓所有人一下子就覺得震驚和好玩。
這個時代還是要做有點少年氣的産品,因爲成熟的産品得算清楚 ROI,算清楚怎麽從用戶手裏掏錢,少年氣的産品好玩就可以了,大家覺得開心、很酷就可以了。
Demi:是的,這個特定階段能做到這一點,對公司來講也是最好的,一方面可以主要把精力花在大模型上,同時應用又是最容易掙錢的。
07
好的組織是要找到自己與衆不同的東西,找到自己的差異化
張鵬:你們現在多少人?
Demi:7、8 個人,和融資時候的 4 個人相比,也算是翻倍了。
張鵬:你們招人的标準是什麽?
Demi:我發現招好的人比招很多人要重要的多。我們對招人的标準要求比較高,所以漲得比較慢。我們之所以這麽快是因爲我們所有的決策可以 on the fly to make it(即時執行)。人多的話,很多人就會有不同的意見,每個人的 ownership 非常不清晰,就沒有吸引力。
張鵬:那你對組織構建有什麽理念?如何構建一個能夠生生不息創造力的組織呢?
Demi:我覺得最重要的是學會不斷地去 differentiate(差異化),不斷找到自己與衆不同的東西,不管是制度 / 執行 / 産品層面,都要找到 differentiate 且正确的事情去做。在組織上我們也在思考不 optmize for experience(經驗),而 optmize for smart(聰慧)是否可能,不需要花費很高的人力成本招聘 senior 級别的人才,而隻用一個最高最好的 scientist 帶隊,其餘都用本科生級别的人才,用最低的成本達成最高的效率。
我們最近招的一些在校實習生,他們相對來說對工作抱有更高的熱忱,非常享受工作的過程,效率也非常高。
當然本科生優點明顯,但一些比較專業的 research 問題,可能還是需要一些更有經驗的人去做。所以對我們來說,最好的架構可能是有兩三個非常 senior 的 research scientist,再帶着一些有幹勁的本科生研究生工作。
張鵬:那些簡曆非常好的人可能更适用于你們規模變大的階段,适合你們找到了找到了一些确定的東西,要開始放大、複制的時候。
Demi:不管怎樣,我的核心想法就是組織架構也和産品一樣,要不斷叠代。我覺得現在需要的一個非常 adaptive(适應能力強),非常高效,有什麽機會能随時準備好出擊的團隊。
雖然說我們也在提高我們的壁壘,或者 differentiate 一些策略,但實話說這個時候還是要去競争的,所以效率和速度依然很重要。
另外很多時候我覺得不是要多「争」,更多是去要「競」,保持快叠代的能力。
就像 OpenAI 早期員工都沒有一些具體的經驗,但因爲他們必須相信非常獨特的願景,才能做出非常獨特的事物。這時候經驗反而就變得沒那麽重要了。
張鵬:凡事都要能找到有經驗的人,那就成了工程和效率問題了,可能反而會反創新。
Demi:對,創新不一定需要經驗,經驗有時候隻會限制更大的創新。