文|周鑫雨
編輯|蘇建勳
Luma AI 在視頻領域叫闆 OpenAI 故事,好比中途改打網球的杜蘭特,打赢了網球男單大滿貫納達爾。
最近,這家成立于 2021 年的矽谷 AI 公司,在和《智能湧現》的交流中,複盤了視頻生成模型 Dream Machine AI 爆火的過程。
在矽谷率先發布一款效果能對标 OpenAI Sora 的視頻模型,對一家初創公司而言并不容易——更何況,Luma AI 在視頻生成領域算得上是 " 半路出家 ":
2024 年前,這還是個主攻 3D 生成、規模在 10 人左右的小公司。Luma AI 數據産品負責人 Barkley Dai 告訴《智能湧現》,2023 年 12 月決定轉型做視頻生成後,團隊才擴充了視頻領域的人才,規模增加到了 50 人。
他提到,Luma AI 能成爲視頻生成領域的螞蟻雄兵,技術實力、發布時機和運營策略缺一不可。
人才,是這家公司認爲做出視頻模型最重要的資産。2023 年 12 月,決定從 3D 轉型做視頻生成後,Luma AI 吸納了 40 個 AI 領域的人才。
而和 OpenAI、Google 打擂台,Luma AI 又對模型的算法和 Infra 做了諸多優化。Barkley 對《智能湧現》表示,團隊在 Sora 同款 DiT 架構的基礎上,采用了獨家改進的架構,保證生成效果的同時,還節省了訓練和推理成本。
視頻模型 "Dream Machine AI" 的發布時間,2024 年 6 月 13 日,踩中了視頻模型賽道的空白點——這也讓 Dream Machine AI 具有了稀缺性,除了快手 " 可靈 " 之外,這是唯一真正對大衆開放的視頻模型;
而模型的 " 限免 " 策略,又立刻吸引了大量試用者:上線 4 天,Dream Machine AI 的用戶量就破了百萬。Barkley 對《智能湧現》透露,Dream Machine AI 的投流費用是 0,全靠 KOL 自發安利,和用戶的口碑發酵。
爆火之後,提高用戶留存,不讓輝煌昙花一現,是 Luma AI 如今的命題。
2024 年 11 月 26 日,在視頻模型發布後近 6 個月,Luma AI 在 iOS 和 web 端上線了 Dream Machine AI 創意平台。與之配套發布的,還有 Luma AI 自研的首款圖像生成模型,Luma Photon。
△ Dream Machine iOS 界面。
Luma AI 産品設計師 Jiacheng Yang(楊家誠)告訴《智能湧現》,與 Midjourney、Adobe 等專業設計工具不同,Dream Machine 不需要用戶學習如何寫 Prompt(提示詞),也不需要用戶懂設計," 我們的目标就是做一款 AI 小白和設計小白都能輕易上手的 AI 視覺工具 "。
據他介紹,Dream Machine 共有 5 個核心功能:
(1)用自然語言進行對話,實現圖片的創作生成和編輯;
(2)由 AI 提供創意點子,根據用戶輸入的 Prompt,自動提供創意、風格選項;
(3)視覺參照,根據用戶輸入的照片,生成帶有相同主體或者風格的圖片;
(4)将 AI 設計的圖片轉化爲視頻,供用戶查看圖片中主體在不同角度下呈現出的細節;
(5)将所有 AI 生成的素材發布在面闆上,并生成可供分享的鏈接,有助于團隊進行頭腦風暴。
△ Dream Machine 視覺參照功能。
爲什麽選擇用圖像設計平台,去承接視頻模型的用戶?" 想要擴大 AI 視覺領域用戶的盤子,隻有視頻生成是不夠的。圖像生成的應用場景會更廣泛,所以我們想做一個很好上手的設計平台,用戶能夠輕易上手的同時,也能展現我們的模型能力。"Barkley 提到。
行業競争,是作爲初創企業的 Luma AI 不得不面對的問題。他們認爲,打出差異化優勢,是讓模型和産品在行業中具有辨識度和獲客的關鍵。
比如面對 Midjourney 等圖像産品的競争,Dream Machine 把語言理解能力做到了 " 天花闆 "。以及,這也是一個最會設計字體的模型——相較于 Midjourney 和 GPT 生成的帶文字的圖片,Dream Machine 圖片中文字的設計感和清晰度是最高的。
△ Dream Machine 在圖片中生成的配文。
和視頻模型一樣,Luma AI 給 Dream Machine 花費的投流預算,是 0。在 Barkley 看來,燒錢營銷看的是回報率,這意味着最終還是要用産品說話。以及,"AI市場還很小,我覺得對 AI 公司來說,燒錢營銷還爲時尚早。還不如把營銷的錢,投到産品研發上"。
以下《智能湧現》與 Luma AI 增長負責人 Barkley Dai、Luma AI 産品設計師 Jiacheng Yang 的交流,内容略經《智能湧現》編輯:
燒錢營銷,AI 公司還爲時尚早
《智能湧現》:2024 年 6 月發布視頻模型 Dream Machine 的時候,團隊有沒有預料到會爆火?
Barkley:其實當時是遠超我們預期的,我們一度出現服務器和 GPU 資源沒有辦法承受的情況。
《智能湧現》:如果要總結爆火的經驗,你覺得是什麽?
Barkley:其實最早發布的版本,還不是效果最好的版本。但我們決定全量免費放給所有的用戶去使用。
在當時,還沒有一個視頻模型能夠做到這樣。所以短時間内吸引了很多用戶的關注。
《智能湧現》:對于創業公司來說,做免費的決定是不是還挺不容易的?
Barkley:其實我們當時也給免費設置了一個額度,我覺得這是一個行業的 standard practice(基本操作)。
隻是當時的峰值對我們來說過高,大量的用戶在短時間内湧入,服務器後台收到了太多的 request。
《智能湧現》:公司能負擔流量帶來的推理成本嗎?
Barkley:其實我們還是在技術層面做了很多成本的優化,比如不斷去提升視頻生成的速度,最開始我們的模型生成 5 秒的視頻需要 120 秒,現在隻需要 20 秒。
以及在保持原有生成質量的情況下,視頻模型的推理還有很多優化的空間。所以在半年時間裏,視頻模型的成本是在下降的。
所以我覺得推理成本對我們來說不是特别大的負擔,當然也是一筆開支,但未來會變低。
《智能湧現》:你提到 Dream Machine 是有免費額度的,那麽使用完免費額度後的用戶付費率怎樣?
Barkley:說實話我們對付費率完全沒有任何預期。因爲當時我們對 Dream Machine 的定位是教育用戶的産品,讓用戶知道 Luma AI 視頻生成的潛力有多大。當時市面上還沒有一個視頻模型是按照對标 Sora 的水平發布的,所以我們對付費率完全沒有對标的對象。
但現在發布的 AI 設計平台,我們的定位是最終去獲客的産品。所以現在我們對它的收入和付費率有更高的期待。
《智能湧現》:Dream Machine 在營銷上投入了多少?
Barkley:0,我們在發布的時候沒有做任何的營銷付費。
當然我們提前去聯系了很多創作者,他們試用後都覺得很興奮,甚至大多數人之前用過 Runway,還有人用過可靈。但他們用了我們的産品後,都覺得說 "This is the next big thing",在推特上自發幫我們推廣。
但我們沒有做任何的投放,因爲我們還是堅信成功的因素就是産品本身。
《智能湧現》:燒錢營銷,這一套打法在矽谷 AI 公司常見嗎?
Barkley:我感覺矽谷大部分還是比較産品驅動的,運營這一套主要是中國公司。
視覺領域的市場還很小,我覺得對 AI 公司來說,燒錢營銷還爲時尚早。即便 ChatGPT 的用戶很多,但是像一些視覺模型,用戶還是很少數。
這個時候如果你做投流,去做跑馬圈地,留存肯定不高,還不如把這些錢投入到模型和産品的研發上,用更好的模型和産品吸引用戶的增長。
《智能湧現》:在發布視頻模型之前,Luma AI 的技術和産品還是圍繞 3D 生成的。團隊是什麽時候決定做視頻生成模型的?
Barkley:大約在 2023 年 12 月。
《智能湧現》:爲什麽從 3D 轉向做視頻和圖像模型?
Barkley:我們原來其實也不會說自己是一個 3D 公司,公司的定位還是視覺領域的 AI 公司,我們想去理解這個世界在視覺上的構造,是如何幫助 AI 對世界進行理解的。
從創始團隊的研究背景來看,一開始 3D 是 Luma AI 比絕大多數公司和團隊更擅長的事。後續我們也确實做了很多 3D 生成上的技術突破。
但是 3D 可以被用于訓練的數據量級,相較于圖片和視頻來說都會少很多。同時在使用場景上,目前手機和電腦還是主要的産品載體,但 3D 也會比視頻更受到限制。
但是當我們有更多的算力、更多的人才,也有更多的能力去推進我們的願景,也就是更好地了解世界,我們也自然地會從 3D 轉向做視頻。
《智能湧現》:這會不會讓公司看起來戰略有些搖擺?
Barkley:從我作爲一個内部成員的視角來看,我覺得不管是 3D 還是視頻生成,一直都是合理的。
因爲不管是 3D,還是視頻和圖片,都隻是一種模态。如果我們最終想做到的是對這個世界的理解,那麽不管是一種模态、一種生成,還是一種創意的發揮,我覺得隻要目标不變,這些媒介就隻是幫我們達成目标的手段。
《智能湧現》:從 3D 轉型做視頻生成,期間有遇到什麽困難嗎?
Barkley:我覺得整個過程還是比較順利的,因爲我們在做 3D 生成的時候,團隊也就在十幾人的規模,但當我們做視頻生成以後,引入了很多視頻領域的人才,現在團隊規模已經超過了 50 人。
這個過程其實是吸納了更多新成員去推進目标的實現,而不是說原來大家就在頻繁地換方向。隻是原來做 3D 的人,現在也在逐漸開始做視頻方面,比如數據等各方面的工作。
《智能湧現》:做 3D 的經曆對視頻生成有幫助嗎?很多反饋說 Dream Machine 的運動軌迹做得很好,這和 3D 積累下的空間理解能力有關嗎?
Barkley:我覺得可能不一定有那麽直接的關系。
但從我們發布最早版本的視頻模型開始,我們對相機的軌迹運動,包括視頻裏有多少機位的變化,是十分側重的。
所以當時用戶也會普遍反饋說,Luma AI 的模型雖然有時候生成結果不是那麽穩定,但是它能給到很多的機位的移動,以及複雜的人物運動軌迹。
我覺得過去在 3D 上的一些經驗,能夠讓我們在做視覺模型的時候,意識到提升機位的豐富度和運動軌迹的複雜度,能夠提高用戶對視頻生成内容的消費意願。
不過我覺得過去的經驗,包括模型本身之間,其實沒有那麽大的關聯性和借鑒意義。
《智能湧現》:所以技術轉型最重要還是補充新的技術人才是嗎?
Barkley:是的。
承接住模型的爆火,需要有産品
《智能湧現》:6 月份 Dream Machine 走紅後,你們怎麽考慮用戶留存的問題?
Barkley:我們發布 Dream Machine 的時候,就知道後面一定要有産品去承接用戶持續穩定的需求。
比如你作爲一個 ChatGPT 的長期用戶,即便後續會出來很多能力做得和 GPT 差不多的模型,你還是大概率會選擇使用 ChatGPT。因爲 ChatGPT 通過長期的深度學習,已經把握了用戶習慣,能夠更好地理解你的意圖。
行業裏永遠會有更好的模型出現,但産品最終是能夠讓用戶留存的點。
《智能湧現》:團隊是從什麽時候計劃做這樣 AI 設計平台的?
Barkley:這個想法其實在我們最開始做視頻模型的時候就有了。所以産品的想法是去年(2023 年)12 月和視頻模型同步推進的。
隻是在産品的設計過程中,我們後來意識到,要想把整個設計流程涵蓋,也必須要做到能夠生成圖片。所以在視頻模型發布 5 個月以後,我們覺得圖片模型也足夠好的時候,把兩部分同時整合成一個産品。
《智能湧現》:平台的目标用戶是哪些人?專業設計師還是大衆?
Barkley:其實我們覺得原來的 Dream Machine,更多的用戶還是偏專業的,至少是有做 AI 電影的經驗,或者知道怎麽用 Prompt 去生成更好的效果。
但其實我們更希望現在的産品,讓之前沒有用過 AI 甚至沒有設計經驗的人用起來。比如,如果他們在工作中需要用這樣的流程,可以非常容易地通過一輪一輪地和 AI 進行對話去實現。
我們在 6 月份發布的視頻模型 Dream Machine,其實還是需要一些使用門檻的。我們在那時候就在想,希望普通人也能 access 這些視覺工具,就好比視覺裏的 GPT。
但視覺是一個很小衆的垂類領域。我們做設計平台的想法就是,如何去擴大這個群體。隻有擴大群體,才能讓視覺領域的 AI 獲得更好的發展。
《智能湧現》:非專業設計師很難把一整套設計的工作流用得很深入。我的大部分生圖需求,可能輸入一個簡單的 Prompt,用 GPT,或者 Midjourney 就能滿足。
Jiacheng:我們的想法是,把用戶能輕易感受到差别的功能做到最好,比如我們圖像能力比 GPT 好,但是語言理解能力比 Midjourney 要好。
我用同一個最基礎、完全不複雜的 Prompt,讓 Dream Machine 和 Midjourney 對比一下:i want to make a poster for my brother band "crazy avocado".(我想爲我兄弟的樂隊 " 瘋狂牛油果 " 做一張海報。)
△ Dream Machine 根據 "i want to make a poster for my brother band ‘ crazy avocado ’ " 生成的樂隊海報。
△ Midjourney 根據 "i want to make a poster for my brother band ‘ crazy avocado ’ " 生成的樂隊海報。
你看 Midjourney 生成的海報,既不 Crazy,也沒有 Avocado 的元素,也看不出來是個樂隊的海報。
語義理解的能力其實比你想象的重要,會影響很多場景的落地。因爲生成随機的、好看的圖片,在實用場景中意義不是很大。
如果要讓 Midjourney 真正還原你的意圖,你需要寫很多 Prompt,包括海報的設計、上面寫的文字、解釋 Crazy 的風格等等。學會寫 Prompt,我大概花了兩三個月時間。
但我相信 ChatGPT 的大部分用戶是不會去學的,他們就是進來問一個問題,得到一個結論。
我們做設計産品的思路,也是一樣的。按照之前市面上的産品,如果我想要得生成還原我意圖的圖片,首先,我要花 20 美金買 Claude 或者 GPT,幫我生成 Prompt;其次,我要再花 20 美金到 40 美金買 Midjourney,生成圖片;最後我還要花 20 美金的訂閱,把這些圖片變成視頻。
算下來,文生視頻起碼要花 60-80 美元。現在用 Dream Machine,可能 10 美元就能搞定了。
《智能湧現》:Dream Machine 語言理解能力的來源,也是自研模型嗎?
Barkley:語言模型用了第三方的 API,我們再去構建了一個 Agent。這個 Agent 能夠理解用戶意圖,然後通過不同的 Prompting 的方式,把用戶意圖轉化爲圖像和視覺模型能夠理解的指令。
《智能湧現》:Luma AI 現在既有模型,又有産品,怎麽去做商業化?
Barkley:産品還是會采用訂閱的方式。模型就是提供 API。
《智能湧現》:不做定制化?
Barkley:定制化不太适合初創公司,會分散精力。
目前沒有專業視覺工具,在定義交互範式
《智能湧現》:一個俗套的問題,你們怎麽看待巨頭下場?按照國内的情況,字節和快手的下場,已經給很多初創公司帶來了融資和獲客上的壓力。
Barkley:我們發現,這個問題其實是公司和股東之間的問題。隻有股東才會關心:如果哪天一個巨頭把你這個事情做了,會怎麽樣?
但實際上,我們公司很多 Research 都有這樣的感覺:當公司達到一定規模,需要你去協調各種各樣的東西的時候,你推進的速度會變得特别慢,創新的速度也會掉下來。
雖然 Luma AI 的團隊在過去一年多的時間裏也擴張了很多,但還是保持着快速創新、快速叠代的節奏。
我覺得有一個類比特别好:其實你在大公司裏,真正去做視頻模型和相應産品的團隊,可能也隻有幾十個人。比如 OpenAI 看起來很大,但 Sora 的團隊也就這麽多。
當然說到更大的公司,比如 Google,他們可能有比我們更好的 distribution channel(擴散渠道),但他們同樣會受制于各種流程上,一個新産品會有商業化等很多方面的 concern,推進的速度不會那麽快。
《智能湧現》:Luma AI 的叠代節奏有多快?
Barkley:整體叠代速度一直是以幾個月,甚至是 1-2 個月來計算的。期間會加入新的功能,底層模型的效果也在提升。
就像 Dream Machine 1.0 在 2024 年 6 月發布,1.5 版本是在 8 月發布。1.6 版本加了 camera control(鏡頭控制)功能,在 9 月底發布。
《智能湧現》:一個新的設計工具型産品,怎麽去獲客?
Jiacheng:我覺得首先可以去分析 ChatGPT 是怎麽獲客的。你會發現,ChatGPT 不光最好的程序員在用,你隔壁的大叔大媽也在用。
我覺得 AI 工具帶來的最大的變化是,由于它本身的可塑性和靈活性,它可以服務幾乎所有有視覺需求的人。
我并不覺得目前特定的視覺專業的軟件,有非常好的交互,換句話說,目前沒有專業視覺工具定義了整個行業的交互範式。
《智能湧現》:你怎麽定義 " 好的交互範式 "?
Jiacheng:比如 ChatGPT 就定義了整個行業 ChatBot 的交互範式,像現在美國的小孩都不是說 ChatGPT,他都是說你有麽有問你家的 "Chat"。
這裏的 "Chat",已經成了一個像 "Google 一下 " 的行爲。
我們做 Dream Machine 也是一樣的。誰能先把普通大衆的想象,通過一個流暢、簡單的方法,呈現出一個好看有趣,然後能分享給别人的或者有用的圖片,誰就能在這個領域有優勢。
《智能湧現》:從立項到上線,期間你們對交互形式進行了哪些探索?
Jiacheng:我們目前來說,包括行業對我們的認知,都是一個視頻模型科研公司。
但是如今的 AI 技術是一個非常以用戶體驗爲核心的産品,技術型産品的目标和叠代過程很明顯,就是最好的用戶體驗。
我們能想到的最好的用戶體驗,就是用最自然的交流方式,把 Dream Machine 當成一個創意助手或者 Creative Partner。你怎麽和設計師互動,就怎麽和系統互動。
有了這樣一個目标,我們就會去了解我們的圖片和視頻模型,能夠提供怎樣的能力。同時也去了解整個行業處于怎樣的發展階段,第三方的語言模型能夠給我們怎樣的幫助。
期間,各種各樣的 Agent 軟件工具也在叠代,大家對于 AI 應用層的思考也有變化。所以一年以來,我們的産品就是一個持續叠代的過程,具體就是一個月根據行業變化打磨,再花一個月去修改。
這些東西總體統籌、融合起來,才有了現在這樣的效果。
Barkley:期間我們也發現,在 AI 視頻生成領域,目前圖生視頻比文生視頻更加受歡迎,因爲用戶在乎可控性。
所以所有能夠提升可控性的,都是用戶非常需要的功能點。
《智能湧現》:期間行業哪些産品或者認知的動向,會對公司的産品研發節奏産生影響?
Barkley:其實我覺得過去一年時間裏,我們的産品策略沒有變太多,還是一直想做能讓所有人輕松使用模型的産品,不會随着其他 AI 産品的發布去做任何的策略調整。
我覺得産品團隊更關心的事一些 Research 上的動态和進展,比如我們想做風格轉換、風格遷移的功能,就會去查有哪些最新的學術研究和論文,甚至産品團隊會加入 Research 團隊的讨論,去看研發功能的可行性。
《智能湧現》:産品團隊在日常工作中是怎麽和算法團隊交流的?
Barkley:立項的時候,我們會從用戶的角度,覺得風格借鑒這樣的功能很重要。
但是從 Research 的角度,其實他們不确定這個功能能不能做出來,以及能達到怎樣的效果。所以 Research 會先去做很多的實驗,直到他們把算法做出來以後,我們看到這個功能的極限,再去思考怎麽把功能融入到整體産品和體驗上。
所以其實 Research 是一個更加不确定的過程,往往需要比較長的時間,也不知道要花多長時間訓練。
《智能湧現》:期間也會舍棄很多暫時不夠好的功能。
Barkley:對。所以其實很多功能我們會從用戶的角度去想,有的功能 Research 團隊能夠在短時間内做出來,有的功能我們又繼續投入,去做更長的研判,體現在未來的産品裏。
歡迎交流!
歡迎關注!