提及真正被生成式 AI 改變的賽道,營銷肯定算一個。最近一段時間,不論是對話機器人的自然度,還是文本、圖片等 AIGC 類素材的成熟度,都讓營銷領域最先嘗到這一波 AI 的甜頭。
36 氪日前接觸到的「Akool」,即是一家基于 AIGC 技術,爲品牌和電商用戶提供内容素材的公司。創始人呂家俊表示,其本人具備多年 AI 視覺的産學研經驗,一直了解生成式 AI 的進展。在 2022 年,基于此前積累和對行業進展的觀察,呂家俊成立了 Akool。
呂家俊告訴 36 氪,當前 Akool 主要有三塊生成式 AI 業務,覆蓋文字、圖片、視頻。電商商家可以通過 Akool 的平台,生成自身所需的營銷素材。
在視頻場景中,Akool 首先可以幫助客戶變化視頻的背景、人臉、物體等素材。針對這一場景,呂家俊表示,雖然在視頻中更換人臉、背景、物體等并不屬于新鮮事物,但生成式 AI 的出現,能夠讓素材效果更自然,質量更高,提升營銷效果。另外如果客戶有指定生成某一個圖像,要求 " 複刻 " 的需求,Akool 也會進行平衡。" 自然和真實之間可以調整。" 呂家俊認爲。
另在圖像場景中,Akool 能基于圖片生成超寫實的虛拟人形象。" 隻需要提供一張你的照片,就可以生成一個屬于你自己的虛拟人。" 呂家俊表示。在文字場景,Akool 也能幫用戶生成産品介紹、投放文案等内容。
基于這些功能,Akool 打造了多款産品,主要包括 Akool content platform、Akool content platform、 Akool talking avatar,、Akool beyond journey、Akool face swap。
其中,Akool content platform 内置 Akool 所有生成文字、圖片、視頻的功能,是一個綜合型平台産品。而針對一些 Killing features,Akool 還提供單獨的 APP。具體來說,Akool talking avatar 可以幫助用戶生成虛拟人形象;Akool beyond journey 則是對标 Midjourney 的文生圖産品; Akool face swap 能幫助用戶實現在視頻、圖片中換素材的功能。
呂家俊表示,公司創始團隊在視覺方向有着較深積累,所以在視頻、圖像場景中有着較爲獨特的技術優勢。另外,公司目前計算資源豐富,可以使用近一千張 A100 進行大規模訓練。
在具體架構上,他進一步介紹,Akool 的主要自研架構包括用于數字虛拟人的擴散模型和 3 維 NerF 結構的生成模型框架、基于能量的擴散模型框架。呂家俊告訴 36 氪,用這些自研框架開發的圖片視頻應用,具有生成結果質量高,清晰度高,多樣性好等特點。一個例證是,基于這些架構,Akool 在包括可口可樂等多家品牌客戶的方案調研對比中取得最高分,并獲得訂單。
另外,公司還把 Stable Diffusion 作爲預訓練基礎模型,Fine-Tune 自定義的網絡結構,進行後續的開發和研究。在文字大模型方面,Akool 目前基于 LLAMA 開源模型進行 Fine-Tune。" 它的參數量比 GPT4 小很多,屬于輕量級的模型,參數量在 65B 左右,但性能堪比 GPT4。" 呂家俊向 36 氪表示。
模型之外,呂家俊還認爲,Akool 在訓練數據集方面也多有心得。他表示,Akool 針對數據集做了很多分類,針對不同任務運用不同數據集訓練。同時,Akool 針對數據集的數據做篩選,如果數據質量沒能達到要求,便不會加入訓練集。
當前,Akool 的文生圖大模型生成一張 1024 x 512 的圖片需要 8-10 秒左右。而在音頻生成視頻場景下,生成一段 11 秒共 347 幀分辨率爲 3840 x 2160 的視頻,耗時約 500 秒。
另在商業化層面,2023 年初起,Akool 迎來了一波用戶量爆發。呂家俊介紹,當前 Akool 已經擁有 20 萬用戶,其中 3000+ 是訂閱付費用戶,包括個人用戶和企業用戶。其中,可口可樂是 Akool 的典型案例。呂家俊介紹,可口可樂出于營銷需求,已在自己的營銷 APP 裏接入 Akool 的 API,讓更多的用戶基于可口可樂的元素生成個性化物料。在營收預期上,呂家俊預計年底 Akool 會穩定在每月營收超百萬美金的水平。
團隊方面,目前 Akool 的員工數在 30 人左右。其中,CEO 呂家俊是伊利諾伊大學香槟分校人工智能博士,斯坦福大學訪問研究員,曾在哈佛商學院總裁班(PLDA)學習。并且,他還深度參與過兩家 B+ 輪科技公司的早期運行,在生成式人工智能有十年以上的研究經曆。此外,公司創始團隊、顧問團隊中還有不少全球頭部企業高管和頂級高校的産學研人員。