沒想到,第一批 AI 繪畫産品已經開始倒閉了……
StockAI,成立僅 4 個月,在 2022 年底因用戶付費無法覆蓋成本,遺憾宣布關閉平台、退款。
以 3 月的付費 AI 繪畫平台 Midjourney 推出為标志,AI 繪畫開始被職業畫師重視起來。到 8 月的 Stable Diffusion 開源,AI 繪畫正式出圈并開啟一場全民狂歡,這一過程隻用了不到半年。
AIGC(利用 AI 技術生成内容)這一概念也被徹底帶火,成為最熱門的風口之一,剛剛過去的 2022 年也被形容為 AIGC 元年。
Stable Diffusion 背後的公司 StabilityAI 融資 1.01 億美元,AI 文案生成公司 Jasper 融資 1.25 億美元。
這一波熱潮還沒完全過去,ChatGPT 橫空出世,又把 AIGC 擡上了新高度。
人們開始認為它能搶走搜索引擎的生意,甚至谷歌自己都感受到了危機,在公司内部發布了 " 紅色警報 "。
以 ChatGPT 的火爆程度,從 0 到 100 萬用戶隻用了不到 5 天。
這是什麼概念?作為對比,Twitter 用了 2 年,Facebook 用了 300 天,Instagram 用了将近 75 天。
據馬裡蘭大學副教授 Tom Goldstein 粗略估計,如果 100 萬用戶平均每天隻進行 10 次對話,Open AI 就需要為 ChatGPT每天燒掉 10 萬美元(68 萬人民币)。
AIGC 太燒錢該如何持續?OpenAI 為什麼能先後引領 AI 繪畫與對話系統兩波浪潮?成了行業熱議的話題。
量子位在這段時間裡也和一些學者、從業者交流了這些問題,其中,京東集團副總裁、IEEE Fellow 何曉冬博士的觀點很有啟發性:
利用 AI 拓展人類認知邊界和 AI 商業化落地,是兩個不同的邏輯
商業巨頭很難搞出 ChatGPT 這樣的項目
我們 2017 年就做了 AI 繪畫
在 AI 技術圈,何曉冬是公認的大牛。
他本科畢業于清華大學,碩士畢業于中國科學院,後赴美國密蘇裡大學哥倫比亞分校獲得博士學位,在微軟全球八大研究院之首的雷德蒙研究院工作十餘年,2018 年回國加入京東,并于 2019 年當選 IEEE Fellow。
他先後發表了 200 餘篇學術論文, 谷歌學術統計引用數超 4 萬次,其中單篇論文最高被引用近 5000 次,h-index 達到 70。
早在 2017 年,何曉冬就在微軟研究過讓 AI 根據文字生成圖像的技術,當時的模型 AttnGAN 登上 CVPR,生成的一張 " 一隻紅羽毛白肚子的短咀小鳥 " 現在看來也不算過時,這也是早期 AIGC 和多模态智能領域重要的進展。
△AttnGAN 按照 " 一隻紅羽毛白肚子的短咀小鳥 " 生成的圖像
語言模型方面,像 ChatGPT 一樣不再一味追求大參數、無監督學習的類似思路之前也不是沒人想到過,隻是沒能做到極緻。
那麼其他人離做出 DALL · E 和 ChatGPT 這樣的産品還差些什麼?
何曉冬認為,不差在思路,也不差在資源,而是差在決心。
兩大獨立 AI 研究機構,DeepMind 和 Open AI 做的事,都是在拓展人類認知邊界,并不能直接帶來商業價值。
要下這樣的決心,和技術負責人的品味、組織的使命和生存模式都離不開關系。
像谷歌雖然手裡也有 LaMDA 這樣的超強對話語言模型,卻遲遲不面向公衆大規模開放,甚至被内部員工吐槽是 " 起了個大早,趕了個晚集 "。
△谷歌 LaMDA 概念圖
這其中的原因,有谷歌在 AI 倫理道德議題上不敢冒進,也有對自身現有商業模式颠覆的顧慮——廣告是谷歌的核心收入來源之一,當人們不再用搜索引擎而改用 AI 對話時,廣告是無處安放的。
要讓 AIGC 産生商業價值,就要遵從一套完全不同的邏輯。
AIGC 如何産生商業價值?
在微軟開發的這個 AI 繪畫技術當年終究是沒能做成産品上線,但作為技術初心和拓展人類認知邊界的一個嘗試,AI 畫出的這隻鳥一直被何曉冬當作手機壁紙。
不過,另一項技術 "AI 看圖說話 " 就成功找到了自己的位置。
現在的 Office 裡,插入一張圖片就能自動生成一段描述文本(alt text),可由系統語音讀出為視力障礙者提供方便。
技術結合場景,在産業真實落地,就能發揮更大的價值。
2018 年,何曉冬離開工作了十餘年的微軟雷蒙德研究院,選擇回國加盟京東,這之中也是有離場景更近方面的考量。
在京東,何曉冬帶領團隊打造了京東雲言犀人工智能應用平台,服務京東 5.8 億用戶和 17.8 萬商家,也将系列 AI 産品服務落地到了金融、政務、交通等各個領域。
僅在開放給第三方商家使用服務與導購産品的京小智上,就幫助商家帶來了上千億元 GMV。
另一套商品文案生成系統,目前已覆蓋 3000+ 品類,累計 " 種草 "30 億字,帶來超過 3 億的 GMV。
光是線上購物這一個場景,就支持了這麼多種技術落地的可能性,而更大的發揮空間在背後的設計、生産、倉儲、物流等供應鍊上下遊場景。
這也是京東雲産業 AI 的推進路線,一面保持對前沿技術的探索,一面依托自身的場景推進 AI 技術産業化、規模化落地。
經過反複叠代打磨後,再将技術以模塊化、組件化、産品化的方式,基于言犀人工智能應用平台對外開放,成為産業上下遊的超複雜協同的最佳 " 助手 ",助力産業數智化升級。
相比于一些其他公司,京東的供應鍊場景豐富,更重要的是京東的" 價值标準 ",如同正品行貨、物流配送一樣,AI 産品也必須滿足客戶的價格、産品、服務等方面的綜合體驗,又要滿足京東在技術商業化過程中自身的成本與效率。
深入産業 AI,不可避免的會遇到更低頻、長尾的複雜場景和産業大規模協同的需求。
這些場景的數據樣本少、數據分布不均,研發成本更高,同時定制化程度高、難以複制。如此一來,就需要遷移成本低、基礎數據樣本豐富、靈活彈性、适用能力強的綜合性 AI 系統。
對于 AIGC 這一具體方向來說,同樣如此。
何曉冬拿智能客服場景來舉例,用于京東自營時模型是高度定制化的,直接開放給幾十萬第三方賣家使用很難滿足所有人需求,又很難靠人力去适配所有需求。
後來的解決辦法是定義好産品的邊界,預訓練大模型提供基礎能力,同時結合在京東沉澱的豐富領域知識圖譜,把知識接口開放給賣家,無論是賣食品還是化妝品都可以把産品知識填進去,讓 AI 能力方便的遷移到不同領域。
這個過程中模型免不了犧牲一些性能才能做到最終産品的标準化、開箱即用,因為産業 AI 到了這一步,很多用戶都不是技術專家。
把 AI 能力組合成産品對傳統行業客戶太有挑戰性了,直接提供開箱即用的 AI 産品和應用才能讓不懂技術的客戶也能快速組成解決方案,滿足自己的需求。
在這套體系下,京東雲還進行了 AIGC 的多方向探索,如聯手中央美術學院的 AI書法生成。
以及一鍵生成店鋪專屬數字人。在數字人領域,言犀平台上推出了 2D 真人、3D 卡通、3D 超寫實等多種類型數字人,近期還上線了大姿态(側臉、轉頭等)數字人。目前言犀平台已有 100+ 形象,30+ 音色選擇,為電商直播、金融、政務等領域提供媲美真人的服務體驗。尤其是電商直播領域,百變的形象、專屬的音色,智能腳本實時撰寫,豐富的 " 知識體系 " 等同于一名金牌銷售,推出後已為客戶帶來顯著的 GMV 提升。
△京東雲言犀數字人演示
甚至對實體倉庫、實體零售店做一個數字孿生。京東物流研發了京東物控 3D Scada 智能倉儲數字孿生平台大大提升了倉庫作業的效能,相比于傳統人工作業的方式效率可以提高 3~8 倍;京東也在探索一種具有未來感的零售模式,構建柔性店鋪,讓店鋪的功能随着消費者時間不同、需求不同而實時改變,革新線下零售的購物體驗。
要說 AIGC 如此多的方向中,最有商業價值潛力的是哪個?
何曉冬還是最看好數字人,加入了視覺形象、人物表情,交互更自然,使用體驗有很大提升。
而且他預測,2023 年 AIGC 一個可能的技術突破方向也在這裡。
AI 繪畫最常用的技術是擴散模型,有天馬行空的創造力,但是容易失控。超寫實數字人常用的是神經輻射場,可以根據物理特性重構三維環境。
如果兩者能結合起來,可能把可控性和真實性再提高一個數量級,到時候應用場景也會進一步打開。
One More Thing
如何讓 AIGC 産生更大價值,是全行業都在關注的熱點,相關讨論層出不窮。
比如在量子位舉辦的 MEET2023 智能未來大會上,小冰公司 CEO 李笛分享了他對數字人的思考。
如數字員工會使 toB 和 toC 的界限變得模糊,比如銀行的數字客戶經理可能會與客戶變成朋友。
未來數字人也将不再隸屬于某一平台,人們在客服、手機、汽車場景上與同一個數字人交流,能獲得更加無縫、24 小時、持續連貫的服務。
OpenAI 的 CEO Sam Altman最近則發表了他對 ChatGPT 進一步發展的想法。
ChatGPT 這樣的技術,随着時間推移一定會造成一些重大的破壞……但是不讓技術接觸現實世界是無法獲得改進辦法的。
探索人類認知邊界與産生商業價值,2023 年你更期待 AI 在哪方面的進展?
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~