突破來源 @視覺中國
文|刺猬公社,作者|世昕,編輯|石燦
2022 年 12 月 16 日,Science 雜志發布了 2022 年度科學十大突破,韋伯望遠鏡當選為年度最大科學突破,可謂實至名歸。而在其他入選的科學突破中,AIGC 也赫然在列。
這或許是當下最炙手可熱的概念了。無論是火遍全網的 AI 繪畫,還是震驚世人的 ChatGPT,都屬于 AIGC 這一概念,即生成式 AI。憑借着諸多明星技術、産品的問世,誰也沒有想到,在元宇宙、web3 等概念叱咤風雲的 2022 年裡,AI 憑借 " 創作 " 強勢崛起了。
有人認為,AIGC 将會改變内容領域的生産方式,帶來整個行業的變革,也有人認為 AIGC 将會取代大多數創作者,帶來災難性的影響。在各種言論甚嚣塵上之時,一個共識似乎悄然達成了,從 2022 年開始,AIGC 将迎來完全不同的發展時期。
2022 年,真的是 AIGC 的元年嗎?
AIGC 編年史
首先明确一個定義,何為 AIGC?
跟 PGC、UGC、PUGC 等概念一樣,AIGC 即是指利用人工智能技術生成内容,也就是說内容的制作者從實打實的人或機構變成了 AI。
AI 繪畫最早要追溯 2014 年,GAN(生成式對抗網絡)的誕生。據說人工智能專家 Ian Goodfellow 在一次酒後想到了這一深度模型概念,基于 CNN(深度卷積神經網絡),GAN 創造性地将兩個神經網絡進行對抗,即生成器與鑒别器。生成器用于生成 " 造假數據 ",鑒别器用于判斷數據的真僞,在兩者的對抗中,逐漸演化出強大的 " 造假能力 ",而這種造假能力則用于圖像的合成。
GAN 被稱為 21 世紀最強大的算法模型之一,Ian Goodfellow 也一躍成為 AI 領域最知名的專家之一。2015 年開始,GAN 開始被投入實際運用中,相關的論文也爆發式增長,也成為 AI 生成圖像、處理圖像任務裡最常見的存在。
在 GAN 大放異彩的 2015 年,一家公司在美國矽谷成立,其背後站着 " 鋼鐵俠 " 埃隆 · 馬斯克、Y Combinator 總裁阿爾特曼、天使投資人彼得 · 泰爾等一衆矽谷大佬,這家公司就是 ChatGPT 的締造者—— OpenAI。
OpenAI 創立的初衷是預防人工智能帶來的災難性影響,推動人工智能發揮積極作用,雖為公司,但 OpenAI 是一家非營利機構,是馬斯克等大佬用愛發電的産物,在創立之初,大佬們投入了 10 億美元用于 AI 的開發。2016 年,OpenAI 進一步明确了自己的目标,即向 AGI(通用人工智能)研究發力,緻力于讓 AI 成為改變人類生活的新技術。
OpenAI 最大的特點即是 "Open",即開放 AI 能力,全球研發者都可以通過其提供的開發與研究框架投入 AI 開發中,共同促進 AI 技術的發展。也是從 2016 年開始,OpenAI 推出了自己的 AI 平台 Universe。故事轟轟烈烈地開始了。
時間來到 2018 年,Transformer 架構的發展改變了 NLP(自然語言處理)技術的發展,預訓練模型的引入改變了一切。GPT 系列正是 OpenAI 在 NLP(自然語言處理)領域打造的模型,其第一款産品 GPT-1 也是在 2018 年正式推出。GPT-1 的獨特之處在于 " 半監督 ",在此前的 NLP 模型中,AI 需要基于特定任務對大規模數據集進行學習,而這些數據是需要 " 監督 " 的,即人為地對數據進行标注。
GPT-1 則可以在開始進行無監督學習的預訓練,通過對數據的學習增強語言能力,最後進行部分有監督的微調。簡單來說,GPT-1 可以用更少的資源和數據進行更具效率的學習,但 GPT-1 仍舊是青澀的,一方面礙于訓練數據的有限,AI 的 " 世界觀 " 很有限,另一方面其性能仍舊不夠好,遠遠達不到對話的能力。
自 2018 年開始 NLP 領域迎來了飛速發展,也從某種程度上改變了 AI 生成圖像的未來,也就是 AI 繪畫。
2020 年是翻天覆地的一年。彼時,OpenAI 推出了 GPT-3,相比前兩代,這一次 GPT 實現了進化,GPT-3 的參數超過 1750 億個,是人腦神經連結的十分之一,與此同時 GPT-3 的性能也更強,它能夠識别更深層次的文本含義,并進行反饋。GPT-3 的推出是一場革新。
與此同時,在圖像生成領域,一場革命也在發生。盡管 GAN 已經能生成較高質量的圖片及内容,但相較來說,其效率較低,同時生成的圖像始終難以令人滿意。而 Transformer 架構的出現改變了一切,自此開始,圖像合成領域告别了 GAN 時代,NLP 與計算機視覺技術搭配的新時代來臨了。
随後便是我們熟知的故事了。2022 年 9 月,AI 繪畫爆火,11 月 30 日,ChatGPT 橫空出世,正式讓全世界看到了 AIGC 的 " 強大 "。
AIGC 國内玩家
在 OpenAI 等行業巨頭的帶領下,海外 AIGC 産業正處于一個高速發展時期,那麼在國内,AIGC 發展到哪一步了?
首先我們需要認識到一個現實,相較于美國,國内 AIGC 領域的發展是相對滞後的,但近幾年來,阿裡巴巴、百度、騰訊等互聯網巨頭都注意到了 AIGC 這一未來的産業富礦。
國内 AI 領域,繞不開的一家公司即是百度。
在五個月前的百度世界大會上,百度 CEO 李彥宏就着重強調了 AIGC,他認為,AIGC 不僅能夠提升内容生産小籠包,還能創造出有獨特價值的獨立視角的内容。在世界大會上,百度 AI 也展示出了自己的實力:在十分鐘内複原了《富春山居圖》的殘卷,其背後依賴的深度學習模型,即是百度的當家模型——文心大模型。
文心大模型起源于 2019 年,是百度深耕預訓練模型的産物,其核心特色在于 " 知識增強 ",能夠對海量數據進行深度學習,并為多種 AIGC 應用提供支持。目前為止文心大模型已經發布了超過十多個大模型,形成了一個大模型家族。
在世界大會兩個月後的萬象大會上,百度還發布了 AI 助理,根本上是多種 AIGC 應用的集合,包括文本生成、圖片生成,圖片轉換視頻等多種功能,最值得關注的一點是,其直接面向用戶與内容創作者,也就是說,AIGC 技術的 C 端應用化正在實現。
AIGC 也不止圖像生成、文本生成等領域,AI 創作同樣是多元的,音樂、編程等領域同樣在飛速發展。
就在不久前,昆侖萬維高調宣布入局 AIGC 領域,并發布了 " 昆侖天工 " 模型。這一成立于 2008 年的公司早期以遊戲代理起家,自 2016 年起,昆侖萬維在海外建立起龐大業務,成為國内知名的出海巨頭之一,近年來,昆侖萬維更是發力元宇宙社交等領域,而這一進軍 AIGC,也是早有準備。
自 2020 年起,昆侖萬維便組建了超過 200 人的 AIGC 團隊,訓練集群 200 張卡,投入數千萬元,并在 2021 年 4 月研發出了百億參數的中文 GPT-3 模型。值得關注的是,在很多人忽略的音樂領域,昆侖萬維也取得了不錯的進展,于 2022 年 1 月啟動的 SkyMusic 已經可以實現生成商用級别的音樂。
值得注意的是,昆侖天工選擇開源,與百度一樣,昆侖萬維堅信開源能夠給 AIGC 帶來更長效的發展力,并緻力于降低 AIGC 技術的使用門檻,讓 AI 能夠幫助更多内容創作者。
除了以上提到的這兩家公司外,在國内 AIGC 領域,垂直賽道的初創公司也勢頭正勁,覆蓋 AI 音樂、虛拟人、AI 音頻語音、AI 遊戲等領域。
但另一個事實也同時存在,相較于 OpenAI 等海外巨頭,國内 AIGC 領域公司仍存在較大的差距,一方面在組織架構方面,國内基本都基于公司自身的科研團隊,而 OpenAI 等組織更類似一個研究院,能夠通過開放共享的模式吸納全球頂尖科研人才。
另一方面,國内 AIGC 相關公司面對的營收壓力客觀存在,很難像 OpenAI 等平台不計成本的進行投入。但伴随着 AIGC 逐漸成熟的商業化以及更廣泛的應用,或許國内 AIGC 領域即将迎來春天。
為何元年?
回到最開始的那個問題,2022 年為何會被看作 AIGC 的元年?
其實深入了解 AI 繪畫與 ChatGPT 就能理解這一說法:
2022 年 8 月,人工智能公司 Stability AI 推出了 AI 文生圖模型 Stable Diffusion(擴散模型),将 AI 圖像生成的效率與精度提升到了前所未有的量級,在最基礎的終端設備上,隻需輸入關鍵詞,就能生成高質量的 AI 圖像,幾乎讓整個世界為之瘋狂。AI 繪畫的爆發式發展也第一次讓 C 端感受到了 AIGC 的強大魅力。
而 ChatGPT 的到來更令人震驚。作為基于 GPT-3.5 的對話式 AI,ChatGPT 最大的特點即是能夠 " 理解 " 對話者的語義,能夠進行更有效的反饋,并進行連續對話。基于對超大規模數據的深度學習,ChatGPT 在文本生成領域幾乎能 " 以假亂真 ",讓你認為其真的擁有了意識。此外,ChatGPT 不僅能答疑解惑,還能寫故事、作詩,甚至編程,生成内容的能力空前提高。
AIGC 元年的秘密就藏在這兩個模型裡。
第一,在性能上,AI 已經實現了 " 進化。相比以前的 GAN 圖像生成模型,Stable Diffusion 最大的特點就在于精準,隻要輸入對關鍵詞,其就能産生較為接近的圖像結果,這是此前的圖像生成很難做到的。ChatGPT 也同樣是高性能的,有人幾乎把它當做了谷歌一樣的搜索引擎,正是在于其對于文本的深度分析并能夠生成較為精确的反饋。而各種生成内容則進一步顯示了其性能的強大。
第二則在于 " 理解 "。這點在 ChatGPT 上體現的更加明顯,相比此前的對話 AI,人們驚奇的發現,ChatGPT 似乎能夠理解文本更深層次的含義,無論是連續流暢的對話,還是對于錯誤想法的糾正,都讓人感覺到對面的 AI 似乎是有思想的,盡管其隻是類似 " 中文屋 " 的深度學習的産物,但強化學習模型的加入會讓其不斷進化,對話任務也完成的更加出色。
最後則在于更大範圍的應用。相比于此前的 " 圈内狂歡 ",2022 年的 AIGC 真正做到了全民關注,這是技術飛速發展下的産物,以 Stable Diffusion 為例,其最大的特點即是低門檻,不需要多強大的顯卡與服務器,最普通的 PC 就能完成任務。同時平台的封裝也讓 AIGC 更加 " 平易近人 ",AI 繪畫僅需要輸入關鍵詞,ChatGPT 也隻需要網頁和提問欄就能實現對話,這讓普通人接觸 AIGC 的機會大大增加了。
AIGC 在 2022 年的火爆,是技術積累與發展策略雙重變革的産物,從某種角度來看,稱之為元年也并不為過,隻不過 2022 年更應該是 AIGC 的 " 應用元年 "。
AIGC 也還有很長的路要走。一方面,在 " 創造 " 這一概念面前,基于深度學習的 AI 的創作是否真正是創造還難以定論,另一方面知識産權問題也像一把達摩克利斯之劍始終懸在 AIGC 頭上,如何解決 AI 學習背後的倫理問題也是一大難題。
但在 AI 技術的發展問題面前,以上問題可能都是細枝末節了。正如 OpenAI 等平台所期望的那樣,AIGC 并不是最終目的,真正實現通用人工智能才是最核心的目标。
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App