圖片來源 @視覺中國
文 | 江瀚視野
回顧剛剛過去的 2023 年,如果要問什麽東西最火的話,大模型肯定是其中最靓的仔,就在最近用 GPT 引爆全球大模型賽道的 OPEN AI 再度給市場一記重拳,甚至連馬斯克都不得不願賭服輸,這就是全新的視頻生成大模型,這個全新的大模型到底有多猛?我們該如何看待這件事?
視頻生成大模型再放大招?
據每日經濟新聞的報道,據 OpenAI 官網,OpenAI 首個視頻生成模型 Sora 發布,完美繼承 DALL · E 3 的畫質和遵循指令能力,能生成長達 1 分鍾的高清視頻。
AI 想象中的龍年春節,紅旗招展人山人海。有緊跟舞龍隊伍擡頭好奇觀望的兒童,還有不少人掏出手機邊跟邊拍,海量人物角色各有各的行爲。一位時髦女士漫步在東京街頭,周圍是溫暖閃爍的霓虹燈和動感的城市标志。
一名年約三十的宇航員戴着紅色針織摩托頭盔展開冒險之旅,電影預告片呈現其穿梭于藍天白雲與鹽湖沙漠之間的精彩瞬間,獨特的電影風格、采用 35 毫米膠片拍攝,色彩鮮豔。
OpenAI 表示,公司正在教授人工智能理解和模拟運動中的物理世界,目标是訓練出能夠幫助人們解決需要與現實世界互動的問題的模型。在此,隆重推出文本到視頻模型—— Sora。Sora 可以生成長達一分鍾的視頻,同時保證視覺質量和符合用戶提示的要求。
Sora 模型能夠生成包含多個角色、特定類型運動和主體及背景精确細節的複雜場景。該模型不僅能理解用戶在提示中所要求的内容,還能理解這些事物在現實世界中的存在方式。
對于這款全新的産品,世界知名企業家馬斯克也不吝贊美之詞,馬斯克回應稱:"gg 人類(gg humans)。" 據媒體引申,gg 是網絡遊戲用語 "goodgames" 的縮寫,主要用于遊戲結束後,輸赢雙方都可以用。但現在多由失敗方發出,表示認賭服輸、心服口服的意思。在馬斯克帖子的評論區裏,還有用戶附和道:"gg 好萊塢 "。
360 集團創始人、董事長周鴻祎在微博發文談文生視頻模型 Sora。周鴻祎認爲,Sora 意味着 AGI 實現将從 10 年縮短到 1 年。他分析說,OpenAI 訓練這個模型應該會閱讀大量視頻,大模型加上 Diffusion 技術需要對這個世界進行進一步了解,學習樣本就會以視頻和攝像頭捕捉到的畫面爲主。一旦人工智能接上攝像頭,把所有的電影都看一遍,把 YouTube 上和 TikTok 的視頻都看一遍,對世界的理解将遠遠超過文字學習,一幅圖勝過千言萬語,而視頻傳遞的信息量又遠遠超過一幅圖,這就離 AGI 真的就不遠了,不是 10 年 20 年的問題,可能一兩年很快就可以實現。
Sora 到底有多猛?
随着科技的飛速發展,人工智能(AI)已經成爲了當今世界最爲熱門的話題之一。其中,OpenAI 的 ChatGPT 和 Sora 等模型的出現,更是颠覆了我們的認知,Sora 的出現到底意味着什麽?當馬斯克都要認輸的時候我們到底該怎麽看?
首先,Sora 的出現無疑是另一大裏程碑。ChatGPT 作爲 OpenAI 研發的裏程碑式語言模型,其強大的自然語言處理能力和對上下文理解的深度,在推出後迅速引發了全球範圍内的廣泛關注和熱議。ChatGPT 不僅能夠流暢對話、解答問題,還能生成具有邏輯性和創造性的文本内容,這一突破性進展讓人們看到了人工智能在認知智能領域取得的重大飛躍。
緊随 ChatGPT 之後,OpenAI 又推出了視頻生成模型 Sora,該模型更是将 AI 技術推到了一個全新的視覺維度。Sora 憑借其創新的文本到視頻轉換能力,使得 AI 從理解和生成文本躍升至創作高清視頻内容的新高度。通過理解用戶輸入的文字描述,Sora 可以自動生成包括複雜場景、多角色動态交互在内的長達一分鍾的流暢高清視頻,這标志着 OpenAI 在跨模态學習與生成方面取得了重大突破。
其次,Sora 的最大突破還是在于理解人類語言并且通感成爲視頻。Sora 模型的核心優勢體現在它能夠理解人類語言輸入,并基于這種理解進行視頻内容的創造性生成。通過深度學習和跨模态技術,Sora 能夠将文本描述中的抽象概念、情境、甚至是情感色彩映射到視覺表達上,生成與描述相匹配且具有一定連貫性的視頻片段。
盡管目前生成的視頻可能在細節處理、物理真實感或者複雜交互場景等方面還存在不完善之處,但其突破性在于首次實現了從文本到高質量視頻内容的有效轉化,這爲内容創作者提供了一種全新的工具,大大提升了創意表達的效率和可能性。此外,Sora 的應用價值也體現在教育、娛樂、廣告設計等衆多領域中,它有可能重塑這些行業的生産方式,并爲未來更加智能化的内容創作打下堅實基礎。
第三,視頻的變革可能遠超過文字的變革,而且速度會更快。在當前的互聯網時代,視頻已經成爲人們獲取信息、娛樂休閑的主要方式之一。每天都有大量的視頻内容被上傳到網絡上,涵蓋了新聞、教育、娛樂、廣告等各個領域。這些豐富的視頻資源爲大模型的學習提供了寶貴的素材。
通過對這些視頻進行深度學習和分析,大模型可以不斷地提取和總結視頻中的視覺元素、場景轉換、叙事結構等規律,從而提高自身的生成能力。同時,大模型還可以利用這些視頻資源進行自我叠代和優化,不斷提升自身的性能和效率。
随着 Sora 等大模型的快速普及和應用,我們可以預見一場行業變革正在醞釀之中。對于内容創作者來說,大模型将極大地提高他們的創作效率和質量,降低創作成本。他們隻需輸入簡短的文字描述或創意想法,就可以快速生成符合要求的視頻内容,大大節省了時間和精力。
對于廣告公司、影視制作公司等企業來說,大模型将爲他們帶來更多的商業機會和創新空間。他們可以利用大模型快速生成廣告宣傳片、宣傳片等視頻内容,提高品牌曝光度和用戶黏性。同時,大模型還可以幫助他們實現個性化定制服務,滿足客戶的個性化需求
第四,人類到底該怎麽辦?随着人工智能技術的不斷發展和普及,嚴防死守來防止其應用已經變得不再現實。從長遠來看,更好的策略是積極地去理解和利用人工智能,而不是試圖阻止它的發展。
一方面,人工智能在很多領域已經展現出了巨大的潛力和價值。例如,在醫療領域,人工智能可以幫助醫生進行疾病診斷和治療方案制定;在交通領域,人工智能可以提高交通流量和安全性;在金融領域,人工智能可以幫助進行風險評估和投資決策等。因此,通過積極利用人工智能,人類可以創造更多的價值,提高生活質量。
另一方面,理解和利用人工智能也需要人類不斷地進行探索和創新。随着人工智能技術的不斷發展,新的應用場景和商業模式也将不斷湧現。通過不斷學習和實踐,人類可以更好地掌握人工智能的技術和應用,推動其與社會、經濟、文化等各個領域的深度融合。
因此,與其盲目地抗拒人工智能,不如積極地去理解和利用它。通過不斷學習和創新,人類可以更好地掌握人工智能的技術和應用,推動其與社會各個領域的深度融合,這樣才是人工智能時代真正的生存之道。