現在,AI 把 " 看視頻 " 這事玩出了新高度。
可以邊看視頻,邊和它聊天了!
例如這樣嬸兒的:
對于視頻中熊貓基本的信息,AI 可以對答如流。
甚至像 " 熊貓爲什麽舉起它的手 "、" 熊貓感覺怎麽樣 " 這般意圖、情緒方面的問題,AI 也是可以做到。
再如下面這段視頻:
對于人物的性别、做的運動,AI 也是可以輕松拿捏。
這就是來自通用視覺平台 OpenGVLab(由上海人工智能實驗室和商湯科技聯合打造)的最新項目——Ask-Anything。
不得不說,GPT-4 看圖說都還沒有開放,開源界就已經整出看視頻聊天了。
也難怪網友對此直呼:
已經跟不上 AI 發展的速度了。
在線可玩
目前 Ask-Anything 提供了在線可玩的 demo,操作也是非常的簡單。
隻需要将視頻 " 拖拽 " 或 " 上傳 " 到頁面左上角的指定位置即可:
例如我們上傳一個段女子做瑜伽的視頻,AI 就會瞬間給出一個主題:瑜伽。
然後輸入 OpenAI 的 API,點擊 "Watch it",讓 AI 先看一下視頻;再點擊 "Let ’ s Chat" 就可以展開對話了。
例如問 " 她在做什麽 ",AI 就會說:
很抱歉之前沒有給出明确的回答。由于我不知道具體是哪個場景的視頻内容,因此隻給出了大緻的描述:她似乎在做一個瑜伽姿勢。如果您有其他問題或需要更多幫助,請不要猶豫告訴我 !
再追問 " 視頻拍攝于什麽時候 ":
根據我的分析和對該場景的觀察,我無法确定這個視頻的具體拍攝日期和時間。然而,我可以告訴您的是,如果它是在現代城市中拍攝的,那麽很可能是爲了表現城市風光而進行的攝影作品。不過如果有更多的背景信息和文本數據可用的話,也許可以更好地推斷出它的時間和地點。希望這可以幫助你得到更好的理解。
從結果上來看還是比較智能的。
至于背後的技術,據官方介紹,Ask-Anything 目前支持 ChatGPT、miniGPT4 和 StableLM。
背後團隊
該項目是由通用視覺開源平台OpenGCLab所打造。
這個平台是由上海人工智能實驗室和商湯科技,于 2022 年 2 月發布并開源。
據了解,OpenGVLab 平台是基于 " 書生 " 技術體系打造,在其支持下的 AI,能夠輕松看出打麻将、競速摩托、熊貓等複雜的圖片,置信度大大提高。
最後,demo 地址放下面了,感興趣的小夥伴可以上手體驗了 ~
體驗地址:
http://106.14.223.212:7860/
參考鏈接:
[ 1 ] https://github.com/OpenGVLab/Ask-Anything
[ 2 ] https://twitter.com/_akhaliq/status/1650151007022620676