從下周開始,AI 一周見聞将增加日更—每日 AI 見聞欄目,歡迎大家持續鎖定華爾街見聞 · 見智研究。
本周 AI 見聞新增—見聞新視角
每周見聞
本周要點彙總:
1、馬化騰表示 AI 堪比電力工業革命;美團擴張算法招聘,悄悄研發大模型。
2、 OpenAI 發布 iOS 版本 chatGPT,向 Plus 用戶開放 70 款插件
3、 Meta 發布 AI 芯片 -MTIA,25 年才能問世,目前還會采用英偉達 GPU。
4、 AI 繪圖新裏程碑 -DragGAN 實現大象轉身,汽車一鍵 " 敞篷 "。
5、具身智能開創 AI 主動感知,人工智能的下一個浪潮。
6、雲從科技發布從容大模型,垂直領域的商業化路徑才是國産大模型的機會。
7、 AI 黑科技 - 在家也能體驗迪士尼的 " 飛躍地平線 ";半機械 " 蜘蛛人 " 颠覆人機交互的認知。
見聞新視角
在騰訊 2023 年股東大會上,馬化騰表示:" 最初大家都以爲 AI 是互聯網十年不遇的機會,但是現在對 AI 的認知已經上升到百年發展機遇,可類比電力工業革命。" 騰訊當下也在埋頭研發 AI 技術,但是不急于短期求成,未來會在應用、内容生态創造更多的價值,不僅僅專注于 toC 端,同樣重視 to B 端的機會。
此外,美團在秘密研發大模型,從 3 月初開始布局該領域,近日算法團隊也在擴張中,并且還在籌劃成立單獨的 " 平台部門 ",幫助美團大模型通過具體的商業化形式落地。
見智研究認爲:當下大模型的競争非常卷,許多開源的大模型的出現更是加大了這個内卷速度。但是開源大模型的問題在于很難進行商業化,更多的是用于學術性研究;而海外封閉式的先進大模型如果應用在一些關鍵領域,又會有安全性的隐患問題。
所以發展國内大模型的趨勢則在于中文預料庫的豐富程度,并且本地化優勢強的特征,具有較高的安全性和保密性,未來中文專用大模型的市場化需求會非常高。
特别值得關注的是:大模型和應用結合的商業化價值。無論是 openAI、微軟還是谷歌都已經陸續開始生态版圖擴張,這也是國内 AI 發展的必然路徑,研發成果最終都要變現,産生更大的商業價值。
重磅發布
1、OpenAI 發布 iOS 版本 chatGPT,向 Plus 用戶開放 70 款插件
本周,OpenA 宣布正式發布 iOS 版本 chatGPT,需要 iOS 16.1 或更高版本才能使用。并承諾安卓版也即将發布。
手機端的 ChatGPT 支持跨設備同步用戶的曆史記錄,還集成了 OpenAI 的開源語音識别系統 Whisper,用戶可以用語音輸入内容;能夠進行問答、語言翻譯、教育輔導、以及自動生成文本等。
此外,ChatGPT 向有 PLUS 用戶開放聯網功能,允許 70 個第三方插件使用。
見智研究認爲:無論是手機端應用的推廣還是開放第三方插件的使用,都是 OpenAI 爲提高用戶粘性,進一步做到用戶下沉所做出的努力。
移動端的開放會極大提高用戶使用頻率,在便捷程度方面遠高于 PC 端。自 ChatGPT 發布以來,用戶就一直反饋想在移動端使用 ChatGPT。而随着移動端的開放,ChatGPT 的日活數量将會再突破新高,商業價值也會達到新的高度。另外,訪問量的激增,對算力的需求也會進一步擴大。
此外,第三方插件目前雖然說是僅向 PLUS 付費用戶開放,但是以當前 AI 内卷的程度來看,全面免費也是指日可待的。
2、 Meta 發布 AI 專用芯片 -MTIA
MTIA 是專門爲訓練和推理設計的可編程芯片,MTIA 的推出極大大提高了 Meta 在 AI 方面的硬件實力。科技巨頭的競争最後都無法逃離核心硬件,特别是在發展 AI 的時代,算力水平是發展的基石,無法掌握算力,發展進程勢必會受制于 " 他人 "。
但是 MTIA 還有很大的優化空間,預計還要等到 25 年才能問世。在與 NNP 和 GPU 性能測試上來看,MTIA 在低、中等複雜度模型上有更好的表現,但是在高複雜度上和 GPU 還相差甚遠。
見智研究認爲:Meta 發展 AI 芯片是爲長遠計,畢竟芯片才是握在手中的核心硬實力,但高性能芯片研發之路非常漫長,該款芯片的設計也早在 2020 年就開始了。而在當前來看,Meta 仍舊會采用英偉達的 GPU,畢竟在 22 年的時候 Meta 剛剛爲引入英偉達 GPU 而對自己的數據中心進行了颠覆性設計,之後還會主要依靠 RSC 超算中心發展 AI。
3、AI 繪圖新裏程碑 -DragGAN 實現所有想象
AI 繪圖被 Diffusion 模型獨領風騷的日子,被 DragGAN 徹底打破了。名爲《Drag Your GAN》的淪爲引爆 AI 繪圖圈,該論文由 MPII、MIT、賓大、谷歌等機構的學者聯合發布,目前已被 SIGGRAPH2023 錄用。
該模型幾乎能夠實現人們對修圖的所有需求,從物體形态、細節、甚至是方向、布局都可以改變,堪稱核彈級 Photoshop。
用戶隻需要對照片設置幾個操作點(紅點)、目标點(藍點),然後進行拖拽,就可以生成新的圖像。
見智研究認爲:DragGAN 的出現表明機器在圖像學習的訓練又達到了一個新的高度。值得關注的是:DragGAN 具有更強大的泛化能力,可以創建出超出訓練數據的圖像,比如獅子的嘴型就被完全改變,這基本上就是全新生成内容,而不是原本人們認知中的修圖功能。
DragGAN 與之前的方法相比,并不依賴于特定領域的建模或輔助網絡,而是采用一個通用的框架,利用 GAN 來辨别圖像質量,用點追蹤的方式完成圖像變形功能。有了這個強大的功能,攝像師、修圖師都要偷着樂了。
4、 具身智能開創 AI 主動感知,人工智能的下一個浪潮。
在 ITF World 2023 半導體大會上,英偉達 CEO 黃仁勳又放出豪言,人工智能的下一個浪潮将是具身智能。
見智研究認爲:具身智能帶來的 AI 價值遠比人形機器人更大。具身智能最大的特質就是能夠以主人公的視角去自主感知物理世界,用拟人化的思維路徑去學習,從而做出人類期待的行爲反饋,而不是被動的等待數據投喂。在人類的五大感官中視覺獲取的信息占比超過 80%,并且讓機器理解人類語言也是非常重要的,所以機器視覺和多模态大模型正是開啓機器自我感知學習的兩把鑰匙。詳情内容參見英偉達帶火的 " 具身智能 " 是什麽?AI 價值遠比機器人更大。
5、雲從科技發布從容大模型
人工智能平台公司雲從科技在廣州發布從容大模型,并展示從容大模型的對話、編程、閱讀、中考真題答題等基礎能力。從容大模型目前處于内測階段。該模型屬于文生文大模型,還不能完成文生圖等多模态大模型的功能。
在開放測試中表現情況:反應速度快,但内容準确性還有待提高。并且數據庫的時效性比較低,還在 21 年。另外,該模型在數學、推理能力上表現還沒有達到預期。
見智研究認爲:國内大模型的優勢在于中文語料庫上的豐富程度遠高于國外先進大模型。雖然在領先程度上很難追趕 ChatGPT,但是從容大模型未來會在垂直産業的應用發展上具有領先性,特别是在金融、政務和制造業領域進行專屬行業模型的開發,緻力于模型的商業化變現。
AI 黑科技
1、在家也能體驗迪士尼的 " 飛躍地平線 "
國外 Nils Bakker 開發者用 ChatGPT 成功打造一個「虛拟空間傳送」系統,采用虛幻引擎 5.1 + ChatGPT + Google Maps 3D Tiles API,用戶隻需要輸入地點,系統将會将采用第一人的視角,帶你俯瞰全世界的美景,在家體驗飛越地平線的快樂這不就來了。
将 Google 3D Tiles 和 ChatGPT 的 API 結合起來,再利用虛幻引擎的能力,讓用戶能夠身臨其境般的感受空間穿梭。這下躺在家裏也能感受飛躍地平線的魅力了。
見智研究認爲:AI 尚且屬于行業發展的早期,想象力和創造力都非常重要,行業賽道和商業機會将會如雨後春筍般出現。
2、半機械 " 蜘蛛人 " 來了
Jizai Arms 的日本機器人公司設計了一種蜘蛛狀機器人肢體系統,讓人類擁有了可自由操控的機械臂。該系統由六個手臂組成,可以由佩戴它們的用戶控制。可最多安裝四個機械臂,值得關注的是該系統改變了人機交互的方式。
該假肢非常靈活,可以執行各種任務,應用範圍從倉庫到醫院手術室,未來能夠幫助改善殘疾人的生活質量。
見智研究認爲:機械臂與真人 " 合體 " 打開了人機結合的想象空間,刷新了人們對機器人發展的認知上限,未來還會有更多的不可能被實現。
下周看點
期待 OpenAI 的第一個開源大模型,能否改寫 Meta 的開源王者地位?