11 月 22 日,2023 IDEA 大會在深圳舉行,IDEA 研究院創院理事長、美國國家工程院外籍院士沈向洋登台演講,披露了諸多技術進展。
" 在大家都看到的問題裏,找到大家都找不到的方法。"沈向洋在演講中提及科研者的創新方向時談到。他舉例稱,大模型做到今天,GPT4 已經非常強大,但多模态仍然是一個沒有解決的問題。
随後,沈向洋展示出最新的計算機視覺融合大模型的研究成果:視覺提示(visual prompt)模型 T-Rex。其團隊表示,在真實應用場景中,許多罕見、複雜物體難以用文字充分描述,視覺提示的加入能夠有效解決這一痛點,直觀的視覺反饋與強交互性,也有助于提升檢測的效率和精準度。
T-Rex 是一個開箱即用的模型,無需重新訓練或微調,即可檢測模型在訓練階段從未見過的物體。活動中,沈向洋還發布了 T-Rex 的模型實驗室(playground),Interactive Visual Prompt(iVP),用戶可試用 " 一圖勝千言 " 的 prompting 體驗。
圖片來源:IDEA 官方
沈向洋在演講中指出,計算機視覺領域在呼喚通用大模型的來臨。以 GPT-4V 爲代表的多模态大模型,是在語言能力上增加視覺能力;IDEA 研究院的計算機視覺團隊則選擇了另一條路徑,先将基礎的視覺能力做到極緻,再增加語言能力。
" 我們認爲,物體級别的理解(object-level understanding),也就是檢測、分割、識别,是連接語言和視覺這兩種最重要的模态的基石。" 沈向洋表示。
爲了解決大模型如今的通病,即 " 一本正經的胡說八道 ",IDEA 研究院團隊研發了 Think-on-Graph(思維圖譜)技術,讓大模型和知識圖譜聯合。總體來說,大模型更擅長意圖理解和自主學習;而知識圖譜因其結構化的知識存儲方式,擅長邏輯鏈條推理,具有更佳的可解釋性與可實時更新性。
Think-on-Graph 通過實現兩者的緊耦合交互,驅動大模型 agent 在知識圖譜上 " 思考 ",逐步搜索推理出最優答案(在知識圖譜的關聯實體上一步一步搜索推理)。每一步推理中,大模型都親自參與,與知識圖譜相互取長補短。
近年來,技術創業已然成爲許多技術創新者的下一站。在演講中,沈向洋用 Transformer 架構開山之作《Attention is All You Need》舉例,這篇論文的八名作者如今全部在創業。
沈向洋指出,IDEA 研究院一直緻力于創造一個架構,讓科學家頭腦、企業家素質、創業者精神能夠自由碰撞,嚴謹産出。成立剛滿三年,IDEA 研究院也帶來一批已經或正在走向大市場的創業項目。
這些項目中,有主打 AI for Scientists 的 AI 科研産品 ReadPaper,也有爲數據要素可信流通提供硬件級安全保障的 SPU 機密計算協處理器、SPU-G 異構 AI 協處理器,還有基于自研知識圖譜與生物醫學領域大模型的腦卒中智能防護産品 StroCare。
其中,AI 科研助手 ReadPaper 上線一年,在大會上,團隊發布了升級的 ReadPaper 2.0 版本,并現場演示閱讀 copilot、潤色 copilot 等新功能,其中,支撐 ReadPaper 2.0 體驗的學術大模型 Eureka 也在現場首次公開。
IDEA 研究院是沈向洋卸任微軟全球執行副總裁之後的新事業,在從微軟退休的告别信中,沈向洋曾寫到在告别信中寫道:在人生的這個階段,我覺得,已經是時候去思考爲産業、爲下一代計算科學領域的研究員和工程師們,還能多做些什麽。
2020 年,沈向洋在深圳成立了 IDEA 粵港澳大灣區數字經濟研究院,在一次公開活動中,沈向洋曾談及成立 IDEA 的初衷:
經常有人問我,我們 IDEA 是一群人特别年輕的人,在這裏想做什麽。我們有自己的願景,我們希望通過我們的努力創新智能技術,創造偉大企業,推動數字經濟發展。這是我們想做的事情,我們定位非常清晰,希望做出來的技術能夠爲社會、爲經濟、爲發展起到我們的一些作用和力量。