大夥兒有沒有發現,放棄造車後的蘋果,最近在 AI 上的動向是越來越頻繁了。
這不,今天一大早就有媒體報道,蘋果收了一家搞視覺檢測的加拿大 AI 初創公司。但還沒一會兒,就又傳出個大消息,說是蘋果大模型要來了。
正當世超滿懷期待想要看看怎麽個事兒,卻發現所謂的蘋果大模型,隻是一篇論文。。。
在 arXiv 上,蘋果上新了一篇名爲《 MM1 : Methods , Analysis & Insights from Multimodal LLM Pre-training 》(多模态大型語言模型預訓練的方法,分析和洞察)的文章。
論文裏,他們公布了個名叫 MM1 的基礎大模型系列,其中 MM1 支持圖文多模态,參數規模也分了小杯的 30 億、中杯的 70 億,還有大杯的 300 億三種。
世超總體看起下來, MM1 的原理和市面上其他的一些大模型比,并沒啥大差别。
但,世超還是翻到了些比較有意思的幹貨。因爲他們通過一大堆實驗,研究出了些能讓多模态大語言模型變得更聰明的小技巧。
就比如,他們在訓練模型的一開始,就給 AI 來了一波 " 消融實驗 " ,大夥可别被這個生僻的名詞給吓到了,消融實驗,咱可以粗略地把它理解成 " 可控制變量法 " 。
就像差評君說他打遊戲菜,是因爲空調溫度太低影響了他的發揮,那咱就空調溫度往上調調;當然也可能是屏幕太亮,晃着眼差評君的眼睛了,所以咱也把屏幕亮度調低試試。。。
總之經過一系列調整之後,肯定能找出差評君遊戲菜的鍋,到底該誰背。。。
同樣,在訓練蘋果大模型時,技術人員也挨個調配置,比如修改預訓練數據源,或者調整圖像分辨率,來看看調整之後,對模型性能到底有啥影響、有多大影響。
這樣做的目的,就是要确認哪種組合設計可以讓模型變得更聰明,世超也就不賣關子,直接公布最後的 " 結果 " 了。
首先,他們發現圖像編碼器的設計,尤其是圖像分辨率和圖像标記的數量,對模型性能的影響賊大。
說人話就是,圖像越清晰、标記的細節越多,模型效果也就越好。
模型在不同圖像編碼器配置下,對不同圖像分辨率和數據預訓練的消融實驗結果
還有咱們都知道,一般多模态多模型都能分成視覺模型、大語言模型和視覺語言連接器( 幫助模型理解圖片内容,并用文字解釋的部分 )三部分。
蘋果則發現,其中視覺語言連接器相對是個小透明,無論它具體咋設計,對模型性能的影響都比較小。
另外再舉個例子,模型從來沒見過貓的圖片,但在測試的時候卻能認出貓是貓,這叫零樣本性能。他們則發現,要想提高模型的零樣本( zero-shot )性能,訓練模型時,帶标題的圖像數據很重要。。。
說實話,上面的這些發現,多少還是有些人類能理解的邏輯在裏面。
但這論文我越看,就越覺得 AI 妖。
因爲實驗發現 " 45% 的圖像 - 标題數據 + 45% 的交錯圖像 - 文本數據 + 10% 的純文本數據 " ,這種比例的數據,對他們的多模态大模型訓練最有效。
這配方居然還有零有整的,而蘋果就是研究出這個配方的廚子。。。
還有一點就是, MM1 也用上了最近流行的混合專家 MoE 架構,這種架構能給模型大腦擴容( 提高參數量 )的同時,又不會影響到模型推理速度。
這個 MoE 架構可以理解成,把一個模型拆成好幾個 " 專家 " ,每個專家負責處理不同的任務。
假設你去醫院看病,傳統模型就像一個全科醫生,他可以處理各種疾病,但沒法子做到科科都精通。
MoE 架構則更像一個醫院,它有不同的科室,醫院系統會根據你的病情調一個最适合的科室大夫,既不會浪費醫療資源,又能給你提供更專業的醫療建議。
這次,蘋果就搞了一個有 64 個專家的 30 億參數模型,和一個有 32 個專家的 70 億參數模型。
反正經蘋果這麽一調教,按照他們的說法, MM1 已經在某些領域超過了群内同行,達到了 SOTA ,也就是目前最先進的水平。
SOTA 的定語有點長,大家細品
最後世超想說的是,之前在 2024 蘋果股東大會上,庫克就提過蘋果今年要在 GenAI 領域大展拳腳。
而這篇論文,或許可以看作是蘋果進入生成式 AI 領域的一塊敲門磚,也變相跟外界解釋了一波其實他們一直都在緊跟潮流,沒有外界說得那麽落伍。
還有論文裏的發現,雖說有些零散,但好歹也讓以後的大模型煉丹,有了些方向。
不過咱也說實話,且不和微軟、谷歌這些大模型第一梯隊的比了。。。
單是國内主流手機廠商,都已經吹響了 AI 大模型手機的沖鋒号角,魅族要 All in AI , OPPO 成立了 AI 中心,華爲的鴻蒙 4.0 也接入了盤古大模型。
蘋果再不整,可就真來不及了。
最後,如果這大模型能成,我對他的要求就一個,求求給 siri 換個好使的腦子吧。。。