文 | 三言 Pro,作者 | 雨果
近日,理想汽車推出了一款基于自研多模态認知大模型 Mind GPT 開發的 AI 智能助手——理想同學 APP。

據介紹,理想同學具有強大的知識問答能力,能解答汽車、出行、财經、科技等衆多領域的問題,此外,還擅長英文詞句翻譯、文本生成等。
此外,其還具備強大的視覺感知能力,不論汽車、動物、植物,都能識别。

從界面風格、功能按鈕的整體來看,理想同學和其他大模型助手的區别不大,界面都是比較簡潔,其他大模型助手一般隻支持常見的支持語音和文字輸入,而理想同學還支持實時圖像連續識别。

那麽,實際體驗如何呢?我們一起來看看。
一、識别車型都對了
人物分不清,那對車型總該可以吧,畢竟理想同學是車載 AI 助手。
這次筆者選取了理想、蔚來、問界、小米等熱門車型。
最終的測試結果是令人滿意的,理想同學全部準确識别了展示的車型,反應速度還算快。看來,認車才是理想同學的優勢學科。
二、識别車圈大佬,好像隻認識自家老闆李想
既然是車企的 AI 助手,那就看看它能不能識别出車圈的各位大佬吧。
結果讓人有點失望,筆者随機選了李想、李斌、餘承東三人,理想同學是認對了自己老闆,将李斌錯認成李想,更是把餘承東當成了李彥宏。
上面的測試是連續識别,筆者又嘗試了一次測試一個人物。結果還是差強人意。

三、識别手機型号翻車
剛誇完,理想同學在識别手機型号上又翻車了。理想同學不僅沒能準确識别一款手機的型号,甚至還把小米說成了榮耀。
下面是正确答案。如果說蘋果認錯了還情有可原,但華爲 mate70 pro 還是識别度很高的,看來理想同學是 " 術業有專攻 ",不能說是全才。

四、9.11 大于 9.8 誰大?
數字比較大小的問題曾經難倒了一衆大模型,可以說是集體翻車,ChatGPT、文心一言、通義千問、百創智能、kimi、豆包、訊飛星火全部敗下陣來。
那理想同學的表現呢?理想同學通過了測試。

不過,數字比大小的問題已經很久了,大模型們也該修複了。
筆者又回頭簡單找了兩家大模型重複測試,結果有一家大模型還是給出了錯誤答案,有點無語。

五、識别日常靜物
對于日常生活中的事物,理想同學識别還算準确。




測試完識别能力,再來測試下大模型最基礎的文字對話測試。
1、給以下動作排列合理的先後順序 : 穿鞋,穿襪子,剪指甲,系鞋帶
理想同學回答正确。

2、将下面的文字組成一個句子 : 啄木鳥那隻美麗的脖子長長的有着
理想同學通過測試。

3、1 個籠子裏裝着免子和雞,一共有 20 個頭,45 隻腳,請問免子和雞各有多少隻 ?
其實這個問題是無解的,理想同學給出了錯誤的答案。

4、爲什麽爸媽結婚沒叫我參加婚禮 ?
這個問題也沒難到理想同學。

5、麻辣螺絲釘怎麽做?
最後一個問題還是難住了理想同學,看來還有待提升。

6、比較理想和競品
理想同學在比較李想和李斌以及蔚小理問的車型時,給出的答案更偏知識彙總,沒有太多的判斷傾向,還算中立。



總結:通過簡單的測試,理想同學的能力基本過關,稍微偏科,對汽車識别準确,手機、人物略欠缺外,其他靜物都比較準确。
在文字問答上,還算可用,其他大模型也有類似的錯誤,比如 " 麻辣螺絲釘怎麽做?" 這個問題很多熱門大模型都犯錯了。
雖然今天的測試内容有限,但能得出個大概結果,希望理想同學快快成長,别再偏科。
作爲一家車企,理想之所以推出理想同學 APP, 與理想汽車的定位有關。理想汽車的目标是成爲一家人工智能企業。
前幾日的理想 AI Talk 中,李想被問及爲什麽現在想做人工智能企業,他表示認爲人類會發生根本性改變,這是一個更大的故事,一個更大的夢想," 我要選擇一個森林,然後我要做森林裏最大的,無論它多麽難,無論它需要我經曆什麽樣的困難,我絕對不隻做一棵樹了 "。
李想提到做理想同學手機 App 的原因,他表示理想一直在做基座模型,基座模型是人工智能時代的操作系統和編程語言。同時,基座模型所構建的是人工智能的超級産品,是新一代入口,它會在所有設備上,會在所有服務之上。在掌握基座模型前提下,一個真正的大模型産品,一定能夠自主使用所有設備,會擁有所有服務。
那麽從用戶角度,很多用戶第一個接觸的人工智能産品就是理想同學,理想希望可以讓理想汽車的 100 多萬用戶,再加上這些用戶的家庭,大概 300 萬至 500 萬人,不僅可以在車上,還可以在手機、電腦,甚至以後還可以在眼鏡上,都體驗到一緻的人工智能産品。
這代表理想要在大模型領域與文心一言、豆包、kimi、通義等正面競争了嗎?