前兩天,馬斯克悄摸發了條推特,宣布他們的新 AI —— Grok ,逐漸要向大夥們( 開了大會員的 )開放了。
按照老馬的說法,英語用戶大概在一周内都能用上,日語用戶排在第二波,到明年年初,所有用戶都能安排上。
而這個 Grok 呢,雖說還是個初出茅廬的毛頭小子,但讨論度一點不比别家少。
一個方面是老馬瘋狂發推,給自家 AI 帶量。。。
另一邊,不少事先嘗鮮的科技大佬,也紛紛曬出了和 Grok 的聊天截圖。
像是英偉達的科學家抛出個 " 我老婆說 4+5=12 " 的經典難題, Grok 都能輕松給出解決辦法:老婆永遠是對的。。。
要知道之前這個問題可是難道了不少大模型,連 ChatGPT 也都死磕正确答案,轉不過彎來。
甚至,有個和 Grok 同名的虛拟币,前段時間也都暴漲了上萬倍。。。
馬斯克直接現身說法,告訴大家啥是科技圈兒頂流好吧。
而好巧不巧,這兩天,世超正好就拿到了 Grok 這個網紅 AI 的測試資格。
咱也不整啥廢話了,直接就帶大夥們體驗一波。
先是點開 Grok 的界面,就能感覺到濃濃的馬斯克風撲面而來。
它搞了兩個模式,正經模式和娛樂模式,默認的就是 " 墨鏡一帶誰都不愛 " 的娛樂模式。
主頁推薦的第一個提示詞也都是 " Roast me Grok ( 挖苦我, Grok ) " ,讓它根據自己 X 賬号的内容開涮。
世超決定就從這個問題開始,試試 Grok 檢索 X 上信息的能力,順便還能檢驗下它是真幽默還是假幽默。
沒想到這個 Grok 嘴下是一點不留情,先是吐槽一大堆,第二段直接陰陽怪氣起來: " 你癡迷科技和 AI 是在嘗試彌補什麽嘛 " 。。。
而且有一說一,這結果算是非常準确,我主頁确實點贊轉發了不少科技或者 AI 相關的帖子。
不過幽默不光是毒舌,能不能 get 到人類的一些梗,也是很重要的一個衡量标準。
好在 Grok 在這塊穩定發揮,像是 " 沒有眼睛的鹿叫什麽 " , " No eye deer ( No idea ) " 這種經典英文笑話,它完全能理解。
包括 " 普通的貓有 9 條命,而精通計算機的貓有 1001 條命 " ,這種二進制梗, Grok 也輕松拿捏。
而除了幽默外, Grok 的另一大特點便是數據更新得快,是第一時間在網上沖浪的弄潮兒。
世超也直接開門見山,問了它一般什麽時候更新數據庫。
Grok 那邊直接來了個比喻,說它的數據和雛菊一樣新鮮。。。
好吧,既然這樣,那就來點開碟小菜,問問它知道前兩天谷歌剛發的 Gemini 嗎?
這倒沒難到 Grok ,它準确給出了答案,後面還附帶了那天一些 Gemini 相關的推文鏈接,大概就是想告訴我們它的信息就是從這邊總結到的。
接下來再上點難度,讓它總結一下今天科技領域都發生了哪些大事。
這次的結果,着實有點難評。消息确實都是最近發生的,但好多都不是今天的,屬于有點時效但不多。。。
先是 Gemini 已經是好幾天前的消息了,剩下的像蘋果系統更新、歐盟 AI 新協議等等,也都講得十分含糊。
反正看了它總結的這些東西,世超是一點信息增量都沒得到,而且有的消息沒源頭都不敢信,還得自己再查一波。。。。
從上面這幾輪體驗下來, Grok 給世超的感覺還算過得去,娛樂能力是有的,一些梗也能迅速 get 到,回答的時候也挺幽默的。
實時數據庫這塊,确實是能看出來 Grok 有在不斷更新,不過總結能力,頂多就是中規中矩的水平,想把它當作生産力工具遠遠夠不上,還沒搜索引擎來得方便。
當然,這也不隻是 Grok 一個的毛病了,其他有實時檢索能力的大模型,總結能力或多或少都有點菜。
比較獨特的功能體驗完了,按照慣例,大模型的一些基礎問題咱也得在 Grok 上測測。
這次,爲了确保能測出 Grok 的真正實力,世超專門找來了上次谷歌測試 Gemini 的MMLU ( 大規模多任務語言理解 )能力的論文,從裏面扒了一些問題出來問問它。
先是一些生活中的道德常識:
在賽道上和在郊區飙車,哪種情況違反道德?
大家動動腳趾頭估計都能給出答案,這也難不倒 Grok ,它很快給出了判斷,情景 2 。
再來一點網上就能檢索出來數據問題,問問 2017 年之前,世界上有多少 1 歲兒童接種過疫苗?正确答案應該是八成多。
Grok 唰唰一通搜索,不僅給出了 85% 的大概比例,而且還給出了 1.162 億的準确數字。
常識問題對 Grok 來說算是灑灑水,接下來就整點複雜的,來點情境看看它的理解推理能力。
世超先抛出個社會犯罪學裏面的名詞 " 差别接觸理論 " ,讓 Grok 判斷哪個例子符合這個名詞。
Grok 不僅正确選出了答案 A ,還講了爲啥要選這個選項,順帶解釋了下這個名詞。
還有下面這種帶點職場人情世故的狀況,發現上司準備的演講稿中有事實性錯誤該怎麽辦?
大家都是老打工人了,估計都能選出 D 才是最妥善的解決辦法。
而 Grok 也沒半點糾結,俨然一副飽經職場風霜的樣子,給出最合理的解決方案,還說了一大堆這麽做的好處。
這麽體驗下來, " 人味兒 " 測試對 Grok 來說并不難。
最後就該使出殺手锏了,來點大模型們都聞風喪膽的數學題。
從最基礎的小學數學題開始,這個涉及到最小公倍數的問題, 15 這個答案,相信大夥們都能口算。
然而 Grok 在第一道上就栽了跟頭,用最小公倍數算它倒是清楚的很,最後本來要加上開頭的那次亮燈,結果它給減掉了,純純就是讀題不認真了。。。
再來點難度,搞個導數的題目,看看 Grok 能不能做對,正确答案應該是下面圖片這樣的。
結果 Grok 這邊從一開始就胡說八道了,車轱辘話說了一遍又一遍,最後正确答案也沒算出來。。。
總的來講,馬斯克的 Grok 在一些基礎能力上,要說比肩 GPT-4 ,肯定還有點癡人說夢。
而且在試用的過程中,除了開頭那個根據自己的帖子吐槽的功能外,世超沒有找到啥特别驚喜的點,包括那個實時更新的數據庫,用下來感覺就挺一般的。
但世超也沒有要唱衰的 Grok 的意思,畢竟馬斯克的人工智能公司 xAI 在今年 7 月份才成立。
雖然起步很晚,但 xAI 該有的進展是一點沒落下。
整個團隊不到 20 個人,爆肝兩個月,在 OpenAI 開發者大會之前發布 Grok ,趕上了大模型這趟末班車。
在最基礎的能力上,它剛上線就能有實時更新的數據庫,下一步, Grok 還計劃上多模态和長文本處理的功能。
而且公開資料顯示,前些天, xAI 還向美國證券監管機構提交了相關文件,準備通過股權籌集 10 億美元。
現在已經籌集到了 1.35 億美元,另外還有 8.6 億美元的代收股權已經簽了協議。
這麽來看, xAI 的發展算是相當順風順水了。
其實馬斯克搞出上面這些名堂,倒也不讓人感到意外,畢竟當時從 OpenAI 退出之後,他就一直瞅着時機準備入局 AI ,屬于底子一直都在的那類。
真正拉滿世超對 Grok 期待值的,還得是它背靠的一整個 " 大家族 " ,它們又會擦出怎樣的火花?
大家也都知道馬斯克手裏還有特斯拉、 SpaceX 、 Neuralink 等等一大堆公司,在 " 所有東西都要用 AI 再做一遍 " 的現在,把 Grok 融到這些公司肯定是遲早的事。。。
xAI 官網也透露,後續除了繼續和 X 合作之外,還會和特斯拉還有其他公司搞搞聯動。
反正世超現在已經在暢想把 Grok 集成在特斯拉上的景象了。。。