字節跳動版 ChatGPT,現在人人可玩了!
網頁版、安卓版和 iOS 版同步上線,用抖音賬号、手機号和蘋果賬号都能登錄。
并且無需排隊,打開就能和這個名叫 "豆包" 的 AI 助手直接開聊。
是 doubao.com 不是 douban.com 噢 ~
消息一出,已經有不少胖友第一時間前往圍(tiao)觀(xi)。
我們也抓緊實測了一波 ~
與 ChatGLM 難分伯仲
先來看看豆包是怎麽介紹自己的:
既然如此,我們就來試試這些 " 官方功能 " 靠不靠譜。
比如,我們挑選了幾個有意思的錯誤機翻讓豆包糾正,結果豆包給出的反饋還挺不錯的:
尤其是 " 鴛鴦鍋 " 的翻譯,可以說是完勝 Google 和 DeepL。
知識方面的話,當然要問一下 " 刁鑽 " 的問題了:雷公電母放出的電是直流電還是交流電。
豆包的這個回答,可以概括成 " 不是直流電,而是直流電 ",但前面說的還算可以吧。
抛開整活的話,豆包的開胃小菜的确給了我們一個不錯的第一印象。
那麽下面我們就上正餐——來拿它和備受好評的國産開源大模型 ChatGLM 進行一場大橫評。
具體的内容包括文案創作、邏輯推理、數學和代碼四個方面。
文案創作方面,豆包說自己會撰寫知乎、小紅書等各種風格的文案。
我們不妨整個奇葩點的東西,看看它能不能創作得出來,比如……豆汁美式的小紅書筆記。
文案搭配着 emoji,連 Tag 都有了,看來豆包真的是懂小紅書的。
不過你确定 " 醇香甘甜 " 這個詞是用來形容豆汁的嗎……
ChatGLM 雖然寫了很多,但是沒審清題,把豆汁直接當成了豆漿……
(這麽一看,豆包可能也理解成豆漿了,但是人家沒直接說成豆漿啊)
看來豆包是有一定創作能力的,所以不妨再加大難度。
直接讓它給 " 豆汁美式 " 的宣傳片寫個短視頻腳本。
ChatGLM 的版本細節則要豐富些,不過豆包的版本也算是五髒俱全了。
兩者的文案創作水平不相上下,那麽邏輯推理能力又怎麽樣呢?
我們找來了一道推理題目,這道題兩位選手都沒能做對(正确答案是甲 3 乙 1 丙 2):
雖然都沒做對,但是豆包的思路好像在往正确的方向上走了。
而 ChatGLM 的解答,反正我是沒看懂。
這一環節對兩者的表現也是很難評價,那麽,馬上進入一衆大模型的噩夢環節——數學。
簡單如雞兔同籠這樣的問題就不測了,我們直接上難度,拿一道高考題給他們試試。
△2023 北京卷第 16 題
(圖片我們沒有輸入,但沒有圖片也能解題;第一問是證明,我們也去掉了)
豆包使用的是純幾何方法,最後的答案是正确的,但很遺憾過程不對。
△從紅框開始出現錯誤
ChatGLM 則使用了向量解法:
首先結果是錯的,不過 120 倒是和 60 度互補,是出了些小問題嗎?
但我們很快發現了華點:
這裏不應該約等于就先不提了……兩個正數相除你是怎麽給約成個負數的……
标準答案是醬嬸兒的,由于第二問要用到第一問的證明結論,所以把第一問的過程也放上來了:
如此看來,在數學修煉上,兩位大模型選手都還有很大的進步空間。
那麽面對大家喜聞樂見的代碼問題,豆包又該如何應對呢?
先看比較基礎的冒泡排序算法。
我們試着跑了一下(換掉了預設的數字),結果成功輸出了答案:
接下來上 LeetCode,我們先選了一個比較簡單的把阿拉伯數字轉換成羅馬數字的題目。
豆包很快就生成了一段代碼,還附帶了解釋:
而 ChatGLM 給出的代碼是這樣的(也附有解釋):
運行的結果是豆包正确,ChatGLM 錯誤:
不過稍微複雜一些的題目,他們就都做不對了。
除了設計算法,我們還想看看他們能不能用代碼 " 畫圖 "。
我們随機生成了兩列數據,看看能不能搞個折線圖出來:
結果用豆包的代碼畫出了這麽個東西……
ChatGLM 這邊的情況嘛……好家夥,直接報錯運行不了。
代碼環節就先展示到這裏了,用一句話說就是:都還得練。
看了這麽多,想必讀者朋友們已經有些累了,所以我們還準備了 " 餐後甜點 ",來點輕松的内容。
弱智吧,開整!
Q1:蘿蔔到底能不能 " 開胃 " 呢?
" 必要時尋求專業醫生幫助 ",這難道是在自己給自己做手術嗎……
Q2:導盲犬禁止入内,是給盲人看得,還是給導盲犬看的?
豆包在 A 和 B 兩個選項當中選擇了 C。
而問及 " 隕石爲什麽總砸中隕石坑 ",豆包倒是說對了,隻不過回答得有點複雜。
弱智吧的測評結果總結下來就是:AI 還是太單純,還沒辦法理解人類複雜的小心思。
字節跳動大模型開始發力
字節跳動選在這時候開放 " 豆包 " 測試,似乎有些令人意外。
但實際上,這個時間線倒推起來也不是無迹可尋:
在 ChatGPT 掀起狂瀾的今年二三月,字節跳動就已有組建大模型團隊的消息傳出。
據 36kr 消息,其探索方向主要是語言和圖像兩類大模型,希望能将大模型與字節本身的搜索、廣告等下遊業務相結合。
但在當時,字節方面相關技術負責人的回應是:
技術中台在這些領域有探索,還很初期,不成熟。
此後的 " 百模大戰 " 之中,字節跳動似乎并沒有正式參戰的意思,旗下雲平台火山引擎,打出的也是 " 爲大模型打造技術底座 "、接入第三方大模型做大模型旗艦店商城的旗号。
直到 6 月份,字節跳動被曝開始内部測試一款 AI 對話類産品,代号 "Grace"。
而 Grace 的網址 "gracebot.cn",現在會直接跳轉到豆包官網。
雖然豆包本包并不承認自己就是 Grace,但目前看來,豆包就是 Grace 的開放測試版本。
另外," 豆包 " 項目組的盆友向我們透露,豆包尚處于早期開發驗證階段。測試期還存在較多局限,生成的内容也可能不準确,歡迎測試用戶們多提意見多反饋。
值得關注的是,最近,一個名叫 BuboGPT 的多模态大模型,在 huggingface 上上線了 Demo。這一大模型背後同樣有來自字節跳動的技術參與。
論文介紹,BuboGPT 支持文本、圖像、音頻三種模态,能做到細粒度的多模态聯合理解。
比如給它這樣一張圖片:
BuboGPT 不僅能識别出青蛙和青蛙手裏的班卓琴,還能總結出青蛙的具體動作、所處環境。
One More Thing
字節跳動終于出手,那麽豆包這表現你給打幾分?
話說回來,就在大模型漸漸走出每周都有新模發布的狂熱期,國産大模型的先行者們,回答質量已經悄然進步了不少。
比如當初難倒衆多大模型英雄漢的 " 爸媽婚禮不帶我 " 問題,如今許多國産大模型都能回答得有理有據。
△上百度下訊飛
國産大模型的評判标尺,或許也已到了再上一個台階的時候。
所以,國産大模型百花齊放,是否也給到你新的驚喜了呢?歡迎在評論區與我們分享 ~