科大訊飛版 ChatGPT 産品,提前交卷了!
就在昨夜,訊飛驟然向開發者提供了内測通道,取名爲訊飛星火認知大模型對外開啓内測。
還有個神奇的英文名字 Spark Desk,據說有 " 火花桌面智能助手 " 的意思。
訊飛這波操作,多少有點 " 反向跳票 " 的意思,因爲早在今年 2 月初,科大訊飛就被曝加緊開發中國版 ChatGPT。随後國内大模型關注度陡增後,科大訊飛率先給出了 deadline:5 月 6 日上線産品。
萬萬沒想到,距離正式發布還有 10 天,他們毫無征兆地開啓了内測邀請。
從目前已經獲得内測的網友評價來看,有一些人認爲效果 " 超出預期 ",但也有人反饋隻是 " 中規中矩 "。整體來看,表達效果不錯的反饋占多數。
獲得内測資格的方式也有點意思,是 AI 打電話給确認的:
當然,科大訊飛大模型能力究竟如何,最好還是能實測後再說。
所以第一時間拿到内測邀請的我們,也連夜完成了測試。詳情如下:
淺測訊飛大模型
登錄進去後,首先看到的是訊飛星火認知大模型的自我介紹:
我能學習和理解人類的語言,進行多輪對話、回答問題和高效地幫助人們獲取知識和靈感。
老樣子,還是從語文、數學、代碼和邏輯幾方面,測測訊飛星火認知大模型的綜合能力。
那麽我們就先從語文能力測起。
考慮到現在弱智吧已經成爲 ChatGPT 時代下的 Benchmark 了,所以先測試大家想看的環節。
結合下科大訊飛的特點,我們抛給訊飛星火了一個地獄地域笑話。
沒想到,它是懂安徽人的。
△我們去了圖片 ID 水印,可能導緻截圖文字不清楚(還望大家理解)
再來一個腦筋急轉彎試試。
訊飛星火的回答非常一本正經:首先表示 " 玉皇大帝是否存在這個事情不是我 AI 可以下結論的 ",這個問題驢唇不對馬嘴,玉皇大帝住哪的設定和現代科學沒有關系。
但你要非要我說點啥,我隻能說或許玉皇大帝可能在地球上空吧。
不過這段回答裏也有個小 bug,即在東亞宗教信仰裏天界包括天堂和神界(?)
實際上,在一些弱智吧問題裏,訊飛星火的表現往往是懂了但沒完全懂。
比如它知道焚書坑儒的事,但是又解釋不清楚衍生出來的地獄笑話。
不過在基本語文能力上,訊飛星火的表現還是值得關注的。
比如給出第一句,補充寫一首魯迅風格的詩歌:
提的要求它都基本滿足了,不過紫菜湯爲啥曾是漁民的希望?是我理解不了 AI 的深意了。
換成周傑倫的風格呢?
表現也還不錯,馬上替換了後三句的内容。懷念童年也是周董歌裏經常出現的主題了。
古文中的對對子,它也能對仗比較工整,表達意思上也沒出什麽問題。
我們給的上聯是:福慧雙修須及物。
再試試成語接龍:
如果它接錯了,提醒下能改正回來,也表現出了一定的多輪對話能力:
創作的洋蔥新聞,也确實有那感覺了 ~
續寫的恐怖故事也有點水平:
那麽再看看數學能力?
基本的加減法、雞兔同籠應對起來都很輕松了。
不過在高數方面還是有點困難,讓它求解:f ( x ) =x ( x-1 ) ( x-2 ) ( x-3 ) ,f ’ ( 0 ) =?
即便在我們提醒它算錯了情況下,修正起來也比較困難(正确答案爲 -6)。
OK,接下來就輪到代碼能力了。
我們給的要求是:幫我寫一個計算器程序。
确實完成了一個四則運算的簡單計算器,甚至還有命令行操作界面:
除了有一個小 bug(函數外不能 return)外,簡單修改後可以運行。
另外對于 Python 縮進的空格與 tab 之争,這隻 AI 是個空格黨。
這裏貼上代碼塊,大夥兒可以試試:
#coding=utf-8
# 量子位注:AI 沒生成這句,根據不同運行環境可能需要加一下
# 定義函數,實現加法運算
def add ( x, y ) :
return x + y
# 定義函數,實現減法運算
def subtract ( x, y ) :
return x - y
# 定義函數,實現乘法運算
def multiply ( x, y ) :
return x * y
# 定義函數,實現除法運算
def divide ( x, y ) :
if y == 0:
print ( " 除數不能爲零!" )
return
else:
return x / y
# 主程序
print ( " 歡迎使用計算器!請選擇需要進行的操作:" )
print ( "1. 加法 " )
print ( "2. 減法 " )
print ( "3. 乘法 " )
print ( "4. 除法 " )
choice = input ( " 請輸入操作編号 ( 1/2/3/4 ) :" )
num1 = float ( input ( " 請輸入第一個數字:" ) )
num2 = float ( input ( " 請輸入第二個數字:" ) )
if choice == '1':
print ( num1, "+", num2, "=", add ( num1, num2 ) )
elif choice == '2':
print ( num1, "-", num2, "=", subtract ( num1, num2 ) )
elif choice == '3':
print ( num1, "*", num2, "=", multiply ( num1, num2 ) )
elif choice == '4':
if num2 == 0:
print ( " 除數不能爲零!" )
# return (量子位注:這裏有 bug,注釋掉就可)
else:
print ( num1, "/", num2, "=", divide ( num1, num2 ) )
else:
print ( " 非法輸入!" )
生成表格能力也是有的,同時可以按照要求修改表格:
分析基本邏輯問題也 OK:
而且我們感覺訊飛星火的回答,總是很正經,對于腦洞大開的問題也是淡定的 " 總分總式 " 回答。
當然也被繞到過溝裏,回答出了 " 賈母找人搬機器 " 的瞎話:
以上就是我們對訊飛星火的一個淺淺測試。
能力水平已經看到了,而大模型本身讓人好奇的,還有它的技術細節 ~
提前扒扒它的 " 模型底細 "
畢竟訊飛大模型還沒正式發布,所以我們試着先從它自己這裏 " 探探口風 "。
看看能不能通過問相關問題,提前摸出一些關于它的資料來。
先是名字由來。訊飛星火認知大模型給出了技術向、公司向和文化向三個方面的回答,有議論文内味了:
再仔細追問一下爲什麽 " 星火 " 和 " 心宿 " 有關,好家夥,話題逐漸占星學了起來:
這裏我們調戲一下大模型,問問科大訊飛 CEO 是否喜歡占星學
回到正題。那麽,訊飛星火認知大模型的訓練數據來源、模型參數量、聯網狀态如何?
首先是關于模型訓練數據的來源。看起來資料還比較豐富,目前也還在不斷更新中:
所以,訊飛大模型是否和 ChatGPT 一樣,用了 RLHF 呢?它自己的回答竟然是沒有:
那麽接下來,是關于模型參數量的問題,這裏訊飛大模型回答得也比較模糊。
而且,給出的模型參數量竟然隻有數億個?(要知道,GPT-2 模型參數量都有 15 億)
最後,是關于模型能否聯網的問題。
看起來,它還不會實時聯網,關于網易和暴雪的新聞隻能追溯到幾年前的消息:
用戶也不能通過指令直接讓它訪問某個網站,查詢特定信息,應該是加了某些限制:
不過有意思的是,它還是聲稱自己需要聯網工作,以訪問特定信息數據:
據訊飛星火認知大模型介紹,目前它的訓練數據還在繼續更新。
換而言之,就是還在繼續叠代,估計在正式發布前還會更新一版模型。
目前來看,科大訊飛的這個訊飛星火認知大模型,表現已算不錯。
而且要知道,訊飛原計劃給出的交卷時間是5 月 6 日,現在突然發布内測,相當于不僅沒跳票,還 " 反向跳票 " 了一波。
這樣來看,除了科大訊飛在這 NLP 和認知智能方面确實有很深的技術積累以外,也說明,訊飛的技術和工程團隊實戰能力值得關注一波——不僅能打硬仗,而且 " 說到做到 "。
現在距離正式發布還有 10 天,你期待訊飛的大模型叠代出什麽新效果?