臨近年末,各大手機品牌新機新機陸續發布,一場接着一場的發布會導緻我們加班成了常态。疲憊之時小雷突然想到,或許我們可以用生成式 AI 撰寫一些信息量較多,無需過多解讀的文章,以緩解工作疲勞。
但在真正使用生成式 AI 幫助我們工作之前,自然要對比測試一下當前行業人氣比較高的幾款 AI 大模型,看看它們是否真的可以完成我們的工作。
考慮到現階段生成式 AI 不少可以免費使用,部分需付費使用,公平起見,小雷選擇了豆包、Kimi、訊飛星火三款免費 AI 大模型,以及文心一言可免費使用的文心 3.5 版本和免費版 GPT-4o。測試流程方面,小雷準備了三重考驗,包括總結能力、文章撰寫能力,以及圖片生成能力。
閑話不多說,咱們直接進入正題。
今天幾乎所有 AI 都加入了文檔總結能力,因而小雷感覺,隻是對新手機的發布會文檔進行總結,難度似乎有點低。于是,小雷找到了之前看過的小紅書《潮流數碼白皮書》PDF 文件,該文件約有 2 萬字,深度剖析了小紅書平台潮流數碼的現狀、發展趨勢,并給數碼家電品牌提出了相應的營銷建議。
分析一份大小超過 30MB 的文件,對于這幾款 AI 大模型都是挑戰。
豆包:數據紮實,深入内容剖析
作爲字節跳動開發的 AI 大模型,豆包擁有龐大的文章數據庫可用于訓練,也是當前小雷常用的 AI 助手之一。豆包将《潮流數碼白皮書》總結出核心觀點、小紅書數碼行業現狀、潮流數碼人群與趨勢、營銷解決方案、未來展望五大闆塊。
(圖源:豆包截圖)
其中最爲關鍵的營銷解決方案闆塊,豆包還點出了應當抓住對應的時間節點進行營銷,這是其他所有 AI 大模型都未能做到的事。盡管仍遺失了不少信息,但豆包總結出的内容明顯優于其他幾款 AI 大模型。
訊飛星火:精煉簡潔,關鍵信息缺失
訊飛星火與豆包的風格完全不同,豆包的總結大而全,訊飛星火的總結則極爲精簡,全文加起來的字數都沒有豆包總結出的營銷解決方案一個闆塊多。
(圖源:訊飛星火截圖)
字數多雖不一定好,但兩萬多字的文件,總結到五百多字,難免要舍棄大量内容。事實也正是如此,訊飛星火總結出的内容過于簡練,看不到太多有用信息,也沒有明确的分析,整體顯得過于籠統。
Kimi:車轱辘話多,大廠味濃濃?
第三個進行測試的是 Kimi,對于《潮流數碼白皮書》,Kimi 足足總結出了八大闆塊,但每一個闆塊的字數都不多,有點淺嘗辄止的意味。而且與訊飛星火相同,Kimi 也沒有總結出任何數據,有點大廠打工人開會的感覺,主打一個 " 不說人話 "。
(圖源:Kimi 截圖)
嚴格來說,Kimi 總結出的内容更像是一份大綱,可以根據其填補缺失的部分,但對于我們了解 PDF 的内容,沒有太多幫助。
文心 3.5:滿屏小标題,有效信息少
如果說 Kimi 總結出的結果是一份大綱,那麽文心 3.5 總結出的内容則像是文章的标題和小标題,一句又一句的短語,有效信息卻不多,能夠總結出數碼行業人群資産規模情況是少有亮點。
(圖源:文心一言截圖)
GPT-4o:我不支持解析 PDF
前面幾款 AI 大模型無論總結的結果如何,但至少給出了一個答案,GPT-4o 卻直接顯示無法查看和處理 PDF 文件。
(圖源:ChatGPT 截圖)
ChatGPT 幾乎是公認的最強 LLM(大語言模型),卻無法查看和處理 PDF 文件,着實令小雷有些失望。
小結:車轱辘話來回轉,準确信息看不見
本以爲内容總結是 AI 大模型的基礎功能,豆包、訊飛星火、Kimi、文心 3.5,以及 GPT-4o 的表現卻令小雷大失所望。豆包總結的内容有數據有分析,勉強能夠達到及格分,其他幾款 AI 大模型交上的答卷不說是 0 分,也沒高出太多。
AI 大模型對于《潮流數碼白皮書》的總結,普遍是車轱辘話來回轉,鮮有話語能夠落到實處。例如營銷布局部分,PDF 統計了不同産品的最佳營銷節點,暑期畢業季打遊戲和旅遊人群多,适合營銷台式機和攝像機;女生喜歡拍照和音樂,38 女王節則适合營銷數碼相機和藍牙耳機。在評測的幾款 AI 大模型中,隻有豆包提到了一些相關内容,
(圖源:《潮流數碼白皮書》截圖)
在本輪評測中,豆包的表現無疑是最好的,訊飛星火、Kimi、文心 3.5 三款大模型,雖沒能總結出太多有價值的信息,但至少輸出了内容,表現可列爲第二檔,被寄予厚望的 GPT-4o,表現則遜色不少。
當然,總結功能不過是開胃菜,對于其他文章的總結能力不足,不代表撰寫的文章的能力不行。
爲了凸顯出編輯撰寫和 AI 生成的差距,小雷挑選了雷科技小夥伴撰寫 iQOO Z9 Turbo+ 發布會文章作爲對比。該手機發布至今已有一段時間,網絡上的相關文章不少,AI 能夠輕松找到素材,相對而言更簡單一些。
首先看看雷科技小夥伴撰寫的資訊報道,該文章邏輯清晰,将 iQOO Z9 Turbo+ 的硬件配置、遊戲幀率、産品亮點、價格完整羅列,并對其競争力進行了分析。
(圖源:雷科技文章截圖)
受限于篇幅與時效性要求,雷科技小夥伴撰寫的這篇資訊報道并未深入解析與體驗産品,但消費者希望能夠了解到的信息,基本完整闡述。
撰寫文章是生成式 AI 的基礎功能之一,豆包、訊飛星火、文心 3.5 等 AI 大模型還提供寫作類型或風格可選,以幫助用戶快捷創作文章。
閑話不多說,咱們來看看 AI 大模型撰寫這一款産品的發布會報道(由于 iQOO Z9 Turbo+ 已發布相當長一段時間,網絡上的資料已十分充沛,能不能寫好就看大模型的技術實力了。)
豆包:信息詳實,邏輯清晰,原創度超 50%
豆包撰寫的文章比雷科技小夥伴所寫的内容更長,條理同樣清晰,外觀設計、性能、散熱、屏幕、電池、影像、價格每一部分都單獨列了出來,并加上了小标題。該文章不但配置細節相對豐富,而且沒有出現錯誤。值得一提的是,價格環節雷科技小夥伴報道稱 iQOO Z9 Turbo+ 12GB+256GB 首發價格爲 2199 元,但實際上如豆包撰寫文章所言,應該是 2299 元,首銷特價 2199 元。
小雷使用某自媒體工具對該文章進行了原創度檢測,查詢到該文章的原創度爲 50.56%。一般來說,自媒體平台會要求文章原創度在 70% 以上,但考慮到該文章爲資訊報道,内容包含了大量參數信息,原創度能夠達到 50% 左右,實際上已經不低了。就算是雷科技小夥伴自己寫的文章,該工具檢測顯示原創度也在 50% 左右。
(圖源:自媒體工具截圖)
豆包撰寫的發布會報道,配置信息、價格、時間沒有錯漏,查重率能夠達到 50% 左右,是一篇合格的文章。不過文章段落之間的轉折略顯生硬,且沒有見解和分析,與雷科技小夥伴創作的内容有一些差距。
訊飛星火:文章簡練,信息紮實,但條理不夠清晰
與總結部分相同,訊飛星火大模型創作的文章依然較爲簡練,正文内容約 700 字,不到豆包撰寫文章的一半。不過這篇文章内容也足夠紮實,隻是電池容量數據出現了錯漏,比真實容量低 400mAh,而且文章條理性不如豆包撰寫的文章那麽清晰。
查重率方面,自媒體工具檢測顯示,訊飛星火文章原創值爲 61.02%,比豆包撰寫的文章更高。有意思的是,這些 AI 大模型似乎格外喜歡 " 震撼 " 二字,訊飛星火拟定的标題也帶有這兩個字,并被自媒體工具檢測爲違禁詞。
(圖源:自媒體工具截圖)
站在編輯的角度,小雷認爲訊飛星火撰寫的文章較爲精煉,并不比豆包撰寫的文章差,而且原創度更高。可惜電池容量數據出現了小纰漏,如果使用訊飛星火寫文章,最好自己詳細檢查和對比參數數據,避免文中出現錯誤。
Kimi:錯誤信息較多,AI 風過于濃烈
Kimi 是小雷平時使用最多的 AI 助手,但這一次它太讓我失望了。Kimi 所撰寫的 iQOO Z9 Turbo+ 發布會,沒有注明發布會時間,開售時間錯誤,處理器、電池、快充功率、價格等數據,一項對的都沒有。連數據都錯誤連篇,其他語法、結構根本沒有看的必要了。
該文章的原創度達到了 58.52%,倒是不算低。然而轉念一想,本應充滿參數的發布會報道,從硬件配置到價格到處都是錯誤,原創度居然未能達到 70% 以上,顯然問題很嚴重。
毫無疑問,Kimi 撰寫這篇文章不合格,發布會報道最重要的硬件參數出現了太多錯誤,甚至在其基礎上大改,都不如自己重寫一篇報道。
文心 3.5:交出高分作文,我願稱之爲最強
百度是當前國内圖文資訊平台巨頭之一,用于訓練的數據同樣豐富。在前面三款 AI 大模型撰寫的文章中,豆包略勝一籌,文心 3.5 所撰寫的文章,在小雷看來比豆包還要強一些。
文心 3.5 創作的 iQOO Z9 Turbo+ 發布會報道全文不到 1200 字,沒有通過小标題分段,文章緊湊且數據沒有明顯錯誤,也點出了 12GB+256GB 限時特惠價格。文心 3.5 創作的内容亮點在于 AI 味沒有那麽濃,行文很像真人撰寫,除了言辭略顯軟文風格和沒有任何分析外,其他做方面都不錯。
(圖源:文心一言截圖)
原創度方面,該文章達到了 57.77%,同樣優于豆包創作的文章。另外,文心 3.5 拟定的标題沒有 " 震撼 " 二字,自媒體工具也沒有檢測出任何可能存在違規情況的詞語。
作爲國内用戶數量最多的搜索引擎和頭部圖文資訊平台,百度技術實力、訓練數據量領先絕大多數 AI 公司,文心 3.5 的表現也沒有辱沒百度,所撰寫的發布會報道可以當作原創文章發布。
GPT-4o: 内容極度敷衍,水土嚴重不服
互聯網一直流傳着一個說法,中國網民數量雖世界第一,但貢獻的信息隻占互聯網的不到 1.5%。事實上,這是因爲該數據隻統計了不包含中國大陸地區的互聯網信息,海外互聯網中文信息太少。正因如此,用于給 ChatGPT 訓練的數據也不多。
免費版 GPT-4o 撰寫 iQOO Z9 Turbo+ 發布會報道之時,就出現了水土不服的情況,數據錯亂不堪,而且内容字數不多,隻有簡單的介紹,甚至不如 Kimi 撰寫的文章,完全沒有查重的意義。
小結:撰寫發布會報道,AI 已達科技編輯實習生水平
這幾款 AI 大模型的表現證明,盡管 AI 缺乏真正的邏輯推理能力,寫長文和分析類内容較爲吃力,但在信息量充足的情況下,創作發布會報道已不是問題。小雷建議媒體老師參加發布會不要發通稿了,至少可以用 AI 創作一番。
不過,AI 撰寫的文章風格和邏輯性與編輯仍有差距,暫時無法代替專業編輯完成更多任務。像雷科技編輯參加發布會,重點産品必須要輸出大幾千字的長文解讀,包括發布會基礎信息、高管發言解析、現場産品體驗、現場反饋觀察,以及深入産品對背後的技術、公司、品類和行業深入解析,這些是目前的 AI 做不到的。
AI 大模型之間的差距也十分明顯,本輪測試中文心 3.5 和豆包表現出色,創作的内容行文通暢,也沒有明顯的數據錯誤,可并列第一梯隊。訊飛星火延續了精煉的風格,字數雖然不多,但該有的都有了,雖然有一些數據錯誤,但并不多,大多數數據依然準确,位列第二梯隊。
Kimi 以長文本生成與解析能力著稱,不過似乎不太擅長撰寫文章,出現了較爲嚴重的數據錯誤,GPT-4o 因水土不服,撰寫中文報道問題較爲嚴重,加錢升級至 ChatGPT Plus 才能享受到更好的服務,這兩款大模型在本輪測試中位列第三梯隊。
在日常工作中,AI 大模型對于我們而言,除了幫忙檢查文章的錯别字、語病等問題,還有一項實用的功能—— AI 繪圖。因此,小雷特地加入了繪圖測試環節。
因擔心版權糾紛,雷科技小夥伴爲文章配圖時極其謹慎,但很多文章配圖較爲麻煩,因而小雷經常使用 AI 生成圖片。
最開始小雷本想使用 AI 生成一張 iQOO Z9 Turbo+ 的圖片,結果所有 AI 大模型都不能準确生成指定機型,即便互聯網上已有不少該機型的圖片。小雷隻好将限定語定爲 "一個人捧着手機打遊戲",突出使用手機的場景,淡化具體手機型号,用于文章封面。
(因不支持繪圖功能,Kimi 不參與本輪測試。)
豆包:未能正确理解遊戲與手機
在前幾輪取得了優異成績的豆包,本輪測試卻有點離譜,似乎無法正确理解 " 手機 " 和 " 遊戲 ",所繪制的圖,都是拿着遊戲手柄,而且手指存在不協調的情況。
豆包繪圖功能提供的選項較爲豐富,可選擇不同風格,小雷又用人像攝影風格試了一次,結果給出的圖片風格換了,但圖片中的人手中握着的依然是遊戲手柄或者畸形的手機。
在理解自然語言和繪圖方面,豆包的表現并不出色,但提供的繪圖後期處理功能爲其扳回一分。AI 生成的圖片基本爲 1:1 比例,即便在描述中加了比例限定詞,生成的圖片還是 1:1,不适合用作文章配圖和封面。豆包加入了區域重繪、擴圖、擦除等功能,可以對圖片進行一定程度的修改,例如小雷就使用擴圖功能,将 1:1 的圖片擴充至 16:9,更适合用來做文章封面。
盡管有這些功能,本輪測試小雷依然無法給豆包打高分,畢竟識别自然語言并繪制出我們想要的圖才是最重要的功能,後期修改有太多工具可以實現。
訊飛星火:正确生成圖片,自定義能力不足
在前幾輪的測試中,訊飛星火表現中規中矩,但本輪測試訊飛星火卻拿到了高分,所繪制的圖片接近我理想中的結果,最容易出錯的手指處也沒有太嚴重的不協調。
遺憾的是,訊飛繪畫大師智能體提供沒有提供創作風格可選,也沒有後期處理功能,以至于文章的比例不适合用于文章配圖,且未能突出 " 捧着手機打遊戲 " 的主題。如果想要将這張圖處理成封面,還需要其他應用的介入。
文心 3.5:完全可用," 盛名之下無虛士 "
與豆包、訊飛星火生成的圖片相比,文心 3.5 繪制圖片更符合小雷的預期。
首先,其他幾款圖片的手機都顯現出了背面,可背面結構較爲複雜,非常容易出錯,而且用戶能夠一眼看出圖片是不是文章提到的手機,文心 3.5 則突出了手機的正面,用戶難以分辨這是哪一款機型。
其次,訊飛星火生成的圖片重點落在了全景,文心 3.5 繪制的圖片則聚焦手機主體,突出了 " 捧着手機打遊戲 " 這一主題。唯一遺憾的是,手機屏幕沒有顯示遊戲畫面。
文心 3.5 同樣沒有提供風格選項和後期處理功能,期待文心 3.5 可以後續豐富一下繪圖功能,爲用戶文章配圖提供更多便利。
GPT-4o:機身、屏幕全亂套,繪圖如此拉胯?
AI 繪制手機圖片時最大的問題在于背面的設計元素細節混亂,但 GPT-4o 給出的結果,比小雷預想中更離譜,因爲它将本該是手機背面的區域,繪制成了手機屏幕……
隻能說,ChatGPT 并不是萬能的,無論是撰寫文章還是制作圖片,都可能出現各種問題。GPT-4o 本身也沒有提供後期處理功能和風格選擇,看來除了部分專業 AI 制圖軟件,如豆包一般提供圖片豐富風格選擇和後期功能的 AI 大模型并不多。
最後說一下圖片的分辨率,雷科技配圖對于圖片的清晰度和分辨率都有一定的要求,封面圖的要求就更高了。這四款大模型中,訊飛星火和 GPT-4o 繪制的圖片分辨率爲 1024 × 1024,清晰度明顯較高,文心 3.5 繪制的圖片分辨率則爲 769 × 768,分辨率最低,無法用作雷科技文章封面。
豆包生成的圖片原圖也是 1024 × 1024,但可以使用擴圖和重繪功能進行修改,例如小雷将圖片擴圖爲 16:9 後,分辨率就變成了 1820 × 1024。
小結:繪圖不如撰文成熟,改進空間都不小
繪圖功能是 AI 大模型的基礎功能之一,也是長期圍繞着 AI 大模型的難題,從結果來看,AI 大模型細節方面依然有所欠缺,如豆包未能正确理解限定詞,GPT-4o 将手機背面區域繪制成了屏幕等等。但我們也能看出 AI 的進步,曾被用于分辨 AI 和真人繪畫的手指部分,AI 作圖的和諧性越來越高,很少再出現多一根或少一根手指的情況。
當我将訊飛星火繪制的圖片上傳至其他 AI 大模型,測試是否能夠調整爲 16:9 比例時,發現所有 AI 大模型都無法準确識别指令,訊飛星火更是稱圖片已是 16:9 比例,豆包則基于該圖片重繪了一張 1:1 的圖片,似乎所有 AI 大模型都無法準确識别圖片比例或難以根據指定比例繪圖,這點也急需改進。
(圖源:豆包 AI 截圖)
大多數 AI 大模型隻提供繪圖功能,沒有相應的模闆和後期處理功能,很難穩定爲文章繪制配圖和封面,這幾款 AI 大模型的繪圖功能仍有較大提升空間。
經過三輪測試,小雷認爲,目前 AI 倘若 " 入職 " 任何一家科技媒體,恐怕都很難通過試用期,雖說部分工作偶爾可以達到實習生水平,但大體上距離一位合格的編輯還有較大差距。
一位合格的科技媒體編輯,至少需要以下能力:
有極強的信息獲取、甄别、篩選、提煉能力;
快速創作内容,對發布會進行報道,在真實場景對産品進行體驗,再提出自己的看法、行業觀察,以及深入淺出的技術解析;
具備一定的編輯能力,可通過配圖、排版提高文章的可讀性,增加讀者的用戶體驗。
現在看來,AI 要做好其中任何一項工作都很難。
在這三輪測試中,最令小雷意想不到的是第一輪測試,總結 PDF 重點内容,理論上是最簡單的任務,可沒有一款 AI 大模型可以達到高分,普遍是車轱辘話來回轉。第二輪測試是平均表現最好的一輪,隻有 Kimi 和 GPT-4o 出現了較爲嚴重的問題。
而第三輪測試中,訊飛星火和文心 3.5 表現較好,其他兩款繪制出的圖片都存在明顯缺陷。然而文心 3.5 繪制出的圖片分辨率太低,訊飛星火未能突出主體,隻能算高分,卻拿不到滿分。
三輪測試下來,綜合表現最好的是文心 3.5 和豆包,其次則是訊飛星火,Kimi 和 GPT-4o 則表現相對較差。當然,本次測試并不能代表文心一言和 ChatGPT 的全部實力,這兩款大模型都有付費版,掏錢才能享受更好的體驗。
總而言之,AI 大模型已經擁有了撰寫發布會文章的能力,但訊飛星火的數據錯誤表明,哪怕真的用 AI 大模型創作文章,也要有編輯加以審核和整理,避免出現數據信息錯漏。而面對較長的文案,AI 大模型給出的内容很可能會像總結出的文檔一樣,車轱辘話亂轉,卻說不到實處。
(圖源:豆包生成)
2022 年底 AI 大模型才爆火,至今不過兩年時間,從最初一片嘲笑之聲,到現在越來越多人接受了 AI 大模型,并将其作爲提高工作效率的幫手,AI 大模型的進步肉眼可見。如小雷就經常使用豆包 AI 生成圖片,用 Kimi 幫忙檢查文章。
兩年時間能取得如此驚人的進步,也讓小雷對 AI 更有信心。隻是 AI 不具備真正的推理能力這一問題,可能會成爲阻礙 AI 功能發展的進步。
在《GSM-Symbolic: 理解大型語言模型數學推理的局限性》論文中,研究人員稱 AI 大模型隻能套用訓練數據的模式解決問題,一旦出現嚴重的數據污染,AI 大模型回答問題的準确度就可能大幅下降。
至少以現在的眼光來看,AI 大模型雖然可以不斷進步,但完全取代編輯撰寫文章仍是不可能的。唯有真正賦予 AI 推理能力,才能讓 AI 告别套用現有模式,用 " 思考 " 去解決問題。