AI大模型入職科技媒體：文心與豆包表現突出，但全都沒過試用期

臨近年末，各大手機品牌新機新機陸續發布，一場接着一場的發布會導緻我們加班成了常态。疲憊之時小雷突然想到，或許我們可以用生成式 AI 撰寫一些信息量較多，無需過多解讀的文章，以緩解工作疲勞。

但在真正使用生成式 AI 幫助我們工作之前，自然要對比測試一下當前行業人氣比較高的幾款 AI 大模型，看看它們是否真的可以完成我們的工作。

考慮到現階段生成式 AI 不少可以免費使用，部分需付費使用，公平起見，小雷選擇了豆包、Kimi、訊飛星火三款免費 AI 大模型，以及文心一言可免費使用的文心 3.5 版本和免費版 GPT-4o。測試流程方面，小雷準備了三重考驗，包括總結能力、文章撰寫能力，以及圖片生成能力。

閑話不多說，咱們直接進入正題。

今天幾乎所有 AI 都加入了文檔總結能力，因而小雷感覺，隻是對新手機的發布會文檔進行總結，難度似乎有點低。于是，小雷找到了之前看過的小紅書《潮流數碼白皮書》PDF 文件，該文件約有 2 萬字，深度剖析了小紅書平台潮流數碼的現狀、發展趨勢，并給數碼家電品牌提出了相應的營銷建議。

分析一份大小超過 30MB 的文件，對于這幾款 AI 大模型都是挑戰。

豆包：數據紮實，深入内容剖析

作爲字節跳動開發的 AI 大模型，豆包擁有龐大的文章數據庫可用于訓練，也是當前小雷常用的 AI 助手之一。豆包将《潮流數碼白皮書》總結出核心觀點、小紅書數碼行業現狀、潮流數碼人群與趨勢、營銷解決方案、未來展望五大闆塊。

（圖源：豆包截圖）

其中最爲關鍵的營銷解決方案闆塊，豆包還點出了應當抓住對應的時間節點進行營銷，這是其他所有 AI 大模型都未能做到的事。盡管仍遺失了不少信息，但豆包總結出的内容明顯優于其他幾款 AI 大模型。

訊飛星火：精煉簡潔，關鍵信息缺失

訊飛星火與豆包的風格完全不同，豆包的總結大而全，訊飛星火的總結則極爲精簡，全文加起來的字數都沒有豆包總結出的營銷解決方案一個闆塊多。

（圖源：訊飛星火截圖）

字數多雖不一定好，但兩萬多字的文件，總結到五百多字，難免要舍棄大量内容。事實也正是如此，訊飛星火總結出的内容過于簡練，看不到太多有用信息，也沒有明确的分析，整體顯得過于籠統。

Kimi：車轱辘話多，大廠味濃濃？

第三個進行測試的是 Kimi，對于《潮流數碼白皮書》，Kimi 足足總結出了八大闆塊，但每一個闆塊的字數都不多，有點淺嘗辄止的意味。而且與訊飛星火相同，Kimi 也沒有總結出任何數據，有點大廠打工人開會的感覺，主打一個 " 不說人話 "。

（圖源：Kimi 截圖）

嚴格來說，Kimi 總結出的内容更像是一份大綱，可以根據其填補缺失的部分，但對于我們了解 PDF 的内容，沒有太多幫助。

文心 3.5：滿屏小标題，有效信息少

如果說 Kimi 總結出的結果是一份大綱，那麽文心 3.5 總結出的内容則像是文章的标題和小标題，一句又一句的短語，有效信息卻不多，能夠總結出數碼行業人群資産規模情況是少有亮點。

（圖源：文心一言截圖）

GPT-4o：我不支持解析 PDF

前面幾款 AI 大模型無論總結的結果如何，但至少給出了一個答案，GPT-4o 卻直接顯示無法查看和處理 PDF 文件。

（圖源：ChatGPT 截圖）

ChatGPT 幾乎是公認的最強 LLM（大語言模型），卻無法查看和處理 PDF 文件，着實令小雷有些失望。

小結：車轱辘話來回轉，準确信息看不見

本以爲内容總結是 AI 大模型的基礎功能，豆包、訊飛星火、Kimi、文心 3.5，以及 GPT-4o 的表現卻令小雷大失所望。豆包總結的内容有數據有分析，勉強能夠達到及格分，其他幾款 AI 大模型交上的答卷不說是 0 分，也沒高出太多。

AI 大模型對于《潮流數碼白皮書》的總結，普遍是車轱辘話來回轉，鮮有話語能夠落到實處。例如營銷布局部分，PDF 統計了不同産品的最佳營銷節點，暑期畢業季打遊戲和旅遊人群多，适合營銷台式機和攝像機；女生喜歡拍照和音樂，38 女王節則适合營銷數碼相機和藍牙耳機。在評測的幾款 AI 大模型中，隻有豆包提到了一些相關内容，

（圖源：《潮流數碼白皮書》截圖）

在本輪評測中，豆包的表現無疑是最好的，訊飛星火、Kimi、文心 3.5 三款大模型，雖沒能總結出太多有價值的信息，但至少輸出了内容，表現可列爲第二檔，被寄予厚望的 GPT-4o，表現則遜色不少。

當然，總結功能不過是開胃菜，對于其他文章的總結能力不足，不代表撰寫的文章的能力不行。

爲了凸顯出編輯撰寫和 AI 生成的差距，小雷挑選了雷科技小夥伴撰寫 iQOO Z9 Turbo+ 發布會文章作爲對比。該手機發布至今已有一段時間，網絡上的相關文章不少，AI 能夠輕松找到素材，相對而言更簡單一些。

首先看看雷科技小夥伴撰寫的資訊報道，該文章邏輯清晰，将 iQOO Z9 Turbo+ 的硬件配置、遊戲幀率、産品亮點、價格完整羅列，并對其競争力進行了分析。

（圖源：雷科技文章截圖）

受限于篇幅與時效性要求，雷科技小夥伴撰寫的這篇資訊報道并未深入解析與體驗産品，但消費者希望能夠了解到的信息，基本完整闡述。

撰寫文章是生成式 AI 的基礎功能之一，豆包、訊飛星火、文心 3.5 等 AI 大模型還提供寫作類型或風格可選，以幫助用戶快捷創作文章。

閑話不多說，咱們來看看 AI 大模型撰寫這一款産品的發布會報道（由于 iQOO Z9 Turbo+ 已發布相當長一段時間，網絡上的資料已十分充沛，能不能寫好就看大模型的技術實力了。）

豆包：信息詳實，邏輯清晰，原創度超 50%

豆包撰寫的文章比雷科技小夥伴所寫的内容更長，條理同樣清晰，外觀設計、性能、散熱、屏幕、電池、影像、價格每一部分都單獨列了出來，并加上了小标題。該文章不但配置細節相對豐富，而且沒有出現錯誤。值得一提的是，價格環節雷科技小夥伴報道稱 iQOO Z9 Turbo+ 12GB+256GB 首發價格爲 2199 元，但實際上如豆包撰寫文章所言，應該是 2299 元，首銷特價 2199 元。

小雷使用某自媒體工具對該文章進行了原創度檢測，查詢到該文章的原創度爲 50.56%。一般來說，自媒體平台會要求文章原創度在 70% 以上，但考慮到該文章爲資訊報道，内容包含了大量參數信息，原創度能夠達到 50% 左右，實際上已經不低了。就算是雷科技小夥伴自己寫的文章，該工具檢測顯示原創度也在 50% 左右。

（圖源：自媒體工具截圖）

豆包撰寫的發布會報道，配置信息、價格、時間沒有錯漏，查重率能夠達到 50% 左右，是一篇合格的文章。不過文章段落之間的轉折略顯生硬，且沒有見解和分析，與雷科技小夥伴創作的内容有一些差距。

訊飛星火：文章簡練，信息紮實，但條理不夠清晰

與總結部分相同，訊飛星火大模型創作的文章依然較爲簡練，正文内容約 700 字，不到豆包撰寫文章的一半。不過這篇文章内容也足夠紮實，隻是電池容量數據出現了錯漏，比真實容量低 400mAh，而且文章條理性不如豆包撰寫的文章那麽清晰。

查重率方面，自媒體工具檢測顯示，訊飛星火文章原創值爲 61.02%，比豆包撰寫的文章更高。有意思的是，這些 AI 大模型似乎格外喜歡 " 震撼 " 二字，訊飛星火拟定的标題也帶有這兩個字，并被自媒體工具檢測爲違禁詞。

（圖源：自媒體工具截圖）

站在編輯的角度，小雷認爲訊飛星火撰寫的文章較爲精煉，并不比豆包撰寫的文章差，而且原創度更高。可惜電池容量數據出現了小纰漏，如果使用訊飛星火寫文章，最好自己詳細檢查和對比參數數據，避免文中出現錯誤。

Kimi：錯誤信息較多，AI 風過于濃烈

Kimi 是小雷平時使用最多的 AI 助手，但這一次它太讓我失望了。Kimi 所撰寫的 iQOO Z9 Turbo+ 發布會，沒有注明發布會時間，開售時間錯誤，處理器、電池、快充功率、價格等數據，一項對的都沒有。連數據都錯誤連篇，其他語法、結構根本沒有看的必要了。

該文章的原創度達到了 58.52%，倒是不算低。然而轉念一想，本應充滿參數的發布會報道，從硬件配置到價格到處都是錯誤，原創度居然未能達到 70% 以上，顯然問題很嚴重。

毫無疑問，Kimi 撰寫這篇文章不合格，發布會報道最重要的硬件參數出現了太多錯誤，甚至在其基礎上大改，都不如自己重寫一篇報道。

文心 3.5：交出高分作文，我願稱之爲最強

百度是當前國内圖文資訊平台巨頭之一，用于訓練的數據同樣豐富。在前面三款 AI 大模型撰寫的文章中，豆包略勝一籌，文心 3.5 所撰寫的文章，在小雷看來比豆包還要強一些。

文心 3.5 創作的 iQOO Z9 Turbo+ 發布會報道全文不到 1200 字，沒有通過小标題分段，文章緊湊且數據沒有明顯錯誤，也點出了 12GB+256GB 限時特惠價格。文心 3.5 創作的内容亮點在于 AI 味沒有那麽濃，行文很像真人撰寫，除了言辭略顯軟文風格和沒有任何分析外，其他做方面都不錯。

（圖源：文心一言截圖）

原創度方面，該文章達到了 57.77%，同樣優于豆包創作的文章。另外，文心 3.5 拟定的标題沒有 " 震撼 " 二字，自媒體工具也沒有檢測出任何可能存在違規情況的詞語。

作爲國内用戶數量最多的搜索引擎和頭部圖文資訊平台，百度技術實力、訓練數據量領先絕大多數 AI 公司，文心 3.5 的表現也沒有辱沒百度，所撰寫的發布會報道可以當作原創文章發布。

GPT-4o：内容極度敷衍，水土嚴重不服

互聯網一直流傳着一個說法，中國網民數量雖世界第一，但貢獻的信息隻占互聯網的不到 1.5%。事實上，這是因爲該數據隻統計了不包含中國大陸地區的互聯網信息，海外互聯網中文信息太少。正因如此，用于給 ChatGPT 訓練的數據也不多。

免費版 GPT-4o 撰寫 iQOO Z9 Turbo+ 發布會報道之時，就出現了水土不服的情況，數據錯亂不堪，而且内容字數不多，隻有簡單的介紹，甚至不如 Kimi 撰寫的文章，完全沒有查重的意義。

小結：撰寫發布會報道，AI 已達科技編輯實習生水平

這幾款 AI 大模型的表現證明，盡管 AI 缺乏真正的邏輯推理能力，寫長文和分析類内容較爲吃力，但在信息量充足的情況下，創作發布會報道已不是問題。小雷建議媒體老師參加發布會不要發通稿了，至少可以用 AI 創作一番。

不過，AI 撰寫的文章風格和邏輯性與編輯仍有差距，暫時無法代替專業編輯完成更多任務。像雷科技編輯參加發布會，重點産品必須要輸出大幾千字的長文解讀，包括發布會基礎信息、高管發言解析、現場産品體驗、現場反饋觀察，以及深入産品對背後的技術、公司、品類和行業深入解析，這些是目前的 AI 做不到的。

AI 大模型之間的差距也十分明顯，本輪測試中文心 3.5 和豆包表現出色，創作的内容行文通暢，也沒有明顯的數據錯誤，可并列第一梯隊。訊飛星火延續了精煉的風格，字數雖然不多，但該有的都有了，雖然有一些數據錯誤，但并不多，大多數數據依然準确，位列第二梯隊。

Kimi 以長文本生成與解析能力著稱，不過似乎不太擅長撰寫文章，出現了較爲嚴重的數據錯誤，GPT-4o 因水土不服，撰寫中文報道問題較爲嚴重，加錢升級至 ChatGPT Plus 才能享受到更好的服務，這兩款大模型在本輪測試中位列第三梯隊。

在日常工作中，AI 大模型對于我們而言，除了幫忙檢查文章的錯别字、語病等問題，還有一項實用的功能—— AI 繪圖。因此，小雷特地加入了繪圖測試環節。

因擔心版權糾紛，雷科技小夥伴爲文章配圖時極其謹慎，但很多文章配圖較爲麻煩，因而小雷經常使用 AI 生成圖片。

最開始小雷本想使用 AI 生成一張 iQOO Z9 Turbo+ 的圖片，結果所有 AI 大模型都不能準确生成指定機型，即便互聯網上已有不少該機型的圖片。小雷隻好将限定語定爲 "一個人捧着手機打遊戲"，突出使用手機的場景，淡化具體手機型号，用于文章封面。

（因不支持繪圖功能，Kimi 不參與本輪測試。）

豆包：未能正确理解遊戲與手機

在前幾輪取得了優異成績的豆包，本輪測試卻有點離譜，似乎無法正确理解 " 手機 " 和 " 遊戲 "，所繪制的圖，都是拿着遊戲手柄，而且手指存在不協調的情況。

豆包繪圖功能提供的選項較爲豐富，可選擇不同風格，小雷又用人像攝影風格試了一次，結果給出的圖片風格換了，但圖片中的人手中握着的依然是遊戲手柄或者畸形的手機。

在理解自然語言和繪圖方面，豆包的表現并不出色，但提供的繪圖後期處理功能爲其扳回一分。AI 生成的圖片基本爲 1:1 比例，即便在描述中加了比例限定詞，生成的圖片還是 1:1，不适合用作文章配圖和封面。豆包加入了區域重繪、擴圖、擦除等功能，可以對圖片進行一定程度的修改，例如小雷就使用擴圖功能，将 1:1 的圖片擴充至 16:9，更适合用來做文章封面。

盡管有這些功能，本輪測試小雷依然無法給豆包打高分，畢竟識别自然語言并繪制出我們想要的圖才是最重要的功能，後期修改有太多工具可以實現。

訊飛星火：正确生成圖片，自定義能力不足

在前幾輪的測試中，訊飛星火表現中規中矩，但本輪測試訊飛星火卻拿到了高分，所繪制的圖片接近我理想中的結果，最容易出錯的手指處也沒有太嚴重的不協調。

遺憾的是，訊飛繪畫大師智能體提供沒有提供創作風格可選，也沒有後期處理功能，以至于文章的比例不适合用于文章配圖，且未能突出 " 捧着手機打遊戲 " 的主題。如果想要将這張圖處理成封面，還需要其他應用的介入。

文心 3.5：完全可用，" 盛名之下無虛士 "

與豆包、訊飛星火生成的圖片相比，文心 3.5 繪制圖片更符合小雷的預期。

首先，其他幾款圖片的手機都顯現出了背面，可背面結構較爲複雜，非常容易出錯，而且用戶能夠一眼看出圖片是不是文章提到的手機，文心 3.5 則突出了手機的正面，用戶難以分辨這是哪一款機型。

其次，訊飛星火生成的圖片重點落在了全景，文心 3.5 繪制的圖片則聚焦手機主體，突出了 " 捧着手機打遊戲 " 這一主題。唯一遺憾的是，手機屏幕沒有顯示遊戲畫面。

文心 3.5 同樣沒有提供風格選項和後期處理功能，期待文心 3.5 可以後續豐富一下繪圖功能，爲用戶文章配圖提供更多便利。

GPT-4o：機身、屏幕全亂套，繪圖如此拉胯？

AI 繪制手機圖片時最大的問題在于背面的設計元素細節混亂，但 GPT-4o 給出的結果，比小雷預想中更離譜，因爲它将本該是手機背面的區域，繪制成了手機屏幕……

隻能說，ChatGPT 并不是萬能的，無論是撰寫文章還是制作圖片，都可能出現各種問題。GPT-4o 本身也沒有提供後期處理功能和風格選擇，看來除了部分專業 AI 制圖軟件，如豆包一般提供圖片豐富風格選擇和後期功能的 AI 大模型并不多。

最後說一下圖片的分辨率，雷科技配圖對于圖片的清晰度和分辨率都有一定的要求，封面圖的要求就更高了。這四款大模型中，訊飛星火和 GPT-4o 繪制的圖片分辨率爲 1024 × 1024，清晰度明顯較高，文心 3.5 繪制的圖片分辨率則爲 769 × 768，分辨率最低，無法用作雷科技文章封面。

豆包生成的圖片原圖也是 1024 × 1024，但可以使用擴圖和重繪功能進行修改，例如小雷将圖片擴圖爲 16:9 後，分辨率就變成了 1820 × 1024。

小結：繪圖不如撰文成熟，改進空間都不小

繪圖功能是 AI 大模型的基礎功能之一，也是長期圍繞着 AI 大模型的難題，從結果來看，AI 大模型細節方面依然有所欠缺，如豆包未能正确理解限定詞，GPT-4o 将手機背面區域繪制成了屏幕等等。但我們也能看出 AI 的進步，曾被用于分辨 AI 和真人繪畫的手指部分，AI 作圖的和諧性越來越高，很少再出現多一根或少一根手指的情況。

當我将訊飛星火繪制的圖片上傳至其他 AI 大模型，測試是否能夠調整爲 16:9 比例時，發現所有 AI 大模型都無法準确識别指令，訊飛星火更是稱圖片已是 16:9 比例，豆包則基于該圖片重繪了一張 1:1 的圖片，似乎所有 AI 大模型都無法準确識别圖片比例或難以根據指定比例繪圖，這點也急需改進。

（圖源：豆包 AI 截圖）

大多數 AI 大模型隻提供繪圖功能，沒有相應的模闆和後期處理功能，很難穩定爲文章繪制配圖和封面，這幾款 AI 大模型的繪圖功能仍有較大提升空間。

經過三輪測試，小雷認爲，目前 AI 倘若 " 入職 " 任何一家科技媒體，恐怕都很難通過試用期，雖說部分工作偶爾可以達到實習生水平，但大體上距離一位合格的編輯還有較大差距。

一位合格的科技媒體編輯，至少需要以下能力：

有極強的信息獲取、甄别、篩選、提煉能力；

快速創作内容，對發布會進行報道，在真實場景對産品進行體驗，再提出自己的看法、行業觀察，以及深入淺出的技術解析；

具備一定的編輯能力，可通過配圖、排版提高文章的可讀性，增加讀者的用戶體驗。

現在看來，AI 要做好其中任何一項工作都很難。

在這三輪測試中，最令小雷意想不到的是第一輪測試，總結 PDF 重點内容，理論上是最簡單的任務，可沒有一款 AI 大模型可以達到高分，普遍是車轱辘話來回轉。第二輪測試是平均表現最好的一輪，隻有 Kimi 和 GPT-4o 出現了較爲嚴重的問題。

而第三輪測試中，訊飛星火和文心 3.5 表現較好，其他兩款繪制出的圖片都存在明顯缺陷。然而文心 3.5 繪制出的圖片分辨率太低，訊飛星火未能突出主體，隻能算高分，卻拿不到滿分。

三輪測試下來，綜合表現最好的是文心 3.5 和豆包，其次則是訊飛星火，Kimi 和 GPT-4o 則表現相對較差。當然，本次測試并不能代表文心一言和 ChatGPT 的全部實力，這兩款大模型都有付費版，掏錢才能享受更好的體驗。

總而言之，AI 大模型已經擁有了撰寫發布會文章的能力，但訊飛星火的數據錯誤表明，哪怕真的用 AI 大模型創作文章，也要有編輯加以審核和整理，避免出現數據信息錯漏。而面對較長的文案，AI 大模型給出的内容很可能會像總結出的文檔一樣，車轱辘話亂轉，卻說不到實處。

（圖源：豆包生成）

2022 年底 AI 大模型才爆火，至今不過兩年時間，從最初一片嘲笑之聲，到現在越來越多人接受了 AI 大模型，并将其作爲提高工作效率的幫手，AI 大模型的進步肉眼可見。如小雷就經常使用豆包 AI 生成圖片，用 Kimi 幫忙檢查文章。

兩年時間能取得如此驚人的進步，也讓小雷對 AI 更有信心。隻是 AI 不具備真正的推理能力這一問題，可能會成爲阻礙 AI 功能發展的進步。

在《GSM-Symbolic: 理解大型語言模型數學推理的局限性》論文中，研究人員稱 AI 大模型隻能套用訓練數據的模式解決問題，一旦出現嚴重的數據污染，AI 大模型回答問題的準确度就可能大幅下降。

至少以現在的眼光來看，AI 大模型雖然可以不斷進步，但完全取代編輯撰寫文章仍是不可能的。唯有真正賦予 AI 推理能力，才能讓 AI 告别套用現有模式，用 " 思考 " 去解決問題。