一文讀懂 AI 最新進展！打工人使用指南

2023 年 3 月，以 GPT-4 爲代表的 AI 技術掀起了一波 AI 熱，而時隔半年，AI 領域又有了很多新進展，其中有一些可能會徹底改變身爲 " 打工人 " 的生活。

下面，我們就來盤點一下這半年來，AI 領域那些最值得你關注的事情。

GPT 最大對手 Gemini 出現

2023 年 5 月，在 Google I/O 開發者大會上，谷歌 CEO 劈柴（PiChai）透露出谷歌旗下的 Deep Mind 正在訓練 Gemini（雙子星）模型。

Gemini 是專門對标 GPT-4 的大語言模型，根據半導體研究公司 SemiAnalysis 的分析，Gemini 的算力會達到 GPT-4 的 5 倍。

另外和 GPT-4 相比，Genimi 能更好地支持多模态輸入，這意味着除了文字信息，Gemini 還能處理圖片、語音信息，這讓 Gemini 用起來可能會比現在的 GPT-4 更加方便。

而且我們可能很快就能見證 Gemini 的表現。根據海外科技媒體《The Information》在 9 月 14 日的報道，Gemini 已經向一些公司開放了使用、測試的權限。可能要不了多久 Gemini 就會部署到谷歌的産品矩陣中，開始爲大衆服務。

圖源：網絡

Open AI 訓練

更加多才多藝的 "GPT-5"

當然了，面對 Gemini 這樣具有多模态能力的對手，OpenAI 也不會坐以待斃。

其實早在今年 3 月份的 GPT-4 發布會上，GPT-4 就展現出了多模态的處理能力。當時發布會上，演示者手繪了一張網頁的草圖，拍照發給 GPT-4 告訴它按這種布局做個網頁，GPT-4 立即寫出了網頁代碼。

不過在發布會結束後的實際應用中，使用者們似乎并沒有體驗到 ChatGPT 的多模态處理能力。

爲了應對谷歌的 Gemini 的挑戰，OpenAI 将 ChatGPT 和新型圖像生成模型 DALL · E-3 結合起來，讓 GPT 更加 " 多才多藝 "。在 9 月 25 日，GPT-4 版本更新之後，它也能夠處理語音和圖片信息。

比如，下面是用 DALL · E-3 和 ChatGPT 共同生成的内容。GPT 不僅能夠根據文字繪制對應的圖片，也能解釋圖片上的信息，并且根據對話對圖片進行一些修改。

DALLE3 根據文本創作的圖片

GPT 解釋爲什麽圖片中的小刺猬這麽好

按照要求 " 展現小刺猬很熱心 "DALL · E 3 生成的圖片

除了把 DALL · E-3 和 ChatGPT 結合起來，OpenAI 也開始部署 "GPT-5"。在 9 月 25 日發布的 GPT 新版本中，已經引入了語音交流和識别圖像的測試功能。

其實在今年 3 月（也就是在 GPT-4 出現之後不久），出于對信息安全、隐私等方面的擔憂，網絡上曾經掀起過一股呼籲暫緩研究 GPT-5 的浪潮。作爲 OpenAI 的 CEO，薩姆 · 奧特曼也承諾短期内不會訓練 GPT-5 模型。

根據 The Information 的報道，在 GPT-4 出現之後半年，OpenAI 已經開始研發一款新的代号 "Gobi" 的模型，這種模型在設計之初就具有多模态能力。甚至一些媒體聲稱，它有可能會是未來的 GPT-5。

微軟發布 " 打工人福利套餐 "

Microsoft Copilot

9 月 21 日，微軟發布了 Microsoft Copilot 全家桶。如果你對 Microsoft Copilot 比較陌生，那可以這麽理解，我們常用的 Word、Excel、PPT 等軟件以及 Windows 自帶的浏覽器都将獲得 GPT-4 的加持。

以我們最常用的 Word 爲例，在寫文稿的時候，你可以直接告訴 Word 一個主題，讓它自動生成一段和這個主題相關的文稿。同時，它還具備配圖功能，你甚至不需要花時間在網上找圖，直接讓它根據文字生成圖片即可。

還有 Excel，在新的 Microsoft Copilot 全家桶中，你不再需要記各種公式，也不需要在 Excel 裏編程，隻需要告訴 Excel 你的目的，它會自動替你完成寫公式、寫代碼、分析數據的工作，你隻需要等着看結果就可以了。

除此之外，在浏覽網頁的時候，你甚至可以不用詳細閱讀網頁的内容，浏覽器可以直接幫你總結出當前頁面的重要信息，幫你大大節約時間。

這可能是這半年來對打工人最 " 友好 " 的 AI 大禮包。

AI 幫助人類了解氣味

在人類的視覺、聽覺、嗅覺中，嗅覺可能比我們想象的複雜得多。

對于視覺，我們看到的顔色可以跟光的波長建立關聯，對于聽覺，聲音跟物體的振動頻率有關。而對于嗅覺，人類不僅擁有數百個嗅覺感受器，生活中常見的味道往往是由很多種類的氣味分子共同形成的，因此很難建立一個簡單又完美的數學模型。

今年 8 月發表在《科學》上的一篇論文指出，科學家通過 " 圖形神經網絡 " 的 AI 技術，識别出了氣味與成分之間的關聯，生成了氣味圖譜。依據這個圖譜，我們就可以利用已知的化合物去配置想要的味道。

更重要的是，AI 繪制的氣味地圖涵蓋了 50 萬種潛在的氣味，這意味着在 AI 的幫助下，我們可能能聞到之前從未想象過的味道。這可能會大大改變食品還有香料行業的現狀，讓我們的生活更 " 有味 "。

AI 識别氣味的過程，圖片來源：參考文獻

自動駕駛親口告訴你

自己是怎麽開車的

在 9 月 14 日，自動駕駛公司 Wayve 發布了開環自動駕駛評論器 LINGO-1。我們可以把它簡單理解成是一種自動駕駛解說器。

自動駕駛爲什麽需要配一個解說器？其實這是一項非常有趣又很重要的研究。想象一下，你在開車的時候，每做一個選擇、動作肯定是有某個依據的。比如，你覺得前面的車太慢了，同時旁邊的車道又很空很安全，于是你決定去開到旁邊的車道去超車，或者在路口你放慢了車速，是因爲這裏人比較多，你需要謹慎觀察周圍的環境。

LINGO-1 也能夠把自動駕駛汽車每一步的行爲用人們熟悉的自然語言解釋出來，還能根據人類的特定問題作出回應，比如當自動駕駛汽車停在路口的時候，你可以問它 " 你現在在觀察什麽？"；如果身邊有人在騎自行車，你也可以問自動駕駛汽車 " 你怎麽判斷你跟這個騎自行車的人保持了安全距離？"

目前 LINGO-1 的回答準确率大約隻有 60%，但 LINGO-1 的能力還在不斷提升，而且這種研究意義很大。

它能夠提高人工智能的可解釋性。過去自動駕駛汽車的很多決策對人類來說都是一個黑箱，我們不知道汽車爲什麽要變道行駛，也不知道爲什麽前面明明可以超車，它卻選擇不超車。在了解 AI 是怎麽樣做決定之後，工程師們也能更好地設計自動駕駛算法，不斷提高自動駕駛汽車的安全性。同時也能增加普通用戶對自動駕駛的理解和信任，讓人工智能做決策的過程不再是一個黑箱。

AI 在多項比賽中超越人類

8 月 30 日，一篇發表在《自然》上的文章顯示，在第一人稱視角的無人機競速項目上，AI 已經超越了人類。

第一人稱視角的無人機競速跟一般的遙控飛機不一樣，飛行員需要從高速飛行的無人機視角觀察環境，進行操縱。對 AI 來說，AI 需要快速分析視頻傳感器中傳回的信息，并做出決策優化飛行路線。按照《自然》文章中的說法，能夠在這項比賽中打敗人類冠軍，是 " 移動機器人和機器智能領域的裏程碑 "。這項成果可能對未來的自動駕駛汽車、無人飛行器具有重要的價值。

除了在無人機領域，在驗證碼領域，AI 也有驚人的表現。

驗證碼在生活中非常常見，當你想輸入賬号登錄網頁的時候，往往會看到各種各樣的驗證碼，包括識别奇形怪狀的字母、數字，拖拽拼圖一樣的滑塊，或者點擊 " 腦袋向上 " 的圖片。這些驗證碼的目的是防止機器人惡意登錄、注冊。

但 2023 年 7 月的一篇文章顯示，AI 可能比人類更擅長應對驗證碼。實驗邀請了超過 1000 名人類測試者讓他們使用 120 個主流網站上的驗證碼。

結果發現，人類解決驗證碼問題的準确率在 50%～80%，相比之下，AI 解決驗證碼的準确率在 85%～100%，大部分都在 96% 以上。除了準确率比人高，AI 解決驗證碼的時間也比人類快 0.5 秒。

這意味着，随着 AI 技術的發展，人類用來防範 AI 的驗證碼作用可能也越來越小，這對網絡和信息安全來說是一項非常嚴峻的挑戰。科學家們需要開始設計能防住 AI、又不會把人類難倒的新型驗證碼了。

人腦模拟計劃 " 失敗 "

雖然近些年人工智能技術突飛猛進，但是在用 AI 模拟人腦這件事上，人類慘遭 " 滑鐵盧 "。

在 2013 年，歐洲的科學家們開啓了一個爲期 10 年的 " 人類大腦計劃 "。科學家們打算在 10 年的時間裏，用頂尖的計算機技術模拟人腦的上百億個神經元和它們的神經突觸，從而還原人類大腦的運行過程，揭開人類大腦的奧秘。

今年 10 月 1 日，就是這個項目的 " 兌現 " 時間，但科學家們總共投入了 13 億歐元（約 100 億人民币），卻始終距離 " 模拟人類大腦 " 這個目标相去甚遠，科學家們遠遠低估了人類大腦的複雜程度。可以說，這是人類建造 " 人工智能 " 嘗試上的一次失敗。

雖然在人類大腦計劃中，人類沒有成功建立起一個 " 人工智能 "，但這樣的探索非常有意義。在這個項目中，科學家們确實對人類大腦有了更深層次的了解。比如科學家們繪制出了更詳盡的人類大腦圖譜，在前額葉皮層中還發現了幾個之前未知的腦區。

另外，科學家們建立起了基因表達和大腦結構之間的關聯，科學家們能夠從基因層面上研究一些大腦結構相關的疾病（比如抑郁症）。一些數字大腦模型在帕金森等疾病領域也已經有了臨床應用。

圖源：unsplash.com 攝影師：Xu Haiwei

除了歐洲的人腦計劃，中國、美國、日本、韓國、澳大利亞等國家也都有自己的人腦計劃，隻有我們更深入地了解人腦結構，了解智能的本源，才能更好地發展 " 人工智能 " 技術。

人工智能領域的發展極其迅速，在半年裏，GPT-4 就遇到了強勁對手、AI 幫助人類構建起了氣味圖譜和更詳盡的大腦圖譜，自動駕駛汽車也擁有了 " 講解員 "。

正是這樣迅猛的技術發展，讓我們能夠享受到更加安全、便捷的生活。它們的發展是生活中每天都在上演的科幻大片。

參考文獻

[ 1 ] https://www.semianalysis.com/p/google-gemini-eats-the-world-gemini

[ 2 ] https://www.theinformation.com/articles/google-nears-release-of-gemini-ai-to-rival-openai

[ 3 ] https://openai.com/dall-e-3

[ 4 ] https://blogs.microsoft.com/zh/blog/2023/09/21/announcing-microsoft-copilot-your-everyday-ai-companion/

[ 5 ] https://sitn.hms.harvard.edu/flash/2023/this-ai-smells-better-than-you/

[ 6 ] https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/

[ 7 ] https://www.nature.com/articles/d41586-023-02600-x#ref-CR3

[ 8 ] https://arxiv.org/pdf/2307.12108.pdf

[ 9 ] https://qz.com/ai-bots-recaptcha-turing-test-websites-authenticity-1850734350

[ 10 ] https://www.nature.com/articles/s41586-023-06419-4

策劃制作

作者丨科學邊角料科普團隊

審核丨于旸騰訊安全玄武實驗室負責人

策劃丨崔瀛昊

責編丨林林

往期

精選

他造了個機械臂幫他剪頭發，結果…頭掉了

美國人移居草原後，人們忽然開始發瘋，出現了大量精神錯亂……

隔夜瓜、隔夜茶、隔夜菜，到底能不能吃？一文說清！

原創圖文轉載請後台回複 " 轉載 "

點亮 " 在看 "

一起漲知識！