“GPT-4将開辟教育新領域”，多鄰國、可汗學院是這樣應用的

GPT-4 在各種專業和學術基準上接近人類。

來源|多知網

作者 | 王上

圖片來源 |OpenAI 官網

美東時間 3 月 14 日，ChatGPT 開發企業 OpenAI 發布了 GPT-4，它支持圖片和文本輸入，在各種專業和學術基準上達到 " 人類水平 "。

目前，GPT-4 僅可以在付費版 ChatGPT Plus 上使用，OpenAI 爲開發人員提供 API（應用程序編程接口）以構建應用和服務。有用戶體驗後提到，從 ChatGPT ( GPT-3.5 ) 到 GPT-4，可以說是從一個高中生達到了研究生的水平。

此前，多知網報道過 ChatGPT 不擅長解答數理化等問題，而今，不到 2 個月的時間，GPT-4 對各種标準化考試可以輕松拿捏。這對教育行業來說意義重大。

當前，諸如 Duolingo ( 多鄰國 ) 、Khan Academy ( 可汗學院 ) 等企業已經使用了 GPT-4。

多鄰國提到，GPT-4 提供比以往任何時候都更有效和更吸引人的學習體驗，這會提高學習效果。此外，GPT-4 的便利性簡化了整個工作的流程。

可汗學院首席學習官 Kristen DiCerbo 認爲，GPT-4 正在開辟教育的新領域，它是革命性的。

‍深度學習的裏程碑！GPT-4 在各種專業和學術基準上接近人類

‍

3 月 14 日，OpenAI 在其官網上發布了推出 GPT-4 的公告。公告稱，OpenAI 已正式推出 GPT-4，這也是 OpenAI 在擴大深度學習方面的最新裏程碑。GPT-4 是大型多模态模型，盡管在許多現實世界的場景中能力不如人類，但它可以在各種專業和學術基準上，表現出近似人類水平的性能。

例如，GPT-4 通過了模拟的律師考試，分數約爲全部應試者的前 10%。而相比之下，GPT-3.5 的分數大約是後 10%。" 我們團隊花了 6 個月時間，利用對抗性測試項目以及基于 ChatGPT 的相關經驗，反複對 GPT-4 進行調整。結果是，GPT-4 在事實性（factuality）、可引導性（steerability）和拒絕超範圍解答 ( 非合規 ) 問題方面取得了有史以來最好的結果（盡管它還不夠完美）。"

（GPT-4 多種基準考試測試的成績）

據 OpenAI 介紹，GPT-4 參加了多種基準考試測試，包括美國律師資格考試 Uniform Bar Exam、法學院入學考試 LSAT、" 美國高考 " SAT 數學部分和證據性閱讀與寫作部分的考試，在這些測試中，它的得分高 88% 的應試者。

OpenAI 官網上介紹，在簡單聊天時，也許感受不到 GPT-3.5 和 GPT-4 之間的區别。但是，當任務的複雜性達到足夠的阈值時，它們的區别就出來了。具體來說，GPT-4 比 GPT-3.5 更可靠，更有創造力，能夠處理更細微的指令。

OpenAI 工程師在視頻中介紹，比如簡單寫一個想法框架，拍照發到 GPT-4 上告訴它要做一個網站， GPT-4 可以生成網站代碼。

OpenAI 表示， GPT-4 産生的錯誤答案更少，将更少地偏離談話軌道，更少地談論禁忌話題，甚至在許多标準化測試中比人類表現得更好。

GPT-4 開辟教育新領域

OpenAI 官網給出了多鄰國、By My Eyes、摩根士丹利、Khan Academy ( 可汗學院 ) 等的 6 個使用 GPT-4 的案例。微軟也表示，新必應搜索引擎正在運行 GPT-4。

多鄰國和可汗學院都是教育産品，可以說，加入 GPT-4 後大大改變了内部流程，提升了效率，也提升了用戶體驗。

1、多鄰國将 GPT-4 加入對話環節：提升用戶體驗，提升了效率。

多鄰國是一個以遊戲化方式學習語言的軟件，每個月有超過 5000 萬學習者使用其學習第二語言。通過簡潔的用戶界面和有趣且有競争力的排行榜，涵蓋 100 多種課程，支持 40 種語言。學習者可以通過在手機上輕拍和滑動，從簡單的詞彙練習過渡到複雜的句子結構。

如果一個學習者想要超越基本的熟練程度，了解語法規則是很有幫助的。但真正精通一門語言需要對話，比如學習英語，最好是與以英語爲母語的人對話，這不是每個人都能做到的。

" 人工智能一直是我們戰略的重要組成部分，" 多鄰國首席産品經理埃德溫 · 博奇 ( Edwin Bodge ) 說。" 我們一直在用它進行個性化課程和多鄰國英語測試。但在學習者的學習過程中，我們希望填補一些空白：對話練習，以及對錯誤的上下文反饋。"

（多鄰國的法語對話練習）

" 我們希望将人工智能功能深度集成到應用程序中，并利用在我們的學習者喜歡的多鄰國的遊戲化方面。"埃德溫 · 博奇 ( Edwin Bodge ) 說道。

在語言學習中有一種最好的做法，叫做 " 内隐學習 ( implicit learning ) "，通過在一系列語境中反複使用詞彙和語法來學習，不知不覺中獲得某種知識。換句話說，通過實踐比記憶規則更有效。這讓多鄰國進行了一次有趣的嘗試。

多鄰國的許多學習者都想學習明确的規則，多鄰國則試圖用預先寫好的語法提示和人工智能來教他們。即使使用 GPT-3，實現也很困難。教語法需要對錯誤有明确的理解，以及知道學習者犯錯誤的原因。解釋一個不正确的術語可能會錯誤地教授概念，或者讓用戶感到困惑和不滿。

多鄰國首席工程師比爾 · 彼得森 ( Bill Peterson ) 說："GPT-4 讓我們對‘解釋我的答案 ( Explain my Answer ) ’中人工智能回答的準确性更有信心。"

有了這些新功能，學習者可以點擊 " 解釋我的答案 ( Explain my Answer ) "，GPT-4 将給出初步回應。學習者可以回到課程，或得到進一步的解釋，GPT-4 可以動态更新。多鄰國将根據學習者在回到課堂前需要學習的深度來衡量 GPT-4 的反應質量。

多鄰國認爲，GPT-4 提供比以往任何時候都更有效和更吸引人的學習體驗，這應該會提高學習效果。此外，GPT-4 的便利性簡化了整個工作的流程。

" 一天之内，我們就做出了一個原型，這讓我們确信這是我們想要進一步探索的東西。它能讓我們很快地從 0 到 95%。然後剩餘的 5%，我們可以手動調整數據。" 彼得森說道。

現在，多鄰國的團隊更專注于測試和打磨數據集。

2、可汗學院加入 GPT-4：化身學生的虛拟導師，和老師的課堂助手

可汗學院是一家教育性非營利組織，其利用視頻進行免費授課，現有關于數學、曆史、金融、物理、化學、生物、天文學等科目的内容，教學視頻超過 2000 段。

但是，每個學生都是獨一無二的，他們對概念和技能的把握也是千差萬别。有些人可以輕松掌握一個主題，而有些人則需要循序漸進地提升。尤其是疫情期間，讓這種差距加劇。

（可汗學院的應用案例）

可汗學院的首席學習官 Kristen DiCerbo 說 :" 考慮到每個人的不同需求，讓他們不斷進步是一項挑戰。他們都處于不同的水平，有不同的差距。他們都需要不同的東西來前進。這是我們長期以來一直試圖解決的問題。"

今天，可汗學院宣布将使用 GPT-4 爲其人工智能助手 "Khanmigo" 提供技術支撐，Khanmigo 既可以作爲學生的虛拟導師，也可以作爲教師的課堂助手。這家非營利組織于 2022 年開始測試 OpenAI 語言模型的最新版本，最初将向有限數量的參與者提供 Khanmigo 試點項目，不過公衆也可以加入候補名單。

Kristen DiCerbo 說："我們認爲 GPT-4 正在開辟教育的新領域。很久以來，很多人都夢想着這種技術。它是革命性的，我們計劃進一步測試，以探索它是否能有效地用于學習和教學。"

可汗學院将 Khanmigo 作爲探索人工智能的試點，早期參與者将反饋錯誤，特别是在數學問題上，将标記出來進行糾正。

GPT-4 的主要功能之一是能夠理解自由形式的問題和提示。這種像人一樣來回走動的能力，可能爲可汗學院提供了最關鍵的能力：向每個學生提出個性化的問題，以促進更深層次的學習。

Kristen DiCerbo 說：" 我們和所有教育技術公司都在努力解決的一個問題是，如何讓學生深入思考他們正在學習的内容。比如，‘你爲什麽那樣回答？你爲什麽這麽認爲？會發生什麽？’所以我們要确保學生不僅僅是理解如何做題，還要真正理解題目背後的概念。"

可汗學院的早期測試表明，GPT-4 可能很快就能幫助學生将相關性學習内容結合起來。

" 這些都是我們深入思考的問題，然後 GPT-4 出現了，" 可汗學院工程總監 Shawn Jansepar 說。" 我們認爲這項技術是一種潛在的方式，可以在未來幾年加速我們的路線圖，在我們的平台上構建更多類似導師的能力，同時還提供我們以前夢想過的功能。沒有一個真正強大的大語言模型，這些想法是不可行的，但現在我們認爲我們可以取得真正的進展。"

爲教師調整 GPT-4 也是可汗學院的首要任務，當前，他們正在測試教師使用 GPT-4 的方法，比如編寫課堂提示或創建教學材料。

可汗學院相關負責人說 :" 更令人興奮的是，它有可能幫助教師快速、輕松地爲每個學生量身定制學習。我們認爲教師可以使用 GPT-4 來了解他們班上每個學生在任何一天在可汗學院的表現。我們将在不久的将來測試這一功能。"

相關閱讀：

倪閩景：面對 ChatGPT，傳統教育已被逼入牆角？

用 ChatGPT 搞學習？還是别了吧

ChatGPT 月活用戶破億，開始探索商業化推出付費版

Coursera CEO：ChatGPT 或引發新一輪技能再培訓浪潮

北京經信局：支持頭部企業打造對标 ChatGPT 的大模型

END

本文作者：王上