GPT-4 在各種專業和學術基準上接近人類。
來源|多知網
作者 | 王上
圖片來源 |OpenAI 官網
美東時間 3 月 14 日,ChatGPT 開發企業 OpenAI 發布了 GPT-4,它支持圖片和文本輸入,在各種專業和學術基準上達到 " 人類水平 "。
目前,GPT-4 僅可以在付費版 ChatGPT Plus 上使用,OpenAI 爲開發人員提供 API(應用程序編程接口)以構建應用和服務。有用戶體驗後提到,從 ChatGPT ( GPT-3.5 ) 到 GPT-4,可以說是從一個高中生達到了研究生的水平。
此前,多知網報道過 ChatGPT 不擅長解答數理化等問題,而今,不到 2 個月的時間,GPT-4 對各種标準化考試可以輕松拿捏。這對教育行業來說意義重大。
當前,諸如 Duolingo ( 多鄰國 ) 、Khan Academy ( 可汗學院 ) 等企業已經使用了 GPT-4。
多鄰國提到,GPT-4 提供比以往任何時候都更有效和更吸引人的學習體驗,這會提高學習效果。此外,GPT-4 的便利性簡化了整個工作的流程。
可汗學院首席學習官 Kristen DiCerbo 認爲,GPT-4 正在開辟教育的新領域,它是革命性的。
01
深度學習的裏程碑!GPT-4 在各種專業和學術基準上接近人類
3 月 14 日,OpenAI 在其官網上發布了推出 GPT-4 的公告。公告稱,OpenAI 已正式推出 GPT-4,這也是 OpenAI 在擴大深度學習方面的最新裏程碑。GPT-4 是大型多模态模型,盡管在許多現實世界的場景中能力不如人類,但它可以在各種專業和學術基準上,表現出近似人類水平的性能。
例如,GPT-4 通過了模拟的律師考試,分數約爲全部應試者的前 10%。而相比之下,GPT-3.5 的分數大約是後 10%。" 我們團隊花了 6 個月時間,利用對抗性測試項目以及基于 ChatGPT 的相關經驗,反複對 GPT-4 進行調整。結果是,GPT-4 在事實性(factuality)、可引導性(steerability)和拒絕超範圍解答 ( 非合規 ) 問題方面取得了有史以來最好的結果(盡管它還不夠完美)。"
(GPT-4 多種基準考試測試的成績)
據 OpenAI 介紹,GPT-4 參加了多種基準考試測試,包括美國律師資格考試 Uniform Bar Exam、法學院入學考試 LSAT、" 美國高考 " SAT 數學部分和證據性閱讀與寫作部分的考試,在這些測試中,它的得分高 88% 的應試者。
OpenAI 官網上介紹,在簡單聊天時,也許感受不到 GPT-3.5 和 GPT-4 之間的區别。但是,當任務的複雜性達到足夠的阈值時,它們的區别就出來了。具體來說,GPT-4 比 GPT-3.5 更可靠,更有創造力,能夠處理更細微的指令。
OpenAI 工程師在視頻中介紹,比如簡單寫一個想法框架,拍照發到 GPT-4 上告訴它要做一個網站, GPT-4 可以生成網站代碼。
OpenAI 表示, GPT-4 産生的錯誤答案更少,将更少地偏離談話軌道,更少地談論禁忌話題,甚至在許多标準化測試中比人類表現得更好。
02
GPT-4 開辟教育新領域
OpenAI 官網給出了多鄰國、By My Eyes、摩根士丹利、Khan Academy ( 可汗學院 ) 等的 6 個使用 GPT-4 的案例。微軟也表示,新必應搜索引擎正在運行 GPT-4。
多鄰國和可汗學院都是教育産品,可以說,加入 GPT-4 後大大改變了内部流程,提升了效率,也提升了用戶體驗。
1、多鄰國将 GPT-4 加入對話環節:提升用戶體驗,提升了效率。
多鄰國是一個以遊戲化方式學習語言的軟件,每個月有超過 5000 萬學習者使用其學習第二語言。通過簡潔的用戶界面和有趣且有競争力的排行榜,涵蓋 100 多種課程,支持 40 種語言。學習者可以通過在手機上輕拍和滑動,從簡單的詞彙練習過渡到複雜的句子結構。
如果一個學習者想要超越基本的熟練程度,了解語法規則是很有幫助的。但真正精通一門語言需要對話,比如學習英語,最好是與以英語爲母語的人對話,這不是每個人都能做到的。
" 人工智能一直是我們戰略的重要組成部分," 多鄰國首席産品經理埃德溫 · 博奇 ( Edwin Bodge ) 說。" 我們一直在用它進行個性化課程和多鄰國英語測試。但在學習者的學習過程中,我們希望填補一些空白:對話練習,以及對錯誤的上下文反饋。"
(多鄰國的法語對話練習)
" 我們希望将人工智能功能深度集成到應用程序中,并利用在我們的學習者喜歡的多鄰國的遊戲化方面。"埃德溫 · 博奇 ( Edwin Bodge ) 說道。
在語言學習中有一種最好的做法,叫做 " 内隐學習 ( implicit learning ) ",通過在一系列語境中反複使用詞彙和語法來學習,不知不覺中獲得某種知識。換句話說,通過實踐比記憶規則更有效。這讓多鄰國進行了一次有趣的嘗試。
多鄰國的許多學習者都想學習明确的規則,多鄰國則試圖用預先寫好的語法提示和人工智能來教他們。即使使用 GPT-3,實現也很困難。教語法需要對錯誤有明确的理解,以及知道學習者犯錯誤的原因。解釋一個不正确的術語可能會錯誤地教授概念,或者讓用戶感到困惑和不滿。
多鄰國首席工程師比爾 · 彼得森 ( Bill Peterson ) 說:"GPT-4 讓我們對‘解釋我的答案 ( Explain my Answer ) ’中人工智能回答的準确性更有信心。"
有了這些新功能,學習者可以點擊 " 解釋我的答案 ( Explain my Answer ) ",GPT-4 将給出初步回應。學習者可以回到課程,或得到進一步的解釋,GPT-4 可以動态更新。多鄰國将根據學習者在回到課堂前需要學習的深度來衡量 GPT-4 的反應質量。
多鄰國認爲,GPT-4 提供比以往任何時候都更有效和更吸引人的學習體驗,這應該會提高學習效果。此外,GPT-4 的便利性簡化了整個工作的流程。
" 一天之内,我們就做出了一個原型,這讓我們确信這是我們想要進一步探索的東西。它能讓我們很快地從 0 到 95%。然後剩餘的 5%,我們可以手動調整數據。" 彼得森說道。
現在,多鄰國的團隊更專注于測試和打磨數據集。
2、可汗學院加入 GPT-4:化身學生的虛拟導師,和老師的課堂助手
可汗學院是一家教育性非營利組織,其利用視頻進行免費授課,現有關于數學、曆史、金融、物理、化學、生物、天文學等科目的内容,教學視頻超過 2000 段。
但是,每個學生都是獨一無二的,他們對概念和技能的把握也是千差萬别。有些人可以輕松掌握一個主題,而有些人則需要循序漸進地提升。尤其是疫情期間,讓這種差距加劇。
(可汗學院的應用案例)
可汗學院的首席學習官 Kristen DiCerbo 說 :" 考慮到每個人的不同需求,讓他們不斷進步是一項挑戰。他們都處于不同的水平,有不同的差距。他們都需要不同的東西來前進。這是我們長期以來一直試圖解決的問題。"
今天,可汗學院宣布将使用 GPT-4 爲其人工智能助手 "Khanmigo" 提供技術支撐,Khanmigo 既可以作爲學生的虛拟導師,也可以作爲教師的課堂助手。這家非營利組織于 2022 年開始測試 OpenAI 語言模型的最新版本,最初将向有限數量的參與者提供 Khanmigo 試點項目,不過公衆也可以加入候補名單。
Kristen DiCerbo 說:"我們認爲 GPT-4 正在開辟教育的新領域。很久以來,很多人都夢想着這種技術。它是革命性的,我們計劃進一步測試,以探索它是否能有效地用于學習和教學。"
可汗學院将 Khanmigo 作爲探索人工智能的試點,早期參與者将反饋錯誤,特别是在數學問題上,将标記出來進行糾正。
GPT-4 的主要功能之一是能夠理解自由形式的問題和提示。這種像人一樣來回走動的能力,可能爲可汗學院提供了最關鍵的能力:向每個學生提出個性化的問題,以促進更深層次的學習。
Kristen DiCerbo 說:" 我們和所有教育技術公司都在努力解決的一個問題是,如何讓學生深入思考他們正在學習的内容。比如,‘你爲什麽那樣回答?你爲什麽這麽認爲?會發生什麽?’所以我們要确保學生不僅僅是理解如何做題,還要真正理解題目背後的概念。"
可汗學院的早期測試表明,GPT-4 可能很快就能幫助學生将相關性學習内容結合起來。
" 這些都是我們深入思考的問題,然後 GPT-4 出現了," 可汗學院工程總監 Shawn Jansepar 說。" 我們認爲這項技術是一種潛在的方式,可以在未來幾年加速我們的路線圖,在我們的平台上構建更多類似導師的能力,同時還提供我們以前夢想過的功能。沒有一個真正強大的大語言模型,這些想法是不可行的,但現在我們認爲我們可以取得真正的進展。"
爲教師調整 GPT-4 也是可汗學院的首要任務,當前,他們正在測試教師使用 GPT-4 的方法,比如編寫課堂提示或創建教學材料。
可汗學院相關負責人說 :" 更令人興奮的是,它有可能幫助教師快速、輕松地爲每個學生量身定制學習。我們認爲教師可以使用 GPT-4 來了解他們班上每個學生在任何一天在可汗學院的表現。我們将在不久的将來測試這一功能。"
相關閱讀:
Coursera CEO:ChatGPT 或引發新一輪技能再培訓浪潮
END
本文作者:王上