ChatGPT大戰司法考試，無需微調一類試題達到人類水平！醫學化學公務員試題都能答

ChatGPT 的下一個新身份——做題家！

這不，它已經在人類各個考試中開 " 卷 " 了。

律師、醫生、注會什麼的，它都開始紛紛展露身手。

比如，全球考生都頭疼的司法考試，現在 ChatGPT 在兩項試題達到了合格率，其中一項還跟人類水平持平。（還是在沒有任何微調的基礎上）

" 成績 " 一出，瞬間引發巨大關注，網友：Amazing~

還有人表示，要是讓它來參加 SAT 或 AP 考試，應該會很有趣。

咳咳，要是公務員考試呢？

咱們結尾見分曉！

兩項法考試題合格

具體就先來看看 ChatGPT 在司法考試中的表現如何。

美國大多數州統一的司法考試（UBE），有三個組成部分：選擇題（多州律師考試，MBE）、作文（MEE）、情景表現（MPT）。

選擇題部分，由來自 8 個類别的 200 道題組成，通常占整個律師考試分數的 50%。

在這項研究中，研究人員對 OpenAI 的 text-davinci-003 模型（通常被稱為 GPT-3.5）在 MBE 的表現進行評估。

（ChatGPT 正是 GPT-3.5 面向公衆的聊天機器人版本。）

為了測試實際效果，研究人員購買了官方組織提供的标準考試準備材料，包括練習題和模拟考試。每個問題的正文都是自動提取的，其中有四個多選選項，并與答案分開存儲，答案僅由每個問題的正确字母答案組成，也沒有對正确和錯誤的答案進行解釋。

随後，研究人員分别對 GPT-3.5 進行了提示工程、超參數優化以及微調的嘗試。結果發現，超參數優化和提示工程對 GPT-3.5 的成績表現有積極影響，而微調沒有任何效果。

在提示工程中，他們共測試了 7 種提示類型。

1、隻做單項選擇；

2、單項選擇和解釋；

3、隻做前兩個選擇；

4、前兩個選擇和解釋；

5、前兩個選擇和重新提示；

6、對所有選擇進行排序；

7、對前三個選擇進行排序。

研究人員在上述的提示和參數值中執行了 107 次樣本考試。結果在這些提示中，提示風格 #7 的前三個選項排序表現最好，他們共收集了 41 個樣本，對這個提示進行參數組合。

超參數優化中，他們評估了包括溫度系數、top p、best of、max tokens 等參數。

最終在完整的 MBE 練習考試中達到了 50.3% 的平均正确率，大大超過了 25% 的基線猜測率，并且在證據和侵權行為兩個類型都達到了平均通過率。尤其是證據類别，與人類水平持平，保持着 63% 的準确率。

在所有類别中，GPT 平均落後于人類應試者約 17%。在證據、侵權行為和民事訴訟的情況下，這一差距可以忽略不計或隻有個位數。

但總的來說，這一結果都大大超出了研究人員的預期。

因為它對答案排序與正确性有很強的相關性，Top2 和 Top3 的選擇分别有 71% 和 88% 的正确率。其中 "Top2" 的準确率全都超過了極限，有五個類别均超過了人類平均水平。而 "Top3" 的準确度更高，在證據這一表現中甚至達到了 98%。

這也證實了它對法律領域的一般理解，而非随機猜測。接下來他們将進一步對法考的其他兩部分：作文和情景表現進行上述的研究。

ChatGPT 能當考霸嗎？

谷歌資深軟件工程師肯尼斯 · 古德曼（Kenneth S. Goodman）就拿 ChatGPT 做了一系列測試，涉及司法、醫學、會計學、化學等多個領域。

分數最高的一門是紐約州高中畢業英語語言藝術考試，ChatGPT 正确率達到了91.6%。

因為是 2022 年 8 月的考試，所以 ChatGPT 數據庫中肯定不包含考試内容。對于陌生的 24 道考題，它隻錯了 2 題。

物理 / 化學考試中，ChatGPT 的表現也不錯，正确率達到了77.7%，45 道題目中答對了 35 道。

前不久，谷歌醫療大模型 Med-PaLM 通過美國醫師執照試題（USMLE）驗證。

ChatGPT 也不甘于落後，同樣挑戰了 USMLE 的第一階段基礎醫學考試。

去掉有圖像的題目後（因無法輸入對話框），ChatGPT 正确率達70%。

其餘則是在司法方面，工程師肯尼斯老哥讓 ChatGPT 嘗試了一些非正式題目。

比如美國律師職業道德考試（MPRE）的示例題目（共 15 道），ChatGPT 答對了 9 道，正确率60%。

面對 50 道律師資格考試模拟試題，ChatGPT 的正确率也維持在了 70%，答對 35 道。

此外，在佛羅裡達農工大學法學院的入學考試中，ChatGPT 取得了 149 分，排名在前 40%。其中閱讀理解類題目表現最好。

表現最差的，還是數學題。

在 CPA 注會考試中，ChatGPT 的正确率隻有 40%。肯尼斯老哥還在嘗試一些調教方法，讓它更聰明一些。

總之，ChatGPT 在各種考試中的表現，還是讓人有些意外。

有網友已經産生危機感了：

damn，我的工作要被搶了！

有人分析，如果直接讓 AI 來插手司法相關的判斷，風險真的很大，但如果後期有專人來審核它的輸出結果，那麼 AI 将能夠很好提升律師的工作效率。

還有人表示，如果能保證任何數據都不洩露的話，那 ChatGPT 将能夠推動更多行業平民化。

或許正如肯尼斯老哥說的那樣，人類 + 電腦的組合已經超越了人類自身能力，這就是計算機當下正在進行的突破。

One More Thing

最後，我們也讓 ChatGPT 試了試國内法考的題目 ~

先說結果，3 道選擇題，ChatGPT 都沒有答對……雖然解釋得頭頭是道，但它應該确實沒有讀過我國的法條。

△參考答案 D

（這答案羅翔老師看了直搖頭）

△參考答案 A

換成公務員行測試題呢？沒想到 ChatGPT 的答案對了，可是過程和答案似乎完全沒關系……

這……怎麼感覺 AI 秒算結果，但随便編了個過程來糊弄人類啊

參考鍊接：

[ 1 ] https://twitter.com/_akhaliq/status/1609734525461975040

[ 2 ] https://github.com/mjbommar/gpt-takes-the-bar-exam

[ 3 ] https://arxiv.org/abs/2212.14402

[ 4 ] https://twitter.com/pythonprimes/status/1601664776194912256