以下文章來源于 AI 深度研究員 ,作者 AI 工作坊
第三期華夏基石數智時代領導力特訓營熱招中!
來源 | AI工作坊,管理智慧
咨詢合作 | 13699120588
文章僅代表作者本人觀點
最近,賓夕法尼亞大學沃頓商學院的 Ethan Mollick 教授在常春藤名校哈佛大學發表了一場引人深思的講座。
講台上,Ethan 教授分享了他将 AI 引入課堂的經驗,展示了 AI 輔助教學的創新實踐。這種将理論與實踐相結合的方法,正是哈佛大學一直倡導的教育理念。過去幾個月裏,AI 領域的發展速度令人驚歎。正如 Ethan 教授在哈佛演講中指出的,許多 AI 實驗室的研究人員已經從最初的猶豫不決轉變爲現在的滿懷信心。他們普遍認爲,在未來四五年内,我們将見證 AI 能力的指數級提升。一些研究者甚至相信,他們能在短短五六年内創造出在所有智力任務上都超越人類的機器,即所謂的通用人工智能(AGI)。
然而,Ethan 教授也提醒我們面對 AI 時的挑戰。他在講座中指出:" 沒有現成的 AI 使用手冊。" 無論是企業的學習發展部門,還是像 OpenAI 這樣的前沿科技公司,都無法爲我們提供标準的最佳實踐。在這個全新的領域,我們都在摸索前進。Ethan 教授在哈佛大學的演講中提出了一個關鍵觀點:使用 AI 就像教學一樣。這一觀點與哈佛大學長期以來倡導的教育理念不謀而合。
正如一位 MBA 學生在講座後評論的那樣:"AI 并不差,你隻是個糟糕的管理者而已。" 這句話道出了使用 AI 的精髓——我們需要像優秀的教育者一樣,給予 AI 清晰的指示和豐富的學習資源,才能充分發揮它的潛力
大家好,非常興奮。不過我今天想講的重點其實和介紹沒什麽關系。關于 AI,它們真的會改變教育。
關于 AI 的三個觀點?
首先,AI 生成内容是檢測不出的。 這當然意味着所有人都在作弊,100% 沒有例外。所以這很奇怪,教育現在處于 AI 采用曲線的尖端。70% 的本科生和 K-12 學生在使用 AI,即使他們沒告訴你,他們仍然在使用。我們無法檢測到 AI 寫作,将來也永遠無法完全檢測到,這将是一場無止境的軍備競賽,所以我們必須面對這個問題。
第二,AI 是無處不在的。 讓我感到興奮的是,我一直在嘗試通過模拟和體驗來大規模教育人們,而且順便說一句,我這次演講中的每一張圖片都是由 AI 生成的,這點可能沒有那麽顯眼。但有趣的是,這是第一個普遍可用的工具。以前,如果我去哈佛大學,他們有比其他地方更酷的工具,因爲那裏有很多資金。如果我去一個農村學校或者不同國家的學校,可能就沒有那麽好的資源這是一個非常獨特的時代,AI 的使用已經無處不在。
最後,AI 是具有變革性的。 我覺得你們之前提到了一個很重要的觀點,就是 AI 實驗室在向我求助尋找答案,這其實挺可怕的。沒有人真正知道這些模型能做什麽,我可以保證,開發這些模型的人對醫學或者醫學教育幾乎一無所知,他們隻是程序員,把這些東西當作編程問題來解決。他們完全沒有預料到 AI 會颠覆所有作業系統。每個行業都在發現它的用例,沒有人能幫你,我們隻能互相幫助,因爲根本沒有現成的答案。那些開發人員根本沒有考慮過這些問題。AI 模型在醫學領域表現得這麽好,完全是個意外,這絕對是他們始料未及的。所以每次有新模型發布時,我總覺得挺有趣的。我曾開玩笑問 Google 團隊,你們發布了新模型,那麽發布說明在哪兒呢?他們私下回複我,‘其實我們也不知道這個模型能幹什麽,所以希望有人能告訴我們發布說明是什麽。’這就是我們現在的現狀。不過,簡單來說,去年開始,一切都變得很奇怪了。這是 GPT-3.5,也就是 Chat 的免費版本的測試分數。"
案例 1:AI 參加 GRE 測試
當我說在 GRE 定量測試中,GPT 達到了 65% 這個分數時,舉個例子,這是用于申請賓夕法尼亞大學研究生的考試分數。這個 65% 不是答對 65% 的題目,而是 AI 擊敗了 65% 的人類考生。然後情況變得更加奇怪了,GPT-4 在其他測試中幾乎都拿到了滿分。現在,我們基本上有了五種不同的 AI,它們在任何測試中都能進入前 90 個百分位。有一次我展示了 Llama 3.1 統計數據的截圖,問 Claude 能否把這些數據轉化成圖表,結果它做到了。所以如果你想要的話,任何人都可以這麽做,隻需要問它就行。這也是曆史上采用速度最快的技術,我們絕對不可能回到過去。我跟一些人聊過,他們覺得或許可以讓時光倒流,但這絕對不會發生。我們從未見過這種采用曲線。顯然,人們已經發現它非常有用。我認爲現在的 AI 批評有點像倒退,盡管我們會讨論 AI 的一些合理批評點,但目前至少有一半的老師、學生和家長每周至少使用 AI 一次,而且沒有人會停止使用 AI 來做事。所以我們可以假裝想要放棄它,想要改變使用方式,但這是不可能的。我從 AI 剛出現時就一直在警告,家庭作業的 " 末日 " 已經發生了。AI 能完成所有級别的家庭作業,不僅僅是 K-12 和大學,它在哈佛的 GPA 達到了 3.34,即使有分數通脹,這也算不錯的了,甚至在研究生階段也是如此。你們或許已經看過斯坦福醫學院的論文,表明 GPT-4 比一、二年級的學生表現得更好。我特别喜歡右邊的這張關于法學院學生分布的圖。藍色曲線代表沒有使用 GPT-4 的學生,
分布相對正常,貼近标準分布的一側。而橙色曲線代表使用了 GPT-4 的學生。現在沒有 " 差 " 律師了,AI 替代了那些表現不佳的律師工作。這種拉平效應是我們已經看到的一個現象。顯然,教育是個大問題,我們接下來會重點讨論這個,但我也在思考它在現實世界中的影響。
案例 2:AI 創造力測試
我和哈佛、商學院、MIT 和華威大學的同事們一起做了很多研究。例如,我們和波士頓咨詢公司(BCG)合作進行了一個實驗,我們創造了 18 個現實中的商業任務,涉及分析任務、創造力任務,一些咨詢師可以使用 GPT-4,而另一些則不能使用。
這是實驗結果:任務的質量提高了 40%,速度提高了 26%。爲了讓大家有個比較,蒸汽動力在 19 世紀早期被引入工廠時,工廠的效率隻提升了 18% 到 22%。這些數據非常大。另一篇關于使用 GitHub Copilot 編碼的論文剛剛發表,它是早期的編碼工具,基于 GPT-3.5。研究發現,使用這些工具的程序員速度提高了 25%。所以,最低的改善線是 25% 到 60% 的表現提升是很常見的。對于我們教育者來說,另一件重要的事是,表現較差的人受益最大。在 BCG 的實驗中,技能分布底部 50% 的人提高了 43%,而技能分布頂部 50% 的人隻提高了 17%。情況比這還要奇怪一些,因爲我們還測量了一項叫做 " 保持率 " 的指标,即咨詢師最終将多少 AI 的回答當作自己的回答。唯一能讓 80% 的咨詢師出錯的方式是,他們對 AI 的回答進行了任何修改。隻要他們不修改 GPT-4 的答案,他們就表現得非常好。這種現象很常見,随着技能水平的提高,問題不再是 AI 能否完成任務,而是 AI 能完成誰的任務。我們在醫學領域也發現了類似的效果。你們應該都看過這篇經典論文,它讨論了 AI 如何回答 Reddit 上的常見醫學問題。
案例 3:AI 同理心和說服力
還有一篇 Google 的論文顯示了相同的結果。醫生認爲 AI 聊天機器人的回答比普通醫生更準确,而且在我們所有的研究中,AI 被認爲比醫生更有同理心。我相信你們一定讨論過這個問題,我們需要弄清楚這對我們的行業意味着什麽。我們不應該忽視那些真正有用的工具。現在,我不認爲這些工具已經足夠成熟,可以用于一線醫療工作,但我的标準一直是:它比人類中最優秀的人更好還是更差?我認爲這在醫學領域是一個相關的問題。然後我們看到了一些其他奇怪的現象,比如 AI 在創造力方面比人類更優秀。我在沃頓的同事進行了一項研究,他們讓創新課的學生産生了 200 個商業創意,同時讓 AI 生成了 200 個商業創意。" 他們讓外部評委根據人們願意支付的金額來判斷這些想法的質量。結果,在前 40 個最佳創意中,AI 貢獻了 35 個,而房間裏的真實人類隻貢獻了 5 個。在所有的創造力研究中,AI 擊敗了普通人類。雖然它還不如最優秀的人類,但比普通人要強得多。
然後在說服力方面,AI 比人類更具說服力,這和我們做的事情非常相關。如果你和普通人類與 AI 進行辯論,你更有可能改變觀點并接受 AI 的看法,成功率爲 81.7%。(雖然我可能記錯了具體數字)但就是這麽高。而我們唯一找到的一個能夠顯著減少長期陰謀論信念的方法,就是讓人們和 AI 進行三輪辯論。那些經曆了這種辯論的人,對任何陰謀論的信念在三個月後都會有所下降。幾乎沒有其他方法能改變這種頑固的信念。不過另一方面,如果通過 AI 說服可以改變深層次的信念,那麽我們不僅僅需要擔心陰謀論信念,這也是我們需要探索的新領域。如果你還沒看到這些研究,很多都發現了相同的結論,即受 AI 影響最大的工作是那些受過高等教育、薪水高、創造力強的職業。
在這項研究中,共有 1,016 種工作——順便說一下,商學院教授排名第 22,所以我對這個問題思考了很多。有四種受 AI 影響最小的職業,萬一你們想知道的話,分别是:職業舞蹈家、職業運動員、屋頂工人和挖溝工人。不過我實際上和一個阿米什社區的屋頂工人聊過,他正在使用 AI 發送報價。所以,如果阿米什人都開始用 AI 了,那麽對于我們所有人來說,AI 的普及已經是不可避免了。但這并不意味着完全替代,而是意味着 AI 和我們所做的工作存在重疊。這是變革的體現。
到這裏,我主要的論點是,在 AI 無處不在的世界裏,基礎知識比以往任何時候都更重要。你無法驗證這些工具做出的結果,除非你具備足夠的知識。專業知識比以往更加重要。我的意思是我們真正需要培養的那種專業知識,即通過内部啓發和高水平反複練習來判斷事物的自主能力。培訓比以往更加重要。我們需要真正能夠做事情,而不僅僅是談論它。這意味着在 AI 時代,教育比以往更加重要。所以我認爲,真正的挑戰是教育者如何思考這些問題。
AI 如何應用于教育?
我們給課堂的建議是回到學生應該學什麽的問題上,然後再根據這些内容決定如何使用 AI。你實際上有兩種選擇。第一種選擇是回歸基礎知識,我有一些 1970 年代經典計算器的圖片。計算器的出現絕對使得大量數學課程失效,在 70 年代中期引起了混亂。後來我們意識到,我們仍然希望人們掌握基礎數學能力,所以我們逐漸轉變方式,不再使用電子工具,而是要求學生通過手寫測試來确保他們掌握了這些知識。回歸到紮實的教育學基礎,低風險測試是完全合理的。所有關于低風險測試教育學的研究都表明,它不僅對測試有好處,而且學生在被測試後會更好地記住知識,他們在未來回憶相關知識的能力也會更強。有很多理由支持進行低風險測試,比如課堂上的測驗、藍皮書和活躍的課堂讨論。
但即便在這種情況下,你不讓學生使用 AI,而我們還會讨論學生使用 AI 的問題,教育者使用 AI 仍然有巨大的價值。在現實世界中,我們看到教師使用 AI 生成課程計劃、創建工作表和其他材料。而且很明顯,大家都是在邊做邊學。就像我告訴你的,沒有操作手冊。所以 AI 的第四或第五常見用途是檢查是否存在抄襲。如果你還不知道這個問題,你不能問 AI 某個内容是否由 AI 寫的。GPT-4 在 95% 的情況下告訴你是它寫的,因爲它想讓你高興,所以會幫你 " 解決 " 這個問題,但其實是假的。沒有任何 AI 檢測工具真正有效,尤其是這種方法特别差。現在有一些研究顯示,教師們通過與 AI 進行合作來受益。這意味着他們不僅僅是向 AI 請求輸出結果,還會和 AI 讨論他們想要研究的主題或感興趣的信息。這些教師似乎從 AI 的表現中受益最大。所以我認爲這是我們需要思考的一個角度。這是美國公立學校教師的長期研究。所以把 AI 看作一個創造性的合作夥伴似乎是有效的。它不僅作爲工具很好用,你可以給它一份文件,生成低風險測試。不過你不能僅僅要求它做這些事情。"
事實上,AI 直接用來做測試的效果非常差。但是如果給它正确的提示——我會給你們一些相關的鏈接——它在低風險測試方面表現得非常好,而且我們發現老師對此非常滿意。AI 在實際使用中的受歡迎程度極高。你可能會看到一些調查顯示人們不喜歡 AI,但在所有使用 AI 的調查中,每個使用 AI 的人都非常熱情,而那些不喜歡 AI 的人,其實是沒有在使用它。一旦他們發現 AI 很有用時,他們也開始喜歡 AI,并且會偷偷使用,不會告訴你。所有這些,我覺得還不如更大的問題有趣,那就是關于變革和思考這些系統帶來的變革。
1、由 AI 布置作業
我現在的課程是 100% 由 AI 驅動的。每一個作業都是基于 AI 的。我教的是創業課,這是一個實踐性的課程,因此很容易将 AI 納入其中。但我想談談一些方法。問題在于學生使用 AI 的起點,因爲他們現在在各個地方都在使用 AI。我不知道你們是否看過,有多少人教大班課程,但過去一年的一個大影響是,學生不再像以前那樣舉手了。當你問他們爲什麽時,他們說," 爲什麽我要暴露自己的無知呢?AI 可以直接給我解釋清楚。" 在課堂上,我們有一個社會。契約,如果你不知道某個問題的答案,你會舉手,暴露自己的無知。通常這意味着我要爲 50 個人解釋這個問題,而不僅僅是一個人。但現在這種現象消失了。問題在于,學生向 AI 提問以獲得答案,但這并不能提供真正的學習。他們隻是以最舒适的方式獲取信息,而不是推動自己深入思考。這是非常糟糕的,因爲這會增加幻覺的風險。我們有一項新的研究表明,這會導緻大多數學生産生 " 掌握錯覺 "。一旦他們開始使用 AI 來解答問題,或幫助他們做作業,他們會覺得自己已經學會了,但實際上并沒有。所以我們看到,作業得分暫時提高了,考試成績卻下降了。這是可以解決的,但你不能隻是說," 用 AI 吧,一切都會好起來的。" 這根本不是真的,事情不是那樣運作的。我們可以做得更好。
2、用AI 于教數學
另一個例子是——我們再看看這個。我們來看看模拟的例子。我已經開發了很長時間的模拟工具用于教學。這是一個談判模拟器。我們可以爲其他目的構建這些工具。我一直在和醫學院的人交流,他們也在構建這些模拟工具。我可以這樣說," 我是一個高中藝術學生。"(當然,我把 " 學生 " 拼錯了,這讓我看起來更像個藝術生。)然後它會生成一個關于談判的場景,但首先它會問我了解多少。我回答 " 非常少 "。現在它應該會開始生成這個場景。接下來,它會給我們三個選項。我們從與 AI 系統合作中學到的一件事是,與其直接告訴人們答案,不如給他們選擇的機會。人們更喜歡多項選擇的解決方案。那麽我們選哪個?選個數字?選 3 吧。
對老師來說,這是最讓人抓狂的場景:和學生談判加分。我上周收到了六封這樣的郵件。" 現在它給出了目标,并從老師的角度提供了提示。你看,它即将進行整個角色扮演,最後我會說," 給我 A+,否則我會尖叫。" 這并不是最好的表達方式(笑)。好的,挑挑眉毛,我覺得你這麽做有點不妥。注意,這個系統給了我們解決問題的提示。使用 AI 進行談判時有一個有趣的現象,它不希望你犯錯,它想幫助你。所以需要一點努力來抑制它的 " 助人 " 本能,因爲它不想讓你搞砸得太厲害。但這裏你可以看到一個不錯的例子。最棒的是,我們可以反複互動。而要讓這工作起來,隻需要用簡單的英文寫作。讓我看看,抱歉,系統有點延遲。這是 GPT 實際生成的文本。讓我們看一下,這裏是文本内容。它實際上就是我們作爲教學設計師和老師平常會寫的東西,按步驟寫出來,例如,先做這件事,然後設定角色扮演
接着,事情會變得更有趣,因爲我們可以從這裏出發,甚至開發我們自己的技術。我正在嘗試點擊一些非常小的按鈕,想給你們展示幾個不同的演示。我相信你們已經看過其中一些東西。你們中的許多人可能都使用過 Claude,對吧?Claude 之所以有趣,是因爲你可以對它說," 創建一個解釋克雷布斯循環的互動演示,做得好一點。" 随着這些系統開始爲你構建和創造,它們讓你的能力從僅僅使用文字和寫作擴展到其他領域。順便說一下,大約半小時之前,OpenAI 宣布他們的高級語音模式已經可以通過 API 使用了,所以任何人都可以立即創建一個可以對話的互動代理。好了,它剛剛爲我們編寫了這個程序。我可以這樣做,比如說," 讓它更互動一點,這太無聊了。"
我們正在構建一個開源工具,你可以告訴它創建明天課堂的模拟,它會查找所有相關内容,并自動爲你創建。它會和你進行對話,然後利用多個 AI 代理創建模拟。接着,它會通過讓虛拟學生進行測試來驗證和改進模拟,最後它會将模拟部署給真實的學生,并提供反饋和評分。重點是,一旦有了這些工具,任何人都可以輕松分享他們的專業知識和知識,而且越來越容易。
AI 時代如何培養真正的專業能力?
第一, 沒有現成的 AI 使用手冊。沒有人能告訴你如何讓這些東西運作起來。你的學習和發展部門不知道,OpenAI 也不知道,因爲沒有任何最佳實踐可以借鑒。我們什麽都不知道。但我要告訴你們的關鍵發現是,使用 AI 就像教學一樣。有個有趣的作弊例子,我問我在執行 MBA 課程的學生," 有多少人使用了 AI 的幫助?" 因爲我教的是 AI,所有人都舉起了手。有人說," 但 AI 在評價作業方面表現得很差。" 然後另一個學生轉頭對他說,"AI 并不差,你隻是個糟糕的老師和管理者。AI 在定價作業方面非常出色,你隻需要給它提供一本更好的教材讓它學習,并給它一些清晰的指示,它就可以在定價作業上拿到滿分。" 使用這些系統的過程就像和老師合作一樣。老師是這些系統的最佳用戶。程序員往往在使用這些系統時遇到很多困難,但老師、教育者,你們會懂得如何使用它們。
作爲一名關注教學法的教育工作者,我注意到 AI 系統在處理某些教育理論時存在誤區。比如學習風格理論,雖然學術界已經質疑其有效性,但由于在教師群體中仍廣泛流傳,AI 也傾向于接受這一概念。這提醒我們需要明确指導 AI,避免在讨論中使用某些有争議的理論。AI 在處理偏見方面已取得進展,但在特定領域仍存在明顯問題。例如,當要求 AI 扮演兒童角色時,往往會出現令人不安的刻闆印象。這凸顯了我們作爲教育者需要深入了解 AI 的局限性,并學會在教學中謹慎使用這些工具。
第二, 每個人需要具備程序員思維。我們不應被動等待他人開發工具,而應主動構建和分享教學提示。這種方法可能會打破傳統教育系統的限制,爲教育創新開辟新的可能性。AI 的出現可能會加劇某些傳統教學方法的弊端,如過度依賴講座式教學。然而,它同時爲主動學習等更有效的教學方法提供了更多機會。我們應該利用 AI 來設計更多互動性、參與度高的學習活動,從而提升教學效果。然而,我更爲關切的是 AI 對職場專業知識培養路徑的沖擊。傳統上,畢業生通過實踐逐步積累專業技能和經驗。但在 AI 廣泛應用的今天,這種培養路徑正在逐漸消失。許多企業可能更傾向于使用 AI 完成工作,而不是投入時間培養新人。這種趨勢可能導緻年輕人失去寶貴的學習機會。
因此,我們需要重新思考在 AI 時代如何培養真正的專業能力。這不僅涉及技術層面的适應,更需要我們重新定義什麽是核心的人類專業技能。我們可能需要設計新的學習方法和實踐模式,确保下一代專業人士能在與 AI 協作的同時,保持并提升自身的專業判斷力和創新能力。這是一個複雜而緊迫的挑戰,需要教育界、業界和政策制定者共同努力,爲未來的人才培養創造一個平衡技術進步和人類發展的新模式。
第三, 我們應當全面探索 AI 在教育中的應用。我建議大家投入時間深入使用這些工具,親身體驗它們的潛力和局限。通過反複測試和實踐,我們能夠更好地理解 AI 如何融入教學過程,并不斷調整我們的方法。然而,僅僅個人探索是不夠的。我們必須建立一個更廣泛、更開放的交流平台,讓教育者能夠分享各自的發現和經驗。遺憾的是,目前學術界往往更重視研究成果而非教學創新的分享。我們需要改變這種狀況,鼓勵一線教育工作者積極交流他們的教學實踐和創新。值得注意的是,AI 領域的發展正在加速。根據我最近與 AI 實驗室專家的交流,他們對未來發展充滿信心。許多專家預測,在未來四到五年内,我們将看到 AI 能力的指數級增長。有些人甚至相信,我們将在不久的将來實現通用人工智能(AGI),即在所有智力任務上都能超越人類的 AI 系統。再次強調,我不知道這是否真實,但我們應該從長遠的角度思考問題。我認爲有很多變化正在到來,我們需要開始适應這些變化。我們必須親自參與,因爲如果我們不這樣做,實驗室就會繼續發布平庸的教育項目,因爲他們不懂教育。他們會通過初創公司發布平庸的醫療産品,因爲他們不懂醫學。他們不像我們一樣關心倫理和公平。我們必須主動參與,否則别人會爲我們做出決定。袖手旁觀已不再可行。
我知道你們聽到過很多好東西。沒有簡單的答案,但我認爲現在是時候開始行動了。我希望你們能加入到這個實驗中,并互相分享經驗。
非常感謝大家。
原視頻來源:https://www.youtube.com/watch?v=xvxPFH16Bvg&t=338s&ab_channel=HarvardDBMI