哈佛大學演講：轉型AI沒有标準答案,企業和個人如何避免掉隊?

以下文章來源于 AI 深度研究員，作者 AI 工作坊

第三期華夏基石數智時代領導力特訓營熱招中！

來源 | AI工作坊，管理智慧

咨詢合作 | 13699120588

文章僅代表作者本人觀點

最近，賓夕法尼亞大學沃頓商學院的 Ethan Mollick 教授在常春藤名校哈佛大學發表了一場引人深思的講座。

講台上，Ethan 教授分享了他将 AI 引入課堂的經驗，展示了 AI 輔助教學的創新實踐。這種将理論與實踐相結合的方法，正是哈佛大學一直倡導的教育理念。過去幾個月裏，AI 領域的發展速度令人驚歎。正如 Ethan 教授在哈佛演講中指出的，許多 AI 實驗室的研究人員已經從最初的猶豫不決轉變爲現在的滿懷信心。他們普遍認爲，在未來四五年内，我們将見證 AI 能力的指數級提升。一些研究者甚至相信，他們能在短短五六年内創造出在所有智力任務上都超越人類的機器，即所謂的通用人工智能（AGI）。

然而，Ethan 教授也提醒我們面對 AI 時的挑戰。他在講座中指出：" 沒有現成的 AI 使用手冊。" 無論是企業的學習發展部門，還是像 OpenAI 這樣的前沿科技公司，都無法爲我們提供标準的最佳實踐。在這個全新的領域，我們都在摸索前進。Ethan 教授在哈佛大學的演講中提出了一個關鍵觀點：使用 AI 就像教學一樣。這一觀點與哈佛大學長期以來倡導的教育理念不謀而合。

正如一位 MBA 學生在講座後評論的那樣："AI 并不差，你隻是個糟糕的管理者而已。" 這句話道出了使用 AI 的精髓——我們需要像優秀的教育者一樣，給予 AI 清晰的指示和豐富的學習資源，才能充分發揮它的潛力

大家好，非常興奮。不過我今天想講的重點其實和介紹沒什麽關系。關于 AI，它們真的會改變教育。

關于 AI 的三個觀點？

首先，AI 生成内容是檢測不出的。 這當然意味着所有人都在作弊，100% 沒有例外。所以這很奇怪，教育現在處于 AI 采用曲線的尖端。70% 的本科生和 K-12 學生在使用 AI，即使他們沒告訴你，他們仍然在使用。我們無法檢測到 AI 寫作，将來也永遠無法完全檢測到，這将是一場無止境的軍備競賽，所以我們必須面對這個問題。

第二，AI 是無處不在的。 讓我感到興奮的是，我一直在嘗試通過模拟和體驗來大規模教育人們，而且順便說一句，我這次演講中的每一張圖片都是由 AI 生成的，這點可能沒有那麽顯眼。但有趣的是，這是第一個普遍可用的工具。以前，如果我去哈佛大學，他們有比其他地方更酷的工具，因爲那裏有很多資金。如果我去一個農村學校或者不同國家的學校，可能就沒有那麽好的資源這是一個非常獨特的時代，AI 的使用已經無處不在。

最後，AI 是具有變革性的。 我覺得你們之前提到了一個很重要的觀點，就是 AI 實驗室在向我求助尋找答案，這其實挺可怕的。沒有人真正知道這些模型能做什麽，我可以保證，開發這些模型的人對醫學或者醫學教育幾乎一無所知，他們隻是程序員，把這些東西當作編程問題來解決。他們完全沒有預料到 AI 會颠覆所有作業系統。每個行業都在發現它的用例，沒有人能幫你，我們隻能互相幫助，因爲根本沒有現成的答案。那些開發人員根本沒有考慮過這些問題。AI 模型在醫學領域表現得這麽好，完全是個意外，這絕對是他們始料未及的。所以每次有新模型發布時，我總覺得挺有趣的。我曾開玩笑問 Google 團隊，你們發布了新模型，那麽發布說明在哪兒呢？他們私下回複我，‘其實我們也不知道這個模型能幹什麽，所以希望有人能告訴我們發布說明是什麽。’這就是我們現在的現狀。不過，簡單來說，去年開始，一切都變得很奇怪了。這是 GPT-3.5，也就是 Chat 的免費版本的測試分數。"

案例 1：AI 參加 GRE 測試

當我說在 GRE 定量測試中，GPT 達到了 65% 這個分數時，舉個例子，這是用于申請賓夕法尼亞大學研究生的考試分數。這個 65% 不是答對 65% 的題目，而是 AI 擊敗了 65% 的人類考生。然後情況變得更加奇怪了，GPT-4 在其他測試中幾乎都拿到了滿分。現在，我們基本上有了五種不同的 AI，它們在任何測試中都能進入前 90 個百分位。有一次我展示了 Llama 3.1 統計數據的截圖，問 Claude 能否把這些數據轉化成圖表，結果它做到了。所以如果你想要的話，任何人都可以這麽做，隻需要問它就行。這也是曆史上采用速度最快的技術，我們絕對不可能回到過去。我跟一些人聊過，他們覺得或許可以讓時光倒流，但這絕對不會發生。我們從未見過這種采用曲線。顯然，人們已經發現它非常有用。我認爲現在的 AI 批評有點像倒退，盡管我們會讨論 AI 的一些合理批評點，但目前至少有一半的老師、學生和家長每周至少使用 AI 一次，而且沒有人會停止使用 AI 來做事。所以我們可以假裝想要放棄它，想要改變使用方式，但這是不可能的。我從 AI 剛出現時就一直在警告，家庭作業的 " 末日 " 已經發生了。AI 能完成所有級别的家庭作業，不僅僅是 K-12 和大學，它在哈佛的 GPA 達到了 3.34，即使有分數通脹，這也算不錯的了，甚至在研究生階段也是如此。你們或許已經看過斯坦福醫學院的論文，表明 GPT-4 比一、二年級的學生表現得更好。我特别喜歡右邊的這張關于法學院學生分布的圖。藍色曲線代表沒有使用 GPT-4 的學生，

分布相對正常，貼近标準分布的一側。而橙色曲線代表使用了 GPT-4 的學生。現在沒有 " 差 " 律師了，AI 替代了那些表現不佳的律師工作。這種拉平效應是我們已經看到的一個現象。顯然，教育是個大問題，我們接下來會重點讨論這個，但我也在思考它在現實世界中的影響。

案例 2：AI 創造力測試

我和哈佛、商學院、MIT 和華威大學的同事們一起做了很多研究。例如，我們和波士頓咨詢公司（BCG）合作進行了一個實驗，我們創造了 18 個現實中的商業任務，涉及分析任務、創造力任務，一些咨詢師可以使用 GPT-4，而另一些則不能使用。

這是實驗結果：任務的質量提高了 40%，速度提高了 26%。爲了讓大家有個比較，蒸汽動力在 19 世紀早期被引入工廠時，工廠的效率隻提升了 18% 到 22%。這些數據非常大。另一篇關于使用 GitHub Copilot 編碼的論文剛剛發表，它是早期的編碼工具，基于 GPT-3.5。研究發現，使用這些工具的程序員速度提高了 25%。所以，最低的改善線是 25% 到 60% 的表現提升是很常見的。對于我們教育者來說，另一件重要的事是，表現較差的人受益最大。在 BCG 的實驗中，技能分布底部 50% 的人提高了 43%，而技能分布頂部 50% 的人隻提高了 17%。情況比這還要奇怪一些，因爲我們還測量了一項叫做 " 保持率 " 的指标，即咨詢師最終将多少 AI 的回答當作自己的回答。唯一能讓 80% 的咨詢師出錯的方式是，他們對 AI 的回答進行了任何修改。隻要他們不修改 GPT-4 的答案，他們就表現得非常好。這種現象很常見，随着技能水平的提高，問題不再是 AI 能否完成任務，而是 AI 能完成誰的任務。我們在醫學領域也發現了類似的效果。你們應該都看過這篇經典論文，它讨論了 AI 如何回答 Reddit 上的常見醫學問題。

案例 3：AI 同理心和說服力

還有一篇 Google 的論文顯示了相同的結果。醫生認爲 AI 聊天機器人的回答比普通醫生更準确，而且在我們所有的研究中，AI 被認爲比醫生更有同理心。我相信你們一定讨論過這個問題，我們需要弄清楚這對我們的行業意味着什麽。我們不應該忽視那些真正有用的工具。現在，我不認爲這些工具已經足夠成熟，可以用于一線醫療工作，但我的标準一直是：它比人類中最優秀的人更好還是更差？我認爲這在醫學領域是一個相關的問題。然後我們看到了一些其他奇怪的現象，比如 AI 在創造力方面比人類更優秀。我在沃頓的同事進行了一項研究，他們讓創新課的學生産生了 200 個商業創意，同時讓 AI 生成了 200 個商業創意。" 他們讓外部評委根據人們願意支付的金額來判斷這些想法的質量。結果，在前 40 個最佳創意中，AI 貢獻了 35 個，而房間裏的真實人類隻貢獻了 5 個。在所有的創造力研究中，AI 擊敗了普通人類。雖然它還不如最優秀的人類，但比普通人要強得多。

然後在說服力方面，AI 比人類更具說服力，這和我們做的事情非常相關。如果你和普通人類與 AI 進行辯論，你更有可能改變觀點并接受 AI 的看法，成功率爲 81.7%。（雖然我可能記錯了具體數字）但就是這麽高。而我們唯一找到的一個能夠顯著減少長期陰謀論信念的方法，就是讓人們和 AI 進行三輪辯論。那些經曆了這種辯論的人，對任何陰謀論的信念在三個月後都會有所下降。幾乎沒有其他方法能改變這種頑固的信念。不過另一方面，如果通過 AI 說服可以改變深層次的信念，那麽我們不僅僅需要擔心陰謀論信念，這也是我們需要探索的新領域。如果你還沒看到這些研究，很多都發現了相同的結論，即受 AI 影響最大的工作是那些受過高等教育、薪水高、創造力強的職業。

在這項研究中，共有 1,016 種工作——順便說一下，商學院教授排名第 22，所以我對這個問題思考了很多。有四種受 AI 影響最小的職業，萬一你們想知道的話，分别是：職業舞蹈家、職業運動員、屋頂工人和挖溝工人。不過我實際上和一個阿米什社區的屋頂工人聊過，他正在使用 AI 發送報價。所以，如果阿米什人都開始用 AI 了，那麽對于我們所有人來說，AI 的普及已經是不可避免了。但這并不意味着完全替代，而是意味着 AI 和我們所做的工作存在重疊。這是變革的體現。

到這裏，我主要的論點是，在 AI 無處不在的世界裏，基礎知識比以往任何時候都更重要。你無法驗證這些工具做出的結果，除非你具備足夠的知識。專業知識比以往更加重要。我的意思是我們真正需要培養的那種專業知識，即通過内部啓發和高水平反複練習來判斷事物的自主能力。培訓比以往更加重要。我們需要真正能夠做事情，而不僅僅是談論它。這意味着在 AI 時代，教育比以往更加重要。所以我認爲，真正的挑戰是教育者如何思考這些問題。

AI 如何應用于教育？

我們給課堂的建議是回到學生應該學什麽的問題上，然後再根據這些内容決定如何使用 AI。你實際上有兩種選擇。第一種選擇是回歸基礎知識，我有一些 1970 年代經典計算器的圖片。計算器的出現絕對使得大量數學課程失效，在 70 年代中期引起了混亂。後來我們意識到，我們仍然希望人們掌握基礎數學能力，所以我們逐漸轉變方式，不再使用電子工具，而是要求學生通過手寫測試來确保他們掌握了這些知識。回歸到紮實的教育學基礎，低風險測試是完全合理的。所有關于低風險測試教育學的研究都表明，它不僅對測試有好處，而且學生在被測試後會更好地記住知識，他們在未來回憶相關知識的能力也會更強。有很多理由支持進行低風險測試，比如課堂上的測驗、藍皮書和活躍的課堂讨論。

但即便在這種情況下，你不讓學生使用 AI，而我們還會讨論學生使用 AI 的問題，教育者使用 AI 仍然有巨大的價值。在現實世界中，我們看到教師使用 AI 生成課程計劃、創建工作表和其他材料。而且很明顯，大家都是在邊做邊學。就像我告訴你的，沒有操作手冊。所以 AI 的第四或第五常見用途是檢查是否存在抄襲。如果你還不知道這個問題，你不能問 AI 某個内容是否由 AI 寫的。GPT-4 在 95% 的情況下告訴你是它寫的，因爲它想讓你高興，所以會幫你 " 解決 " 這個問題，但其實是假的。沒有任何 AI 檢測工具真正有效，尤其是這種方法特别差。現在有一些研究顯示，教師們通過與 AI 進行合作來受益。這意味着他們不僅僅是向 AI 請求輸出結果，還會和 AI 讨論他們想要研究的主題或感興趣的信息。這些教師似乎從 AI 的表現中受益最大。所以我認爲這是我們需要思考的一個角度。這是美國公立學校教師的長期研究。所以把 AI 看作一個創造性的合作夥伴似乎是有效的。它不僅作爲工具很好用，你可以給它一份文件，生成低風險測試。不過你不能僅僅要求它做這些事情。"

事實上，AI 直接用來做測試的效果非常差。但是如果給它正确的提示——我會給你們一些相關的鏈接——它在低風險測試方面表現得非常好，而且我們發現老師對此非常滿意。AI 在實際使用中的受歡迎程度極高。你可能會看到一些調查顯示人們不喜歡 AI，但在所有使用 AI 的調查中，每個使用 AI 的人都非常熱情，而那些不喜歡 AI 的人，其實是沒有在使用它。一旦他們發現 AI 很有用時，他們也開始喜歡 AI，并且會偷偷使用，不會告訴你。所有這些，我覺得還不如更大的問題有趣，那就是關于變革和思考這些系統帶來的變革。

1、由 AI 布置作業

我現在的課程是 100% 由 AI 驅動的。每一個作業都是基于 AI 的。我教的是創業課，這是一個實踐性的課程，因此很容易将 AI 納入其中。但我想談談一些方法。問題在于學生使用 AI 的起點，因爲他們現在在各個地方都在使用 AI。我不知道你們是否看過，有多少人教大班課程，但過去一年的一個大影響是，學生不再像以前那樣舉手了。當你問他們爲什麽時，他們說，" 爲什麽我要暴露自己的無知呢？AI 可以直接給我解釋清楚。" 在課堂上，我們有一個社會。契約，如果你不知道某個問題的答案，你會舉手，暴露自己的無知。通常這意味着我要爲 50 個人解釋這個問題，而不僅僅是一個人。但現在這種現象消失了。問題在于，學生向 AI 提問以獲得答案，但這并不能提供真正的學習。他們隻是以最舒适的方式獲取信息，而不是推動自己深入思考。這是非常糟糕的，因爲這會增加幻覺的風險。我們有一項新的研究表明，這會導緻大多數學生産生 " 掌握錯覺 "。一旦他們開始使用 AI 來解答問題，或幫助他們做作業，他們會覺得自己已經學會了，但實際上并沒有。所以我們看到，作業得分暫時提高了，考試成績卻下降了。這是可以解決的，但你不能隻是說，" 用 AI 吧，一切都會好起來的。" 這根本不是真的，事情不是那樣運作的。我們可以做得更好。

2、用AI 于教數學

另一個例子是——我們再看看這個。我們來看看模拟的例子。我已經開發了很長時間的模拟工具用于教學。這是一個談判模拟器。我們可以爲其他目的構建這些工具。我一直在和醫學院的人交流，他們也在構建這些模拟工具。我可以這樣說，" 我是一個高中藝術學生。"（當然，我把 " 學生 " 拼錯了，這讓我看起來更像個藝術生。）然後它會生成一個關于談判的場景，但首先它會問我了解多少。我回答 " 非常少 "。現在它應該會開始生成這個場景。接下來，它會給我們三個選項。我們從與 AI 系統合作中學到的一件事是，與其直接告訴人們答案，不如給他們選擇的機會。人們更喜歡多項選擇的解決方案。那麽我們選哪個？選個數字？選 3 吧。

對老師來說，這是最讓人抓狂的場景：和學生談判加分。我上周收到了六封這樣的郵件。" 現在它給出了目标，并從老師的角度提供了提示。你看，它即将進行整個角色扮演，最後我會說，" 給我 A+，否則我會尖叫。" 這并不是最好的表達方式（笑）。好的，挑挑眉毛，我覺得你這麽做有點不妥。注意，這個系統給了我們解決問題的提示。使用 AI 進行談判時有一個有趣的現象，它不希望你犯錯，它想幫助你。所以需要一點努力來抑制它的 " 助人 " 本能，因爲它不想讓你搞砸得太厲害。但這裏你可以看到一個不錯的例子。最棒的是，我們可以反複互動。而要讓這工作起來，隻需要用簡單的英文寫作。讓我看看，抱歉，系統有點延遲。這是 GPT 實際生成的文本。讓我們看一下，這裏是文本内容。它實際上就是我們作爲教學設計師和老師平常會寫的東西，按步驟寫出來，例如，先做這件事，然後設定角色扮演

接着，事情會變得更有趣，因爲我們可以從這裏出發，甚至開發我們自己的技術。我正在嘗試點擊一些非常小的按鈕，想給你們展示幾個不同的演示。我相信你們已經看過其中一些東西。你們中的許多人可能都使用過 Claude，對吧？Claude 之所以有趣，是因爲你可以對它說，" 創建一個解釋克雷布斯循環的互動演示，做得好一點。" 随着這些系統開始爲你構建和創造，它們讓你的能力從僅僅使用文字和寫作擴展到其他領域。順便說一下，大約半小時之前，OpenAI 宣布他們的高級語音模式已經可以通過 API 使用了，所以任何人都可以立即創建一個可以對話的互動代理。好了，它剛剛爲我們編寫了這個程序。我可以這樣做，比如說，" 讓它更互動一點，這太無聊了。"

我們正在構建一個開源工具，你可以告訴它創建明天課堂的模拟，它會查找所有相關内容，并自動爲你創建。它會和你進行對話，然後利用多個 AI 代理創建模拟。接着，它會通過讓虛拟學生進行測試來驗證和改進模拟，最後它會将模拟部署給真實的學生，并提供反饋和評分。重點是，一旦有了這些工具，任何人都可以輕松分享他們的專業知識和知識，而且越來越容易。

AI 時代如何培養真正的專業能力？

第一， 沒有現成的 AI 使用手冊。沒有人能告訴你如何讓這些東西運作起來。你的學習和發展部門不知道，OpenAI 也不知道，因爲沒有任何最佳實踐可以借鑒。我們什麽都不知道。但我要告訴你們的關鍵發現是，使用 AI 就像教學一樣。有個有趣的作弊例子，我問我在執行 MBA 課程的學生，" 有多少人使用了 AI 的幫助？" 因爲我教的是 AI，所有人都舉起了手。有人說，" 但 AI 在評價作業方面表現得很差。" 然後另一個學生轉頭對他說，"AI 并不差，你隻是個糟糕的老師和管理者。AI 在定價作業方面非常出色，你隻需要給它提供一本更好的教材讓它學習，并給它一些清晰的指示，它就可以在定價作業上拿到滿分。" 使用這些系統的過程就像和老師合作一樣。老師是這些系統的最佳用戶。程序員往往在使用這些系統時遇到很多困難，但老師、教育者，你們會懂得如何使用它們。

作爲一名關注教學法的教育工作者，我注意到 AI 系統在處理某些教育理論時存在誤區。比如學習風格理論，雖然學術界已經質疑其有效性，但由于在教師群體中仍廣泛流傳，AI 也傾向于接受這一概念。這提醒我們需要明确指導 AI，避免在讨論中使用某些有争議的理論。AI 在處理偏見方面已取得進展，但在特定領域仍存在明顯問題。例如，當要求 AI 扮演兒童角色時，往往會出現令人不安的刻闆印象。這凸顯了我們作爲教育者需要深入了解 AI 的局限性，并學會在教學中謹慎使用這些工具。

第二， 每個人需要具備程序員思維。我們不應被動等待他人開發工具，而應主動構建和分享教學提示。這種方法可能會打破傳統教育系統的限制，爲教育創新開辟新的可能性。AI 的出現可能會加劇某些傳統教學方法的弊端，如過度依賴講座式教學。然而，它同時爲主動學習等更有效的教學方法提供了更多機會。我們應該利用 AI 來設計更多互動性、參與度高的學習活動，從而提升教學效果。然而，我更爲關切的是 AI 對職場專業知識培養路徑的沖擊。傳統上，畢業生通過實踐逐步積累專業技能和經驗。但在 AI 廣泛應用的今天，這種培養路徑正在逐漸消失。許多企業可能更傾向于使用 AI 完成工作，而不是投入時間培養新人。這種趨勢可能導緻年輕人失去寶貴的學習機會。

因此，我們需要重新思考在 AI 時代如何培養真正的專業能力。這不僅涉及技術層面的适應，更需要我們重新定義什麽是核心的人類專業技能。我們可能需要設計新的學習方法和實踐模式，确保下一代專業人士能在與 AI 協作的同時，保持并提升自身的專業判斷力和創新能力。這是一個複雜而緊迫的挑戰，需要教育界、業界和政策制定者共同努力，爲未來的人才培養創造一個平衡技術進步和人類發展的新模式。

第三， 我們應當全面探索 AI 在教育中的應用。我建議大家投入時間深入使用這些工具，親身體驗它們的潛力和局限。通過反複測試和實踐，我們能夠更好地理解 AI 如何融入教學過程，并不斷調整我們的方法。然而，僅僅個人探索是不夠的。我們必須建立一個更廣泛、更開放的交流平台，讓教育者能夠分享各自的發現和經驗。遺憾的是，目前學術界往往更重視研究成果而非教學創新的分享。我們需要改變這種狀況，鼓勵一線教育工作者積極交流他們的教學實踐和創新。值得注意的是，AI 領域的發展正在加速。根據我最近與 AI 實驗室專家的交流，他們對未來發展充滿信心。許多專家預測，在未來四到五年内，我們将看到 AI 能力的指數級增長。有些人甚至相信，我們将在不久的将來實現通用人工智能（AGI），即在所有智力任務上都能超越人類的 AI 系統。再次強調，我不知道這是否真實，但我們應該從長遠的角度思考問題。我認爲有很多變化正在到來，我們需要開始适應這些變化。我們必須親自參與，因爲如果我們不這樣做，實驗室就會繼續發布平庸的教育項目，因爲他們不懂教育。他們會通過初創公司發布平庸的醫療産品，因爲他們不懂醫學。他們不像我們一樣關心倫理和公平。我們必須主動參與，否則别人會爲我們做出決定。袖手旁觀已不再可行。

我知道你們聽到過很多好東西。沒有簡單的答案，但我認爲現在是時候開始行動了。我希望你們能加入到這個實驗中，并互相分享經驗。

非常感謝大家。

原視頻來源：https://www.youtube.com/watch?v=xvxPFH16Bvg&t=338s&ab_channel=HarvardDBMI