作者 | AI 工作坊
來源 | AI 工作坊,管理智慧
咨詢合作 | 13699120588
文章僅代表作者本人觀點,圖片來源于 pixabay
哈佛大學最新研究表明:在接下來的幾年中,生成型人工智能有望深刻改變多種職業
如今,人工智能已經不僅僅屬于技術專家,幾乎任何人都能通過使用日常語言的指令而不是編程來運用 AI。我們的研究顯示,大部分商業功能以及超過 40% 的美國工作活動能夠通過通用人工智能被增強、自動化或徹底改造。預計這些變革将對法律、銀行、保險及資本市場等行業影響最大,随後是零售、旅遊、健康和能源行業。
對組織及其員工來說,即将到來的這一轉變将帶來重大的影響。在未來,我們很多人會發現,我們的職業成功将取決于我們能否從像 ChatGPT 等這樣的大型語言模型中獲取最優質的輸出,并能與這些模型一同學習與進步。爲了在這個 AI 與人類合作的新時代中脫穎而出,大多數人需要掌握我們所稱的 " 融合技能 " 之一或多個——智能詢問、融合個人判斷力和相互學習。
智能詢問指的是以能顯著改善思考和結果的方式指導大型語言模型(或者說,給它們下達指令)。簡而言之,這是一種與 AI 共同思考的技能。例如,一名金融服務公司的客服人員可能在處理複雜的客戶問題時運用此技能;制藥科學家可能用它來探索藥物化合物和分子作用;市場營銷人員可能利用它分析數據集,以确定最佳零售價格。
融合個人判斷力則是在通用 AI 模型對下一步行動不确定或在其推理中缺乏必要的商業或倫理背景時,加入人類的判斷力。這一做法旨在使人機交互的結果更加值得信賴。判斷整合需要洞察何時、何地以及如何介入,其有效性可以通過 AI 輸出的可靠性、精确性和可解釋性來評估。
相互學習是你可以通過将豐富的數據和組織知識整合到你對 AI 的指令中,幫助它理解你的業務需求,從而将其培養成爲你的創造夥伴。這種技能可以将通用 AI 定制化到适應公司的具體業務環境,使其能夠實現你期望的成果。在此過程中,你也将學會如何訓練 AI 處理更高級的挑戰。相互學徒制曾是數據科學家和分析專家構建模型時的專利,如今它在非技術崗位上也顯得日益重要。
爲何需要系統地培養這些關于思考、建立信任和個性化定制的新技能呢?實證研究一緻表明,目前大多數員工對大型語言模型的臨時指令通常會導緻不穩定或不理想的結果,特别是在處理複雜的推理任務時。這一點在從客服到市場營銷、物流、研發等各個功能領域均是如此。因此,我們所有人在工作中使用通用 AI 時都需要增加更多的嚴謹性。本文将闡釋如何實現這一目标。
智能詢問
如何提升大型語言模型(LLM)這類基于海量數據和概率驅動(而非人類邏輯)的複雜系統的輸出?這裏有幾種方法可供使用。
1、逐步推理。
在指導通用 AI 時,你需要将過程拆分爲若幹個步驟,并緻力于優化每個環節,這類似于工業制造初期科學管理的方法。但 AI 處理的不是裝配線,而是一連串的思考過程,目的是尋找解決方案。研究顯示,當通用 AI 被引導以這種方式拆解推理任務時,其性能會顯著提高,這在處理複雜問題時尤其有效,OpenAI 的研究員 Jason Wei 在首次探索 " 思維鏈條推理 " 時就已證明了這一點。
事實上,向 LLM 的指令中加入 " 讓我們逐步思考 " 這樣的簡單短語,可以在從數學到策略推理的多種任務中将其輸出的準确度提高三倍以上。比如,你的 AI 提示可能是:" 我的部門有 50 萬美元預算,已經用 20% 購買設備,30% 用于招聘新員工。我們剛獲得了 5 萬美元的預算增加。我們的剩餘預算是多少?讓我們逐步思考。" 模型将輸出:" 起初,你部門有 50 萬美元。你花了 20%,即 10 萬美元購買設備,剩餘 40 萬美元。你又分配了 30%,即 15 萬美元用于新招聘,預算降至 25 萬美元。最後,你收到了 5 萬美元的預算增加,剩餘預算爲 30 萬美元。" 盡管大多數人可以在頭腦中做出這種計算,但 LLM(其運算速度更快)能被訓練去詳細解釋在更複雜的量化問題上的計算過程,如計算銷售代表在多個城市間行駛的最短路線。這種方法産生了一個可追蹤的推理鏈,不是在一個黑箱過程結束時突然給出答案,而是讓你能夠驗證結果的準确性。
2、分階段訓練大型語言模型應對複雜任務。
在需要特定職業和領域知識的領域,如法律、醫療、科研或庫存管理中,可以逐步引入 AI 以達到更優效果。
舉例來說,麻省理工學院的研究者 Tyler D. Ross 和 Ashwin Gopinath 特近期探讨了開發一種 "AI 科學家 " 的可能性,該科學家能整合多種實驗數據并提出可檢驗的假設。他們發現,當這一複雜任務被細分爲若幹子任務時,ChatGPT 3.5-Turbo 能通過微調學習 DNA 的結構生物物理。在庫存管理這類非科學領域,子任務可能包括需求預測、庫存數據收集、訂貨預測、訂貨量評估和性能評估。對于每個子任務,管理者會利用自身的專業知識和信息來訓練、測試和驗證模型。
3、與大型語言模型進行創新型探索。
從戰略制定到新産品開發的許多工作流程都是開放式和叠代的。爲了充分利用這些活動中的人工智能互動,你需要引導機器設想多種潛在解決方案的路徑,并以更加靈活和多元的方式作出響應。
這種智能詢問可以提高大型語言模型在預測複雜财經和政治事件方面的精準度,正如 Philip Schoenegger, Philip Tetlock 及其團隊最近的研究所示。他們将人類預測者與被訓練爲 " 超級預測者 " 的 GPT-4 助手配對,這些助手能夠爲不同結果分配概率和不确定性區間,并就每個結果提供正反兩面的論證。研究發現,這些助手的預測結果(涵蓋從某一特定日期的道瓊斯運輸平均指數收盤價到 2023 年 12 月通過地中海進入歐洲的移民數量)比未經特定訓練的大型語言模型的預測結果準确度提高了 43%。
融合個人判斷力
在 AI 生成過程中引入專家級别及道德層面的人類判斷對于确保輸出的可信度、準确性和可解釋性,以及對社會産生正面影響極爲關鍵。這裏有一些你可以采用的方法:
1、整合檢索增強生成(RAG)。
大型語言模型(LLMs)不隻有可能産生虛構信息,它們訓練所用的數據和信息往往也是多年前的。在運用 LLMs 時,用戶經常需要就輸出中的可靠、相關及最新信息的必要性做出判斷。如果這類信息是關鍵的,你可以利用檢索增強生成(RAG)技術,從權威的知識庫中添加信息到商用 LLM 的訓練資源中。這樣可以有效防止誤信息、過時的回應和不精确的數據。例如,制藥研究者可能會利用 RAG 技術接入人類基因組數據庫、最新的科學期刊、覆蓋臨床前研究的數據庫以及 FDA 的指導方針。要部署 RAG,通常需要 IT 團隊的協助,他們能告訴你是否已經或能夠将其融合進他們的工作流中,從而爲他們的工作增添一層額外的質量保證。
2、保護公司及個人隐私。
如果你在 AI 提示中使用機密數據或專有信息,隻應使用經公司批準且部署在公司防火牆内的模型,切勿使用開源或公共的大型語言模型。在公司政策允許的前提下,如果大型語言模型的應用程序接口的服務條款明确信息不會被用于模型訓練,那麽你可以使用私人信息。
同時,注意到在制定提示時可能引入的偏見。例如,如果一位财務分析師請求 LLM 解釋昨天的季報如何顯示公司已爲未來五年的增長做好準備,這種詢問就表現出了近期偏見——在預測未來事件時過于依賴最近的信息。LLM 供應商正在尋找解決這類問題的方法。例如,微軟和谷歌正在增加功能,幫助用戶檢測可能有害的提示和響應。Salesforce 已經開發了一種 AI 架構,能夠在構建提示時隐藏任何敏感的客戶數據,防止這些數據被傳輸至第三方 LLM,同時對輸出進行風險評估,如毒性、偏見和隐私問題,并收集反饋以改進提示模闆。盡管如此,最終,最關鍵的還是你——系統中的人類用戶——的判斷。
3、仔細檢查可疑輸出。
根據現有研究,即使在進行大量數據處理和其他幹預措施後,錯誤和幻覺仍然難以完全避免。加州大學伯克利分校的研究員 Jinwoo Ahn 和 Kyuseung Shin 指出,當大型語言模型的用戶遇到看似錯誤的輸出時,他們往往會本能地多次嘗試重啓模型,這反而可能逐漸降低回答的質量。研究者建議,應該确定 AI 出錯的具體步驟,然後使用另一個 LLM 單獨執行這一步驟,先将問題分解成更小的部分,再使用結果來調整第一個 LLM。例如,一位科學家可能使用 OpenAI 的 ChatGPT 來幫助開發一種新的聚合物,并進行一系列的步驟計算。如果她在過程中的某個環節發現了錯誤,她可以讓 Anthropic 的 Claude 将問題分解成更小的子問題并進行解釋。之後,她可以将這些信息反饋給 ChatGPT,請求它精煉其回答。這種方法本質上是将鏈式思維的原則應用于修正你認爲錯誤的輸出。
相互學習:把 AI 培養成你的助手
随着大型語言模型(LLM)的規模和複雜度增加,它們能夠展示出 " 突現屬性 " ——這些是未經特别訓練卻在提供了相關背景數據或知識後顯現的強大新能力,例如高級推理。爲了推動它們的發展,你可以執行以下幾個步驟。
1、提供 " 思維示範 "。
在向 LLM 提出問題讓其解決之前,你可以先引導它按照特定的方式進行思考。比如,你可以教授它 " 從簡到難 " 的推理方法,向 AI 展示如何把一個複雜的挑戰分解爲幾個更小、更簡單的挑戰,先解決最簡單的問題,然後用這個解答作爲解決下一個更複雜問題的基礎,依此類推。谷歌 DeepMind 的 Denny Zhou 和他的團隊證明了,這種 " 從簡到難 " 的方法能将 AI 輸出的準确率從 16% 提升到 99%。
比如說:想象一位負責健身服品牌的營銷經理,他需要策劃一個新産品系列。他可以按照以下步驟指導 LLM 來分析問題:
受衆定位:識别潛在的客戶群體——健身愛好者。這對一個在公司客戶數據上進行過訓練的模型來說相對簡單。
信息設計:創建強調産品性能、舒适性和風格的營銷信息。這是一個更具挑戰性和需要創造性的任務,需要在已識别的受衆基礎上進行。
選擇渠道:選取社交媒體、健身相關博客和與影響者的合作,這些渠道将有助于将營銷信息有效傳達給目标受衆。
資源分配:根據所選擇的渠道進行預算分配,這通常是組織中最容易引發争議的問題之一。
通過這種方式,營銷經理可以系統地利用大型語言模型來優化營銷策略的各個方面,确保新産品線的成功推廣。
2、通過上下文學習訓練你的 LLMs。
你可以通過向 AI 展示一系列上下文示例來教它如何完成任務,這種方法允許你調整預訓練的大型語言模型如 GPT-4、Claude 和 Llama,而無需複雜的參數調整。例如,研究者們通過向 LLMs 展示放射學報告、患者提問、治療進展記錄和醫患對話的示例,教會了它們如何總結醫療信息。研究發現,81% 的 LLM 生成的總結質量達到或超過了人工總結。
你還可以通過提供相關背景信息并持續提問直至解決問題的方式來訓練 LLM。例如,兩家軟件公司均希望提高銷售量。第一家公司的銷售團隊長期難以準确預測軟件許可需求,因此領導先是提供曆史銷售數據,詢問下一季度的預期需求,再提供關于客戶軟件功能升級和年度預算的信息,探讨季節性影響,最後,他輸入了 CRM 系統和市場報告的詳細數據,探讨市場活動對銷售的影響。
第二家公司的銷售團隊則關注于改善客戶選擇,領導可能會提供具體的财務數據,指導 LLM 按照收入貢獻對客戶進行排序,然後逐步深入到地理範圍、客戶群、技術能力等問題。在這一過程中,兩位高管都在通過具體的公司銷售策略上下文訓練 LLM,并提高其完成任務的能力。他們将公司和行業的知識整合到交互中。随着 LLM 在具體銷售流程上積累更多經驗,其生成的答案也越來越精準。
相互學習是一個過程,用戶從提出簡單的問題或指令開始,逐步增加任務描述的複雜性和細節。在這一過程中,他們可以增添背景信息,調整用詞,并觀察模型如何反應,不斷試驗直至實現預期效果。
最重要的是:學習和掌握 AI 技能
要廣泛掌握通用 AI 技能,不僅需要企業進行大量投資,也需要個人的主動學習和努力。雖然已有少數公司提供相關培訓,但大多數公司尚未建立完善的培訓體系。事實上,在我們 2024 年對 7000 名專業人士的調查中,雖然 94% 的人表示願意學習新的技能以應對通用 AI 的挑戰,但僅有 5% 的人表示他們的雇主在大規模地積極培訓員工。因此,很多人将需要自主行動,跟上 LLMs 的快速進展以及各類工作和行業中逐步應用的高端研究。你可以注冊各類平台提供的在線課程;嘗試我們讨論過的提示技巧以及新興的提示方式;并推動你的雇主提供更多使用 LLMs 的機會,同時輔以最佳實踐的培訓。
接下來要掌握的是鏈式思維提示技能,應用于代理工作流和多模态大型語言模型(MLLMs)。這些模型能夠整合不同類型的數據,如文本、音頻、視頻和圖像,并能在這些格式中提供輸出。一項研究表明,鏈式思維提示可以将 MLLMs 的性能提高至 100%。早期采用者已經在測試這些方法,但它們尚未成熟,還不足以廣泛推廣。
人工智能革命并非即将到來,而是已經來臨。領先的企業已經在利用這項技術重新定義各行業、各職能和各種工作的流程。通用人工智能大幅提高了标準,要求我們與 AI 共同思考,确保信任其結果,并不斷調整它和我們自身,以實現更優表現。盡管通用 AI 是推動人機共生關系的一部分,但它在技術發展史上也獨具一格。曆史上沒有其他重大創新以如此迅速的速度起飛。知識型工作的變革将比我們大多數人預想的更快、更強大。準備好吧。
未來的商業将不僅由通用 AI 驅動,更重要的是由那些能夠最有效運用它的人引領。
原文鏈接:https://hbr.org/2024/09/embracing-gen-ai-at-work