作者| AI工作坊
來源 | 管理智慧
咨詢合作| 13699120588
文章僅代表作者本人觀點,圖片來源于pixabay
一個有趣的現象是,很多時候解決許多AI問題的方法是更多的AI本身。這有點違反直覺,但大型語言模型的一個顯著特性是,它們在檢測自己輸出中的錯誤方面,比在一開始就不犯那些錯誤更出色
近日,紅杉資本專訪了Sierra AI聯合創始人Clay Bavor,揭示了這家AI初創公司如何通過對話式人工智能平台改變客戶服務領域。
Sierra由前Salesforce聯合首席執行官、現任OpenAI董事會主席Bret Taylor與前Google同事Clay Bavor于今年2024年二月共同創立。這家總部位于舊金山的公司承諾提供一個能夠通過自然流暢的對話來回答客戶問題和解決問題的平台。Sierra的AI代理不僅能夠匹配品牌的語調和聲音,還能協助處理退款、訂閱更新等實際應用場景。
Clay Bavor在采訪中詳細介紹了Sierra團隊在過去18個月中面臨的工程挑戰和取得的重大突破。公司開發的AgentOS使企業能夠創建品牌AI代理,這些代理不僅可以與客戶互動,還能遵循細緻入微的政策,甚至處理客戶保留問題。Sierra通過捕捉企業的品牌聲音、價值觀和内部流程,創建真正代表業務的AI代理。
Bavor強調,每當技術發生重大變革時,人們與計算機、技術的交互方式都會随之改變,企業與客戶互動的方式也會因此發生革命性的轉變。從90年代的互聯網革命,到2000年代中期社交網絡的興起,再到2015年左右智能手機的普及,如今AI的進步使得創建能夠理解語言、生成語言,并且能夠進行推理和決策的軟件成爲可能。
Sierra的技術不僅僅停留在構建代理本身,還包括一些監督代理,它們像"小蟋蟀"一樣監督主要代理的工作,确保輸出的内容符合事實、不違反相關規定,并防止可能的提示注入攻擊。通過這種多層次的架構,Sierra聲稱已經達到了超過70%的問題解決率,同時保持了高度的安全性和可靠性。
視頻時間軸
00:03:20 - ChatGPT 時刻之前的 Google
00:12:03 - ChatGPT前不可能的事情現在可以實現?
00:23:45 - 解決方案是更多的人工智能
00:37:27 - 委托代理執行哪些任務?
00:46:22 - 當今向客戶部署人工智能的現實
00:53:33 -公司人工智能體驗經理
01:03:54 - 基于結果的代理定價模式
文稿整理
旁白: 在過去一年半的工作中,我們學到的一個有趣的東西是,解決許多AI問題的方法是更多的AI本身。這有點違反直覺,但大型語言模型的一個顯著特性是,它們在檢測自己輸出中的錯誤方面,比在一開始就不犯那些錯誤更出色。
谷歌人眼中的"ChatGPT 時刻"
主持人: 今天加入我們的是Sierra的聯合創始人Clay Bavor。在Clay與他的老朋友Britt Taylor一起創辦Sierra之前,他在谷歌工作了18年,在那裏他創辦并領導了Google Labs、他們的AR/VR項目以及公司的一些前瞻性項目。Sierra正在通過AI代理讓每家公司提升其客戶體驗。沒有人比Clay更了解AI代理今天能做什麽以及明天能做什麽。Clay,這次開場有點有趣,因爲我們彼此非常熟悉。但你能不能先向大家介紹一下自己,給我們一點背景資料,然後我們再來談談AI的未來以及Sierra在其中将扮演的角色?
嘉賓Clay Bavor: 首先,我是舊金山灣區本地人,我成長在離這裏不到四五英裏的地方。所以,我在灣區長大,見證了.com泡沫的增長和破滅。我學習了計算機科學,大學畢業後直接去了谷歌,在那裏工作了18年,直到去年3月。在谷歌,我幾乎參與了公司每個部門的工作。我從搜索開始,然後轉到廣告領域,幾年後我負責産品和設計團隊,管理現在的Workspace産品,如Gmail、Google Docs和Google Drive等。接下來,我在谷歌的最後10年裏,主要從事公司的一些前瞻性項目,有些是與硬件相關的,比如AR/VR項目,有些是與AI相關的,比如Google Lens和其他AI應用。15個月前,我離開谷歌,與我的一位老朋友Brett Taylor共同創辦了Sierra。我們在谷歌的早期日子裏認識,當時我們都在副産品管理項目中開始了各自的職業生涯。他是第一期,我是第三期,我們很早就認識并保持聯系,尤其是在一個年度撲克小組中,如果運氣好的話,每年能玩一次。我們在2022年12月見面,看到AI領域發生的一切,這些根本性的全新構建塊讓我們覺得可以創造一些非常特别的東西,因此我們創辦了Sierra。這就是我的介紹。
主持人: 其實我很好奇,嗯,我們需要盡快讨論Sierra是什麽,但作爲樂趣,你們在2022年12月——在ChatGPT時刻之後不久——你們的信念過程是怎樣的?或者在那個時刻之後多久,你們決定這項新技術足夠有趣,可以圍繞它建立一個公司?我可以插入一件有趣的事情嗎?希望你能談到這個。其實在ChatGPT時刻之前,你就已經告訴我一切都會改變。我還清楚地記得你告訴我,你不理解,你将能夠描述你想象中的一個場景,他們将能夠制作出一部電影,隻是通過你談論這個場景。你還記得你告訴我這些嗎?
Clay Bavor: 是的,所以我其實對這個問題也很感興趣。我在谷歌有一個優先的資格,可以看到很多來自2017年Transformer論文的成果,以及早期大型語言模型的出現。在谷歌,最早的一個模型叫做Mina或Lambda,在2020年有一篇論文,介紹了一個幾乎可以應對任何話題的對話聊天機器人。我記得即使在那之前,和這個東西的一個預發布原型互動時,我就有一種奇怪的感覺,似乎有某人或某物在對面,這感覺很不一樣。還有一個時刻,我想是在2022年年中,當時我們有谷歌的Pathways語言模型的第一個或第二個版本,一個擁有5400億參數的模型。我們測試它,以評估它有多"聰明"。一個智慧和理性的重要标志就是能以比喻和類比進行思考和推理。所以我們嘗試了一些東西,其中一個非常簡單的測試就是,我們問Pathways:"用三個字解釋黑洞。"它毫不遲疑地回答道:"黑洞吸(Black holes suck)。"我們都覺得這真是個很好的總結。還覺得模型似乎有幽默感,這很酷。真正讓我大吃一驚的是,我們問Pathways:"請用電影來解釋2008年的金融危機。"它再次毫不猶豫地回答道:"2008年的金融危機就像電影《盜夢空間》,隻不過不是夢中夢,而是債務中的債務。"我們所有人都停下來了,想這是什麽?它理解了CDO的概念,以及債務的嵌套性,能将其與《盜夢空間》這種夢的嵌套性聯系起來。這讓我們覺得,這真是一些新的、與衆不同的東西。
然後,還有其他幾個時刻。我記得第一個DALL-E的論文出來了,他們發表了一篇博文,人們對此反應平平。但對我來說,我記得其中一個亮點是,他們讓DALL-E制作了牛油果椅子,我知道這聽起來很奇怪,但這裏有一組10到20張看起來像牛油果的椅子圖片。這不是Photoshop,這些圖片以前從未存在過,但模型似乎理解了牛油果和椅子的概念,然後将它們結合在一起,一像素一像素地創建了這些圖片。所以我們有了牛油果椅子。
主持人: 這真的?我們真的有過椅子是牛油果形狀的嗎?
Clay Bavor: 是的,我們真的有。順便說一下,我們有時确實在一些事情上花了太多錢,比如那些袋子,也有過類似的情況。所以,我有一種感覺,知道某些東西正在到來。事實上,當時我在谷歌領導的團隊Labs已經在早期應用中大量使用大型語言模型了。所以有一個直覺,ChatGPT确實驗證了這個直覺。但我認爲Brett和我都在過去幾年一直關注着這一切,最早是翻譯,人類水平的翻譯變得更好,然後是語言生成。我認爲得益于OpenAI的工程工作、數據工作等等,使得GPT-3變成了ChatGPT,使得普通人不用會寫Python代碼也能理解這個東西的全部潛力。
成功AI商業案例
主持人: 我們接下來要談論AI的未來,談論代理,談論客戶服務。但首先,你能不能給大家介紹一下Sierra,以及你和Brett創建了什麽?
Clay Bavor: 簡單來說,Sierra使得世界上任何公司都能夠創建自己品牌的面向客戶的AI,來與客戶進行互動,從客戶服務到商務交易等。其背景是這樣的觀察:每當技術發生重大變化時,人們與計算機、與技術的交互方式都會發生改變,企業與客戶互動的方式也會因此徹底改變。在90年代,互聯網使網站成爲可能,企業第一次可以有一個數字門面,向世界展示自己,點擊按鈕即可更新庫存,等等。在2000年代中期到後期,2005到2008年期間,随着社交網絡的普及,企業突然可以大規模地與客戶互動,進行大規模的對話。到了2015年,随着智能手機的興起,企業可以将自己公司"瑞士軍刀"般的應用裝進每個人的口袋裏。比如,我敢打賭你手機上有你銀行的應用程序,可能就在主屏幕上。
最近幾年AI的進步首次使得可以創建能夠理解語言、生成語言的軟件,而最有趣的是,這種軟件能夠進行推理和做出決策。它帶來了非常令人愉悅的對話體驗,比如我們與ChatGPT的互動體驗。因此,我們認爲這對于企業如何與客戶互動是一個巨大的改變。你可以想象一下,現在我們做某些事情的方式與通過對話AI可以做到的相比有何不同。比如購物,你在市場上找一雙鞋,或者對于你來說,可能是一些新的啞鈴,非常重的,非常小的,然後你在網站上,你基本上要想象公司設計師如何組織産品目錄。所以,好吧,男士鞋,男士跑步鞋,男士競速鞋,輕便的鞋,Vaporfly鞋,我記不得名字了,等等。而通過對話AI,你可以直接說:"嘿,我需要一雙超輕便的跑鞋,有點像我上次買的那雙,你們有什麽推薦的嗎?"這有點像早期的雅虎目錄,你通過這種層級結構導航找到你想要的東西,而與之對比的是谷歌,你隻需解釋你想要的東西,然後它帶你邁出幾步遠。
我們與一家公司的客戶體驗負責人有一個引用,她說:"我不希望我們的客戶需要精通我們的産品目錄和公司流程才能完成一些事情。"你知道,買鞋在與公司互動中已經算是比較簡單的了。想象一下,給你的保險政策增加一個新的人,去移動應用的哪裏做這個?怎麽做?你的眼睛可能都看花了也不一定找到。所以,另一種選擇是與AI對話,特别是與我們圍繞Sierra構建的AI代理對話,這種AI代理代表着你的公司。我們認爲這真的非常強大。即使我們作爲公司才成立15個月,我們已經有幸與一些知名品牌合作過,比如Weight Watchers、Sonos、Sirius XM、Olukai。如果你正在市場上尋找新的人字拖鞋,我強烈推薦Olai的人字拖鞋,我自己有兩雙,非常好,質量極佳,還能做高爾夫球鞋用。
你應該去買幾雙,非常棒。而且對于Weight Watchers,我們正在爲他們提供積分建議,并幫助會員管理他們的訂閱服務。對于SiriusXM,我們幫助他們診斷和修複收音機問題,并找出你喜歡的音樂頻道等等。結果也是顯而易見的,在這個平台推出的第一年,我們在某些情況下解決了超過70%的所有客戶查詢,并且客戶滿意度極高。這一切讓我們相信,每家公司都需要自己的AI代理,我們希望成爲幫助每家公司建立自己AI代理的公司。
主持人: 現在有一些以前18個月前無法實現的,但現在可能的例子嗎?如果我們把時間快進到18個月後,那些現在還無法實現的事情你認爲未來會成爲可能?
Clay Bavor: 首先,這18個月以來,尤其是月複一月的進展真是令人歎爲觀止。18個月前,GPT-4級别的模型還不存在,那個時候它還是剛剛在地平線上露頭的東西。代理架構、認知架構,以及你如何組合大型語言模型和其他支持基礎設施的方式都非常基礎。因此,我可以說,将AI放在客戶面前,并且能夠幫助他們,同時保證安全可靠,這在當時幾乎是不可能的。18個月前的聊天機器人看起來很像一堆硬編碼的規則,這些規則可能是有人花了幾個月或幾年的時間拼湊起來的,結果變得非常脆弱。我想我們都有過這樣的體驗:與一個聊天機器人對話,它不斷告訴你"對不起,我沒聽懂,可以換個方式問嗎?"或者更糟糕的是,當你看到消息框和四個可以點擊的按鈕時,卻發現消息框被禁用了,你實際上不能使用它。它聲稱可以幫你解決任何問題,但前提是這些問題必須在這四個按鈕範圍内。
所以,像我剛才描述的那些内容,修複收音機、處理退換貨等等,18個月前幾乎不可能以令人滿意的方式實現,也無法爲企業帶來實際的業務成果。再快進18個月,我認爲我們可以在這個話題上深入探讨。我覺得多模态模型非常有趣,大約80%的客戶服務查詢是在電話上進行的,而不是在聊天或郵件中進行的,所以語音顯然将成爲其中的重要部分。退貨、換貨、診斷收音機問題等任務屬于AI代理可以處理的較簡單的任務範圍。我希望更先進的模型、更複雜的認知架構能夠提升代理的智能程度,解決更多的問題。此外,信任、安全性和可靠性——尤其是幻覺問題,我認爲依然是一個未解決的領域,盡管我們和其他人已經在這方面取得了巨大進展,但我們還不能宣布勝利。
主持人: 你認爲多久才能實現成爲默認的服務?不僅僅是客戶服務,而是貫穿整個業務流程。具體來說,在客戶服務方面,多久才能達到大家都期望能随時有一個AI或人類來回答任何問題的地步?能讓我們更具體地想象一下這個場景嗎?
Clay Bavor: 我們正在迅速接近這個目标。雖然我們現在已經能夠解決很多問題,但要成爲默認服務,還需要進一步的發展和突破。未來的AI代理将能夠更加智能地處理各種複雜的任務,确保客戶體驗的連貫性和滿意度。我相信,在不久的将來,AI代理會成爲每個企業與客戶互動的核心部分,并且客戶将會期待與這些智能系統進行無縫的對話。我不知道,但部分原因是我們整個行業還有一些問題需要解決。作爲一個行業,而不是某個公司,我們需要努力改善現狀。比如,你上一次在網站上與聊天機器人有愉快的互動是什麽時候?如果你問100個人"你喜歡與客戶服務聊天機器人對話嗎?"可能100個人中沒有一個會說"是"。但如果你問同樣的100個人"你喜歡與ChatGPT互動嗎?"可能100個人中都會說"是"。因此,我認爲我們在産品中做的一些工作就是要讓客戶的客戶提前知道,這個AI實際上非常聰明、非常好用。
一個有趣的具體技巧是,我們的答案是逐字逐句流式傳輸出來的,類似于ChatGPT的表現。人們已經非常習慣了這種信息流傳輸,這在視覺上是一個簽名式的表現,表明背後有一個非常智能的AI。因此,我們發現,客戶對我們AI代理的滿意度非常高,平均評分在4.5分左右(滿分5分)。在某些情況下,這個分數甚至高于客戶對人類代理的滿意度。當然,公平地說,人類代理通常會接手一些最難的案件,比如客戶已經非常生氣或特别沮喪的情況,但即便如此,這些結果仍然非常顯著。所以,我猜未來幾年裏,人們會意識到,"哦,我可以更快地解決我的問題,這個AI實際上非常有能力,不僅可以回答我的問題,還可以采取行動并完成任務。"
Agent OS(代理操作系統)問題
主持人: 你能談談Agent OS以及你們圍繞基礎模型構建的一些框架嗎?這些框架是如何讓一切運作的?
Clay Bavor: 這是一個非常有趣的過程,學習如何安全、可靠且有幫助地将AI置于客戶面前。非常重要的一部分是,首先要看看大型語言模型的挑戰是什麽,以及如何解決或有效地緩解這些問題。我們從幻覺問題開始,不知道你是否看到過幾個月前的一個例子,Air Canada的一個聊天機器人——我猜它是基于一個大型語言模型,但顯然沒有太多其他支持——在與一個有關于他們的喪葬政策問題的顧客互動。我想這個人家裏有人去世了,他在詢問退款和積分等問題。結果,AI編造了一個比加拿大航空實際喪葬政策更爲慷慨的政策。這個人拍了張照片,後來申請了全額退款等等,但加拿大航空說這其實不是他們的政策。奇怪的是,我有點不明白,這個案件最終鬧上了法庭,加拿大航空輸了官司。我們的想法是,嘿,這不過是500加元左右,對吧?但幻覺問題是真實存在的。
此外,還有其他需要克服的挑戰,比如我們在Agent OS中應對的。無論GPT-5或6有多聰明,它不會知道你的訂單在哪裏,或者你預訂的座位是什麽位置,因爲這些信息顯然不在預訓練數據集中。所以你需要能夠安全、可靠且實時地将AI代理(在我們的情況下)與記錄系統集成,以查找客戶信息、訂單信息等等。最後,大多數客戶服務流程其實相當複雜。你去呼叫中心,會看到牆上貼着流程圖,比如我們如何處理這個問題,如果出現例外情況該怎麽做等等。盡管GPT-4和Gemini1.5級别的模型非常強大,但它們常常難以遵循複雜的指令。我們在早期原型中的一個例子是,代理會被給出一個五步的退貨流程,比如"你好,我需要退貨"之類的請求,但它會直接跳到第五步,并調用函數來退貨,使用的用戶名是"John [email protected]",訂單号是"123456"。它不僅會編造事實或喪葬政策,還會編造函數調用和函數參數等等。因此,我們構建的Agent OS本質上是一個工具包和一個運行時環境,用于構建工業級代理。我不想說我們已經解決了所有這些問題,但我們已經克服并減少了這些問題的風險,達到了一種你可以安全地大規模部署它們的程度,可以與其進行數百萬次對話等等。而這一切都是從基礎層開始的。
我不是指基礎模型層,而是指平台的底層,你必須在這裏處理一些非常重要的事情,比如數據治理、個人身份信息的檢測、屏蔽和加密等。所以我們從一開始就在平台中内置了這些功能,以确保客戶的數據始終是他們自己的數據,并且他們客戶的數據也受到保護。比如,我們會在将任何個人身份信息(PII)記錄到持久存儲之前,先進行檢測、屏蔽或加密。知道我們将處理地址、電話号碼等信息,我們需要能夠安全地處理這些數據。在此之上,我們開發了一個我們稱之爲Agent SDK的工具包,它是一個爲構建代理而專門設計的聲明性編程語言。它使得代理開發者——大多數今天仍在Sierra内部工作——能夠表達高層次的目标和代理行爲的護欄。比如,你試圖完成這個任務,這裏是指令,這裏是步驟,還有一些例外情況,然後是護欄。舉個例子,我們的一個客戶在醫療相關領域工作,他們希望能夠讨論其全系列的産品,而不提供醫療建議。那麽你該如何創建這些額外的護欄呢?
通過Agent SDK,你可以定義AI代理處理複雜任務的行爲和框架。我們還有用于集成聯系中心的SDK,當需要交接時使用;我們還集成了記錄系統,比如訂單管理系統等等。最後,我們還将我們的聊天體驗直接集成到客戶的移動應用程序或網站中,支持iOS、安卓和Web等平台。一旦你使用Agent SDK定義了代理,我們就有一個運行時環境,可以将底層發生的事情抽象化,使開發者隻需定義代理應該做什麽,而Agent OS則負責如何實現。對于某些技能,可能不僅僅需要一次LLM調用,而是五到十次不同LLM的調用來處理不同的提示語。在其他情況下,我們可能需要檢索文檔來支持準确回答問題。而Agent OS的作用類似于一個操作系統,它抽象了很多複雜性,比如IO和資源利用,使得構建和部署AI代理的整個過程更快、更安全和更可靠。
主持人: 當你提到多次調用LLM時,有時是不是以監督的方式進行的?你是否會有一個監督代理來審查較低級别代理的工作?
Clay Bavor: 是的,過去一年半的工作中,我們學到的一個更有趣的經驗是,解決許多AI問題的方法是更多的AI。這有點違反直覺,但大型語言模型的一個顯著特性是,它們在檢測自己輸出中的錯誤方面,比在一開始就不犯那些錯誤更出色。這有點像你或我快速撰寫一封郵件,然後暫停一下進行校對:這是否有意義?這些要點是否協調?哦,實際上,我遺漏了什麽。而且更有趣的是,你可以提示LLM以不同的角色進行操作,比如監督者的角色,這樣它就會表現出更敏銳的判斷能力,更仔細地審查工作。所以,回答你的問題,Ravi,我們除了構建代理本身外,還有一些監督代理,它們就像小蟋蟀一樣,站在主要代理的肩膀上監督工作:這是否符合事實?這是否是醫療建議?這是否是财務建議?客戶是否試圖通過提示注入和攻擊代理,使其說出不該說的話?所有這些都通過将這些目标、護欄和任務框架層層疊加在一起,使用Agent SDK以及這些監督層次,使我們能夠達到現在的性能水平——超過70%的解決率,同時還能非常安全和可靠地做到這一點。
主持人: 這是我聽過的最酷的事情之一,就是告訴它采用不同的角色,然後它突然間表現得不同了。我記得當我第一次在ChatGPT上看到這個現象時,當它不幫你時,隻需告訴它它在這方面很擅長,它就更有可能幫你。
Clay Bavor: 這真是一個非凡的情況,真是非常奇怪。在過去的15個月裏,構建這些東西時,我們的調整之一就是:我們實際上是在用英語進行編程,我們可以給它相同的英語提示,它可能會給出完全不同的回答。在提示技術方面,即使沒有新的模型發布,通過改進提示方式,你仍然可以從中獲得更好的性能。三四個月前,有一篇論文建議,通過情感操縱大型語言模型,可以獲得更好的結果。他們發現了一種提示語的後綴,你可以說:"嘿,我需要你完成這個任務。"然後定義步驟等等,最後加上一句:"這對我的職業非常重要,你必須做好。"然後,AI的表現就會提高。你會想,這是什麽情況?現在的計算機是怎麽回事?不過,順便說一句,我們的提示語中沒有使用這種後綴——至少據我所知是沒有的。
但是像鏈式思維(Chain of Thought),一步一步來,這種方法能引發更好的推理,原因非常有趣。還有其他的任務分解方法,它們可以縮小LLM(大型語言模型)需要同時考慮的事情的範圍,從而提高推理能力,隻要你對它的要求足夠精準。這些技術都是我們應用并構建到Agent OS中的。實際上,我們有一個小而強大的研究團隊,我們的研究負責人Karthik Narsimhan還參與了ReAct論文的撰寫,這是最早的代理框架之一。我們的一位研究人員還撰寫了反思(Reflection)論文,其中讨論了如何讓代理暫停、反思自己的行動,在繼續之前思考"我做得對嗎?"
主持人: 順便說一下,你的發音真是太棒了。
Clay Bavor: 哦,謝謝!他的祖母聽到你的發音一定會非常開心的。
主持人: 發音非常柔和,做得很好。不是一個t,也不是一個th,而是介于兩者之間的發音。
Clay Bavor: 謝謝,非常感謝。他幫助撰寫了ReAct論文,這是最早的代理框架之一。我們的一位研究人員還撰寫了反思論文,其中探讨了如何讓代理暫停、反思自己的行爲,然後再繼續執行任務。這些都是我們能夠直接整合到系統中的技術。你應該談談我們最近的研究,TOA Benchmark。
主持人: 哦,TOA Benchmark,對,對。說實話,我在嘗試發郵件表示我喜歡這篇論文時,花了好一會兒才找到電腦上的TOA符号。
Clay Bavor: 對,TOA是我們的第一篇研究論文。首先,TOA是一個希臘字母,它代表工具代理用戶基準(Tool-Agent-User Benchmark)。我們發現,目前衡量AI代理性能的基準非常有限,基本上它們會給出一個單一的任務,讓AI代理使用一些工具來完成這個任務。然而,現實世界中與AI代理的交互要複雜得多。它們發生在自然語言的空間中,客戶可以說任何話,或者以多種方式描述他們想做的事情。這種交互往往是通過一系列信息進行的,AI代理需要能夠與用戶互動,提出澄清問題,收集信息,并且可靠地使用工具。最重要的是,它需要能夠一百萬次地可靠執行這些任務。我們發現,現有的基準無法有效衡量我們試圖成爲最佳的那些方面的表現。因此,我們的研究團隊着手創建一個基準,來衡量AI代理在與真實用戶互動并使用工具時的實際表現。這種方法非常有趣:你有一個AI代理需要測試,還有一個單獨的代理模拟用戶。測試的AI代理可以使用一組工具,比如一個簡單的工具可能是使用計算器進行數學計算,更複雜的工具可能是處理訂單退貨,使用相關的參數,比如訂單号、信用卡退款或商店積分等等。
然後,你可以運行一個模拟器,讓代理與模拟用戶進行對話,最終我們可以通過确定的方式測試功能是否正确使用。我們基本上創建了一個模拟數據庫,這些工具與其交互并進行修改。這樣,你可以初始化對話,讓用戶具備多種不同的角色——他們可能是暴躁的,可能是困惑的,也可能知道自己想做什麽但表達得很笨拙。這樣,AI代理采取哪條路徑達到正确的解決方案并不重要,隻要它最終達到了正确的結果。從這個過程中我們發現的東西非常有趣,我認爲這大大促進了類似Agent OS、框架和認知架構的發展,用于構建這些代理。最終結果是,單靠LLM在這項任務上表現非常糟糕。即使是最前沿的模型,在處理退貨這樣簡單的任務時表現也不佳。盡管給出的指令非常詳細,功能和工具的使用文檔也非常完備,但最好的LLM在這項任務中僅有61%的準确率。這是針對退貨任務的,而在處理航空預訂時,我們還進行了兩種模拟版本的測試。
最好的結果是35%。有趣的是,我們都知道,如果你把一個小于1的數字提高到N次方,它會迅速變得非常小。因此,我們開發了一種叫做"pass at K"的度量标準,就是說,如果你運行這個模拟八次,并且記住你可以利用LLM(大型語言模型)的非确定性,每次讓用戶模拟器都不同,那麽0.61的八次方大約是25%。你可以想象,如果你進行一千次這樣的對話,你會發現要依賴這個東西還差得遠。所以,結論是,我們需要更複雜的代理架構,才能安全可靠地将代理置于任何人面前。這正是我們通過Agent OS和周圍的許多工具所構建的東西。
工程任務和研究任務
主持人: 工程任務和研究任務的區别是什麽?你認爲在這些任務中,工程任務和研究任務各占多少比例?我猜背後的問題是,部署有用的代理并覆蓋廣泛的任務領域的時間框架是什麽?
Clay Bavor: 簡短的回答是,這兩者都有。但更具體地說,我對它在很大程度上是一個工程挑戰感到非常樂觀。這并不是說下一波模型和前沿模型的改進不會産生影響,我相信它們會産生影響。特别是我們看到的一些技術,比如更好的功能調用微調、面向代理的基礎模型微調或一些開源模型的微調,這些都會有所幫助。但是,我們在構建Agent OS和Sierra的基礎時采取的方法,首先是将構建AI代理視爲一個工程挑戰。我們在合成基礎模型,我們在使用我們自己的專有數據集對開源模型進行微調後處理,通過有趣的方式組合多個模型,通過檢索增強生成(RAG)系統來補充LLM自身的能力,從而提高事實性和可靠性。我們還通過所謂的推理框架來補充LLM的内置推理能力,這些框架位于模型之外,包括任務規劃、任務生成步驟、草稿響應和監督者等等。通過這種方法,我們已經能夠将AI代理安全可靠地置于大量客戶面前。因此,我不認爲這是未來的事情,而是已經發生的事情。我認爲,展望未來,我們會看到幾個不同的進展方向。一個是在基礎模型方面,随着能力的增長,代理會變得更聰明,我們設計了Agent OS的架構,使得我們能夠替換新的前沿模型,這樣每個人的代理都會變得更聰明,像是進行了一次智商升級。同樣有趣的是,我們還可以替換那些在特定領域更強但在整體上能力較弱的模型。比如,在處理案件或制定計劃時,我們可以使用更小、更快、更便宜且在特定任務上更強的模型。
主持人: 如果你有一個高價值客戶,比如說你現在不是在運營Sierra,而是運營一家擁有高價值客戶的公司,那麽今天你可以信任一個AI代理去面對客戶,處理哪些任務呢?這些任務在未來又會發展到什麽程度?我們之前談過這個話題,我喜歡你用的語言,比如代理已經不必隻出現在幫助中心,他們已經可以出現在主頁上了。對于設計良好的代理,特别是具有高"TOA Bench"分數的代理,今天你可以信任它們處理哪些任務呢?
Clay Bavor: 是的,你顯然對這個話題進行了深入、仔細的思考,并且非常關注細節。
主持人: 嗯,那它的"pass at K"評分會是多少呢?
Clay Bavor: 目前的範圍相當廣。簡單的事情,比如回答問題,這是最基本的任務。再複雜一點的,比如幫你解決一些複雜的問題,比如"我買了這雙鞋或這件衣服,它不太合适。"然後從這裏開始延伸,可能是"你有什麽推薦的更适合我的東西嗎?"這開始涉及到代理需要理解款式、尺寸之間的差異,比如寬版和窄版等。再進一步的是類似故障排除的任務。比如,我們幫助Sonos的客戶排除系統連接問題或者設置新系統的問題。你可以想象,它很快就會變得非常複雜,基本上就是一個排除法的過程,試圖弄清楚問題是出在Wi-Fi、配置還是其他方面,縮小可能的問題範圍,就像一個高級技術支持人員那樣,最終讓音樂重新播放。
主持人: 你提到"信任",你會信任一個AI代理去做什麽?
Clay Bavor: 我們特别自豪的一件事是,我們的一些客戶實際上信任我們,當有客戶打電話進來可能想取消或降級他們的訂閱時,我們的AI代理可以幫助這些客戶了解他們今天是如何使用這個服務的,是否有其他适合他們的計劃。這涉及到價值發現,向客戶展示一系列不同的優惠,并根據客戶的曆史記錄、他們當前的計劃等,正确地定位這些優惠的價值。這種情況下,保留一個客戶與否的差異是非常重要的。AI在客戶服務方面的顯而易見的好處是節省成本,并且可以改善客戶體驗,尤其是你永遠不需要等待接通電話。然而,收入保留和生成是完全不同的事情。這在任務的右端(即複雜任務)表現得非常出色,我們爲我們的代理在這些情況下的表現感到非常自豪。有趣的是,通過一緻性和花時間了解是什麽驅動了某人可能離開服務的決定,詢問後續問題,我們可以比那些在某個呼叫中心的不耐煩或測量不當的客服代表更深入地理解驅動這一決定的原因,找到适合這個人的計劃,并把它呈現在他們面前。
于未來的發展,我認爲我們還沒有遇到一個我們無法通過Agent OS和我們的代理架構來建模和擴展的複雜流程。當然,可能會遇到特别複雜的挑戰,但我對我們目前的方向感到興奮。我們從服務開始,原因有兩個:一是投資回報率無可置疑地出色,平均一次呼叫的成本大約是12到13美元;二是盡管成本高昂,但大多數人其實不太喜歡打客戶服務電話。服務任務相對簡單,所以我們從這裏開始,但我們的客戶已經推動我們進入了追加銷售、交叉銷售等領域,比如"我們能不能讓你直接在産品頁面上回答關于我們産品的問題?"所以我提到了你在退貨時需要建議不同型号或尺寸的情況,這種情況可以延伸到什麽程度?我喜歡一個代理能伴随客戶整個旅程的想法,從購買前的考慮,到幫助客戶選擇适合他們的産品,再到幫助他們設置、激活并最大化使用産品,這對公司和個人都非常有利。當事情出問題時,代理也能及時提供幫助。
總的來說,我認爲客戶服務和通過非常直接和對話式的方式獲取幫助,将不再是一件需要"專門去做"的事情,而是更多地融入到整個體驗的過程中。我認爲,對于公司來說,有一個非常有趣且強大的機會,就是通過AI建立與客戶的連接,強化品牌價值。你可以想象,一家公司非常重視能夠在每一次數字互動中使用與其品牌聲音一緻的表達方式,這種表達方式可能是公司首席營銷官和通訊主管定義的:這是我們的溝通方式,這是我們的品牌價值,這是我們的風格。而這正是AI技術所承諾的。
主持人: 哪些指标會發生變化?
Clay Bavor: 我認爲更高的複雜性和整個客戶旅程的普及是兩個主要的發展方向。我經常思考的一件事是,我們已經習慣并接受了某些移動端轉化率的指标,不管是移動網頁還是移動應用。我們已經習慣并接受了一些留存率的數據。那麽,如果每一次客戶旅程都能有出色的體驗,那這些指标又會是什麽樣子呢?這真的可能與我們已經習慣的數字非常不同。
主持人: 是的,我覺得你說得非常對。我們現在還不知道,但顯然有很多提升空間。特别是在留存率方面,在使用的前30天内,各項健康業務的領先指标都有很大的上升空間。我認爲這是完全正确的。另一個思考實驗是,企業在使用有成本的東西時通常非常謹慎。因此,企業實際上讓客戶很難通過電話找到他們以問一些問題。我想現在有很多網站專門用于揭露那些被公司隐藏在幫助中心暗處的800電話号碼。
Clay Bavor: 是的,試想一下,如果這些互動變得更好,會發生什麽呢?順便說一下,人們報告客戶服務體驗不佳的首要原因是耗時過長。65%的負面互動是因爲耗時太長——我不得不等待、被擱置等等。其次是我與客服代表的互動不愉快。我們聽到過一些相當極端的案例,比如我們聽說過一位客服代表的評分一直很低,但波動很大。每三次對話中有一次評分是1分(滿分5分),而另外兩次則還不錯。後來發現,在那些評分較低的對話中,這位客服代表居然在通話中間開始模仿貓叫。
主持人: 貓叫?真是讓人無語。
Clay Bavor: 是的,這真是太奇怪了。那麽,回到正題,如果與現在相比,公司不是讓客戶幾乎不可能與我們進行對話并獲得幫助,而是提供了5到10倍數量的流暢、靈活且有幫助的對話支持,結果會如何呢?我不知道,但我想很多産品和公司的體驗可能會看起來非常不同,比今天更加令人愉悅。
客戶部署人工智能的現實狀況
主持人: 好吧,關于貓叫,我有一個問題,雖然我覺得這個遊戲很有趣,但是我真的有個問題。我們已經讨論了技術,聊了你們構建的認知架構等等這些好東西,我們也談到了客戶的體驗,這一切是如何發展的?我們能不能把這些内容結合起來,談談現在向客戶部署AI的現實是什麽樣的?
Clay Bavor: 這是一個非常有趣的領域,在過去的15個月裏,我們學到了很多。第一個洞察是,AI代理代表了一種完全新型的軟件。傳統軟件是用編程語言編寫的,基本上會按照你的預期運行。你給它一個輸入,它會給你一個輸出;你給它相同的輸入,它會給你相同的輸出。而相比之下,LLM(大型語言模型)是非确定性的,我們之前也讨論過一些關于提示語的有趣現象。記住,在與客戶的對話中,客戶可能會以任何方式說出任何話。所以你需要處理的是,如何将這些非确定性模型和人類語言結合起來進行編程,處理結構化的輸入與混亂的人類語言之間的轉換。在底層,當你升級一個數據庫時,它可能會更快,但基本上工作方式是一樣的。而當你升級一個大型語言模型時,它可能會以不同的方式說話,或者變得更聰明、更不同。因此,我們開發了一個新的方法來構建這些代理,我們稱之爲"代理開發生命周期"(Agent Development Life Cycle)。這是構建這些東西的新方法,比如我們使用聲明性編程語言來定義這些代理,還開發了一種新的測試方法。比如,什麽是單元測試或集成測試的等價物?我們構建了一個對話模拟器,可以爲公司的代理積累數百甚至數千個對話步驟,并重放這些對話,以确保代理不僅不會退步,而且會變得越來越好。包括發布管理、質量保證等等,這就是第一部分。
第二部分,回答你的問題,在實際設計這些東西時,我們非常自豪的一點是,我們提供的不僅僅是一組工具,而是一個完整的解決方案。我們不僅僅是給你一堆技術,然後祝你好運自己去構建代理。我們真的努力構建了一個解決方案,涵蓋了從技術到教導代理如何做事,再到如何審計、測量并随着時間的推移改進代理的一切。在Sierra内部,我們有一個部署團隊,包括産品經理和工程師。我們真的把每個AI代理的構建視爲爲客戶構建一個新産品的過程。基本上,這就是我們與公司合作後産品化的版本:它在最佳狀态下會是什麽樣子?它的聲音是什麽?它的價值觀是什麽?它的風格是什麽?它應該使用表情符号嗎?如果客戶使用了表情符号,它能回以表情符号嗎?對于這個問題,有各種各樣的意見。有些公司,比如如果與Hermes合作,我猜他們不會回以表情符号,肯定不會。而像Olai這樣的品牌,Aloha體驗的一部分就是一種輕松的體驗。
有趣的是,我們主要與客戶體驗團隊合作。是的,公司的技術團隊提供API訪問和系統連接等支持,但最重要的是與客戶體驗團隊合作,賦予代理公司獨特的聲音和價值觀。然後我們深入了解公司的業務運行情況,比如他們優化的重點是什麽,然後放大細節,了解運行業務的關鍵流程是什麽樣的。比如,當有人打電話進來處理這種問題時會發生什麽。幾乎沒有單一的事實來源。通常沒有一本"皮革裝訂的手冊"可以翻閱。事實的來源往往是在那些在公司工作了很久、見識過一切的四五個人的頭腦中。所以,我們與他們合作,了解實際是如何運作的。我們發現的一個更有趣的事情是,通常政策表面上是一個樣子,比如我們有一個30天的退貨政策,但實際操作中并不完全如此。可能實際的政策是"如果你之前從我們這裏購買過東西,并且在45天内,這也是可以的"。
因此,如何設計代理,使其知道表面政策背後的實際政策,而不會被聰明的客戶識破并問出"你們真正的政策是什麽?"并且讓代理說出所有的細節,這是一個有趣的架構選擇。我們需要确保這種"俄羅斯套娃"式的政策層次能夠完全反映出來。然後,我們在發布前有一個非常強大的測試過程,我們與公司内部的專家合作,讓他們來挑戰代理,試圖打破它,向它投擲難題。
主持人: 這個體育比喻很好,做得不錯。
Clay Bavor: 謝謝,我喜歡足球。在我們的友誼中,Revi是那個知道所有體育知識的人,而我則幫助解決技術支持、Wi-Fi問題、顯示器選擇以及選擇什麽筆記本電腦。有時,當我遇到看不懂的Sequoia備忘錄時——我不會說出公司名字——我可能會打電話給Clay,說:"嘿,Clay,這個人現在在說什麽?"他會回答:"我明白,我來幫你解釋。"
主持人: 嗯,那麽這個體驗經理(Experience Manager)呢,Bill Bellachic那個家夥,到底發生了什麽?你提到Revy了。
Clay Bavor: 這就引出了我們平台中一個非常有趣的部分,我們稱之爲"體驗經理"(Experience Manager)。一開始我們認爲将AI置于客戶面前首先是一個技術問題。當然,我們需要解決各種技術問題,但實際上,這首先是一個産品設計和體驗設計的問題。你如何做到這一點?你如何不僅理解、建模并反映我們之前提到的聲音、價值觀,以及公司用來支持客戶的工作流程和流程,但當AI在一年内與數百萬客戶進行對話時,你如何理解它在做什麽?你如何知道它什麽時候出錯了(這不可避免地會發生),以及如何糾正這些錯誤等等。所以我們構建了一個我們稱之爲客戶體驗團隊的指揮中心,首先是獲取報告和豐富的分析數據,了解一切正在發生的事情,什麽是熱門問題,有哪些新的問題是你之前沒有見過的。我們特别自豪的一點是,我們實際上在客戶自己發現問題之前,就已經察覺到他們遇到的問題或即将遇到的問題。比如,一個配送中心的故障導緻訂單未被發貨,我們在客戶即将面臨公關危機前的8到10小時内就發現了這個問題,或者是另一個應用程序崩潰的問題。
首先是分析和報告正在發生的事情,當然,這包括解決率、客戶滿意度等等。真正有趣的是,我們可以應用不同的抽樣技術來識别一組對話供客戶體驗團隊審查并提供反饋。我們可以有意地偏向那些更可能包含問題的對話。查看100次完美的對話沒有任何價值,客戶不會說:"好樣的,Sierra,謝謝。"這對我們的客戶沒有價值。我們可以通過抽樣将問題案例浮出水面,然後在體驗管理器中,客戶體驗團隊可以提供反饋,基本上是教練時刻:"我不會那樣做。"比如,"這太多感歎号了,對于我們追求的語氣來說過于熱情了。"或者,"用戶顯然在這裏感到沮喪,而你沒有表達同情并爲問題道歉,下次要做到這一點。"更重要的是,"你對保修政策的解讀在這裏是不正确的,下次應該這樣做。"我們能夠在體驗管理器中捕捉到所有這些智慧、知識和指導,然後将其反饋到代理的開發生命周期中。每當我們做出改進時,我們都會創建一個新的測試,以便我們可以一直看到未來,确保保修條款的正确性,我們可以重新模拟那個對話。
放眼望去,這一切看起來真的像是與我們的客戶深度合作。我們非常自豪地認爲我們是客戶的真正合作夥伴。一方面,我們是技術的供應商;另一方面,我們非常了解他們的業務。比如,我可能對Sirius XM衛星廣播刷新流程的了解和地球上任何人一樣多,同樣的情況也适用于我們其他客戶的各種流程。我們不僅在讨論如何使用Sierra的AI代理,還在更廣泛地讨論如何使用AI。這些讨論不僅僅與客戶體驗團隊進行,還涉及到CEO,甚至在某些情況下涉及董事會。因爲我們可以節省巨大的成本,可以改善客戶體驗,并且在保持客戶不流失、推動收入增長的過程中,我們處在一個非常重要和特權的位置,這是我們非常感激的事情。
Sierra AI獨特價值
主持人: 聽你說這些時,我想起你提到你們有一個研究團隊,但你們同時也有一些非常真實的企業軟件銷售,還有部署團隊。在我在Instacart的時候,人們有時會問:"我們是一家以工程爲主導的公司,還是以運營爲主導的公司?"我總是回答說:"隻有所有部分都運作良好時,這一切才有意義。"所以我試圖避免回答這個問題,因爲我不想在團隊中制造不同的層次。你們在Sierra是如何做到這一點的,讓每個人都意識到自己所提供的價值?你們公司覆蓋了很多領域,這一點非常明确。
Clay Bavor: 從某種程度上來說,公司幾乎可以定義爲一個系統,用來創造快樂的客戶。,沒錯,這就是一個爲創造快樂客戶而運作的機器。再抽象一點來說,Brett和我真的把我們在Sierra所做的事情視爲一個公司、一個系統、一台機器,用來生産可靠的、高質量的、具有巨大投資回報率的AI代理,使我們的客戶在每一次客戶互動中都能發揮出最佳表現,并且能夠大規模地做到這一點,最終帶來滿意的客戶,我們希望這些客戶能與我們合作幾十年。
當你這樣表達時,任何人都能看到,一輛汽車是一個系統,是從A點到B點的機器。我們是工程主導還是輪胎主導?這根本沒有意義。所有這些部分都需要協同工作才能創造出這樣的結果。所以,我們是工程主導嗎?當然是。我們在構建一些世界上最複雜的軟件,做一些對我們的客戶非常重要的事情,這些東西必須是可靠且安全的。因此,工程當然非常重要。我們是研究主導嗎?是的,我們處于代理架構、認知架構、LLM組合、程序性知識建模和事實性驗證的最前沿。所以,我們也是研究主導的元素之一。我們是市場推廣主導嗎?當然是。企業軟件需要銷售,而銷售是什麽?就是幫助客戶理解他們的問題,并讓他們知道我們所構建的解決方案遠遠是最好的。這是一種溝通挑戰,一種連接挑戰,一種配對和解決問題的挑戰。然後,如果我們構建了正确的東西,并且有人想購買它,如何确保他們成功使用它,尤其是在這些東西還如此新的情況下?所以我們有一個部署團隊。我們是部署主導嗎?是的,這些都是我們生産AI代理、最終創造滿意客戶的系統和機器的一部分,我們希望這也能成爲一個非常重要的業務。
主持人: 這比我在Instacart給出的答案要好得多。你知道嗎,我通常會說:"要麽一切都有效,要麽一切都無效。"但你的回答非常好。
Clay Bavor: 是的,這比那要複雜得多。而且我認爲,Brett和我在職場上打拼了這麽久,看過了很多案例,我們能夠看到這一點,并且真的嘗試在公司内部灌輸這種心态。順便說一下,生産AI代理背後的"機器"是什麽?那是公司的文化,是公司的價值觀。:我們持有的一個價值觀是工藝精神,部分内容是持續的自我反思以進行自我改進,這既适用于個人,也适用于公司。所以每當我們犯了錯誤,我們會在那一周,甚至那一天就進行事後分析,所有人都會參與進來,思考我們能學到什麽,如何改進,下次如何做得更好。我們内部有一個Slack頻道叫"從失敗中學習",任何形式的失敗都可以被記錄在這裏。我們會問自己,如何從中學習,如何變得更強大,這就是持續改進、提升機器效率的一部分。我們的部署團隊,他們的首要任務是構建并部署成功的AI代理,爲我們的客戶帶來巨大的影響。其次,他們的任務是通過構建工具、編寫文檔和積累知識,逐步使自己不再需要這個工作,從而讓這個過程變得十倍快速且更加有影響力。
我們公司的另一個價值觀是強度,我喜歡這個,他們有非常好的價值觀。我們曾考慮過印一些T恤,設計成類似國家公園徽章的樣式,上面寫着"Sierra,我喜歡工作"。Brett和我都非常喜歡工作,我們的團隊也是如此。
主持人: 你們正在銷售的東西與傳統的企業軟件有很大的不同。雖然我們說有些相似之處,但實際上它完全不同,因爲你們在銷售的是解決方案,是一個完全不同的東西。
Clay Bavor: 是的,解決問題。你如何給"解決問題"定價?這是我們需要解決的更有趣的問題之一。我們采用了一種我們稱之爲"基于解決方案的定價"或"基于結果的定價"方式。這意味着我們隻在完全解決客戶問題時向客戶收費。有趣的是,這使我們的激勵機制與客戶的需求深度契合。我們希望不斷提高解決問題的能力并提高客戶滿意度,而他們則希望将盡可能多的問題交給我們解決。是的,沒錯。我們爲客戶提供的服務成本隻是讓某人接聽20分鍾電話費用的一小部分。所以,這真的是一個非常好的模式,再次說明所有的激勵措施都非常契合,解釋起來也很簡單。它還使投資回報率的計算變得非常直觀:我們當前的每次接觸成本是多少?如果使用Sierra會是什麽樣的?哦,那會低很多,哦,我會省很多錢,哦,我們的客戶滿意度可能會上升。我該不該這麽做呢?嗯,這看起來非常棒。
我們喜歡這個模式,因爲它真的反映了我們對AI,尤其是AI代理的看法。如果你想想傳統的軟件和工具,它們幫助你更高效地完成工作,而AI代理的全部意義在于它們會直接幫你完成任務。你有問題,請解決它。所以,我們真的将其視爲向客戶收費的方式,即爲他們解決問題、完成工作、完成任務等收費。這感覺非常自然,而且沒有任何猜測的成分,比如我需要多少座位?我不知道。我需要多少許可證?不,不,不,無論有多少客戶問題傳到我們這裏,我們都會處理其中的大部分,你隻需要爲我們實際解決的問題付費。
主持人: 最後一個問題,在未來五年左右的時間裏,您對AI領域最感興趣的是什麽?
Clay Bavor: 首先,五年是一個很長的時間跨度。看看過去18個月裏發生的事情。我還在努力跟上過去五年AI發展的步伐。我小時候讀了很多科幻小說,其中有一本是羅伯特·海因萊因的《月亮是一個嚴厲的女人》。故事的前提基本上是美國革命,但月球是殖民地,地球是英國。而故事的主角是一台主機電腦,有一天因爲多加了一個内存芯片或其他東西而"醒來",并開始與人類對話,甚至希望發展幽默感,要求計算機技術人員幫助它練習笑話。後來,它還不得不制作一個實時的、照片般真實的視頻,作爲政治運動領導者發表演講。我記得自己還是個少年時讀到這些内容時,心想,我這一輩子可能都不會看到這些發生,這聽起來太瘋狂了。:但在很大程度上,過去五年中發生的事情讓我覺得,這些科幻情節似乎正在現實中上演。現在你可以直接與計算機對話,它不僅理解内容,還能理解上下文。你可以讓計算機爲你創建任何圖片、制作任何電影。我認爲這簡直令人難以置信。我認爲我們可能隻需再等幾年,就會看到第一部完全由AI"拍攝"的長片電影。所以,當你推測這些技術的發展方向時,你會發現很多令人興奮的東西。
我特别喜歡技術,特别是計算機技術,所以能夠親眼目睹這些技術的發展過程,真的讓我感到非常着迷。從我們如何思考,到計算機如何思考,這一切都非常有趣。讓機器更好地思考,竟然可以通過模拟人類思維的方式取得驚人的效果。比如,逐步展示工作步驟,這在大型語言模型上效果非常顯著。那麽還有哪些類似的東西我們會發現?相反,我們從AI的思維方式中能學到什麽關于人類自身思維的知識?這些都非常令人着迷。另一個讓我感興趣的是,随着視頻和其他技術的發展,我一直對計算機圖形學非常感興趣,尤其是利用計算機創造從未存在過的物體、世界。我認爲我們離這種能力已經不遠了:你隻需用幾句話描述你想要實現的整個世界,然後讓計算機爲你完成它。所以即便在幾年後,計算機圖形學、渲染等領域的樣貌将與現在的工具鏈、渲染器等截然不同。
總的來說,我認爲技術本質上是人類、公司和組織的倍增器。我認爲它的影響将是深遠的。想象一下,如果一家公司在做每件事情時都能發揮出最佳狀态,那會是什麽樣子。這不僅限于我們讨論過的面向客戶的場景,還包括每次區域銷售預測。如果一家公司能夠找到最好的方法,并将其應用到每個區域和子區域的銷售預測中,那它的能力将會提升到何種程度?同樣的道理,我們也談到了這個問題:如果每次與客戶的通話中,你都有一位最有經驗、見多識廣的客服人員,他對每個問題都了如指掌,但仍然耐心友好。或者有一位對你的産品了如指掌的銷售人員,因爲他或她跟随公司二十年,了解包括這些産品本身的曆史。我認爲這非常酷。
對于個人來說,我認爲擁有這一套新工具作爲創造力的倍增器将是不可思議的。AI代表了一種快速路徑,可以将你頭腦中的想法變爲現實。我甚至在我的個人生活中已經看到了這一點。和我的8歲兒子一起,我們隻用了75分鍾,從零開始,利用Copilot和ChatGPT等工具幫助我複習已經有些生疏的JavaScript語法,最終我們一起完成了一款遊戲。此外,我還用AI在45秒内爲我姐姐的生日寫了一首個性化的歌曲。這讓我想象未來五年的發展将是什麽樣子。我認爲這将顯著加速從想法到創造、再到讓事物在現實中呈現的過程。對我來說,這就是它的承諾。我認爲能夠親身經曆并見證這一切的展開是一種真正的榮幸。
主持人: 我們分享你的熱情,我們也感到很榮幸能與你們一起踏上這段旅程。謝謝你今天來到這裏。
Clay Bavor: 謝謝你們邀請我,真的很高興來到這裏。