"也許很快OpenAI将能證明陶哲軒是錯的。"
好家夥!隔着屏幕都能聞到"硝煙"味了(bu shi~
事情是這樣的。數學大佬陶哲軒和OpenAI兩位高管最近進行了一場線上對談,主題爲"The Future of Math with o1 Reasoning",即以推理爲主的o1模型如何與數學融合,從而解鎖突破性的科學進步。
其中陶哲軒認爲,人擅長從非常少量的數據中推斷出下一步該做什麽,這是AI不擅長的領域。
但OpenAI高管Mark Chen針鋒相對地指出,一旦OpenAI研究項目成功,人們将擁有非常高效的推理器,AI也能做數據稀疏推理,也許很快OpenAI将能證明陶哲軒是錯的。
BTW,本次活動由Natalie Cone(創立并管理着OpenAI論壇)主持,除了2006年菲爾茲獎得主陶哲軒,還有OpenAI研究高級副總裁Mark Chen、以及OpenAI科學政策&合作夥伴關系負責人James Donovan。
有意思的是,Ilya Sutskever(OpenAI前聯創&首席科學家,右下角)去年也參加了這個活動,甚至當時Jakub Pachocki(OpenAI現任首席科學家,右上角)也在。
鑒于直播内容較長,這裏直接爲大家奉上省流版:
AI可以将數學工作模塊化,比如模式識别、形成猜想、驗證等;
形式證明助手不可或缺,是進行數學研究和使用大語言模型之間的必要中間層;
論文是否給AI署名?當前AI的貢獻仍難以界定;
目前對數學結果進行搜索的最好方式是衆包,比如Math Overflow;
AI在競賽中的表現,既出人意料,也低于陶哲軒預期;
……
話不多說,1小時嘉賓對談+30分鍾觀衆問答,幹貨這就整理出來了!
陶哲軒對談OpenAI兩位高管
先來看幾位嘉賓這次都談了哪些内容,大緻分爲以下幾個方面:
AI在數學證明和發現方面的潛力
将AI融入傳統數學研究所面臨的挑戰
AI在科學發現與創新中的逐漸演變的作用
AI系統與人類數學家之間的合作機會
以下爲重點内容整理。
AI可以幫助同時推進成百上千個數學問題,思考也更深入了
James Donovan:你們目前在各自的研究領域中最關注哪些問題,以及爲什麽解決這些問題如此重要。
陶哲軒:我有很多想要解決的技術性數學問題。更貼近今天會議主題的是,我非常感興趣——我們如何從根本上重塑數學,以及如何利用所有這些新工具以前所未有的方式進行協作,以前所未有的規模開展數學研究。
我認爲這可能是一個新的發現時代。現在的數學家一次隻研究一個問題,在一個問題上花費數月時間,然後再轉向下一個問題。有了這些工具,我們可能可以同時掃描成百上千個問題,并進行不同類型的數學研究。我對這種可能性感到非常興奮。
Mark Chen: 過去一年,我們的一個主要關注點是推理。不過自GPT-4以來,我們略微改變了關注點。
GPT-4包含了大量的原始知識,但它在很多方面也存在不足。它會被簡單的謎題難倒,并且經常依賴于先驗知識。如果它對一個謎題的解法有先驗知識,它通常會犯同樣的模式匹配錯誤。這些都表明模型在深度推理能力上的不足。
因此,我們一直專注于開發o系列模型。這些模型更像是系統2思考者,而不是系統1思考者。它們不會經常給出直覺的快速反應,而是在生成回應之前花一些時間思考問題。
我想強調我們研究議程中的另外兩個關鍵問題:數據效率和如何爲用戶創造直觀愉悅的體驗。
AI可以将數學工作模塊化
James Donovan: Terry,你多次提到一種潛在的新型數學,也談到過不同的數學合作方式,能否爲我們詳細解釋一下?
陶哲軒: 數學一直被認爲是一項非常困難的活動,現在也是如此。原因有很多,其中之一是我們依賴一個人或一小部分人來完成許多不同的任務以實現一個複雜的目标。
如果你想在數學上取得進展,你必須首先提出一個好問題,然後找到解決它的工具,學習文獻,嘗試一些論證,進行計算,檢查論證以确保其正确性,然後以可以解釋的方式将其寫下來,然後你必須做報告,申請資助,還有很多其他的事情要做。這些都是不同的技能。但在其他行業,我們有勞動分工。
我認爲現在我們有了這些工具,原則上你可以進行一種合作,其中一個人有遠見,一個人或一個AI進行計算,然後另一個工具撰寫論文等等。因此,你不需要一個人在所有方面都是專家。
我認爲很多人因爲看到成爲一名優秀的數學家所需做的所有事情而感到氣餒,這确實令人望而生畏。但也許有些人擅長查看數據和檢查模式,然後要求AI檢查這種模式是否存在。也許他們不擅長找到正确的問題,但他們可以在一個更大的項目中處理一些非常狹窄的特定部分。
我認爲這些工具可以将數學工作模塊化,一些任務由AI完成,一些任務由人類完成,一些任務由形式證明助手完成,一些任務由公衆完成。在其他學科中,我們有公民科學,例如業餘天文學家發現彗星,或業餘生物學家收集蝴蝶。我們還沒有一種方法可以利用業餘數學家的力量,除了一些非常小的邊緣項目。因此,我認爲有很多潛力,我們必須嘗試很多東西,看看哪些有效。
AI與人類具體如何分工
James Donovan: Terence,你似乎默認假設人類仍然會劃分任務,他們仍然對流程有足夠的了解來決定誰做什麽,你是否認爲因此會出現不同的數學家角色,不同的專業方向?
陶哲軒: 我認爲軟件工程可以作爲數學發展方向的模闆。過去,可能有一位英雄般的程序員包攬一切,就像數學家一樣。但現在,你有項目經理、程序員和質量保證團隊等等。因此,我們可以想象在數學領域也這樣做。
我現在參與了幾個合作項目,它們既包含理論數學部分,也包含形式證明部分,還有人運行各種代碼算法等等。它已經像我預期的那樣專業化了。有些人不懂數學,但他們非常擅長形式化定理,對他們來說就像解決謎題一樣。還有一些人擅長運行GitHub,進行項目管理,确保所有後端順利運行,也有人做數據可視化等等。我們都在協調工作。
到目前爲止,主要是人類和一些比較老式的AI類型,比如改進器,通常隻是運行Python代碼之類的東西。但我認爲這是一個範式,一旦AI足夠好,它将非常适合其中。
James Donovan: 你是否認爲這些角色總是由人類擔任,或者你是否看到了一個由o系列模型本身分解問題的未來?
Mark Chen: 我現在幾乎把AI當作我的同事。有很多我不擅長的事情,我可以交給AI去做。我隻是在推測,因爲我不是數學家,但就AI在幫助解決數學問題方面的優勢而言,首先可能是識别模式。機器非常擅長這一點,尤其是有大量數據或大量需要篩選的内容時。
我認爲從識别模式開始,你可以開始形成猜想。我認爲它們在這方面可能有獨特的優勢——提出證明策略。我認爲今天人類仍然可能對前進的正确步驟有更好的直覺,但在特定步驟上可能存在盲點。我想上次我們提到了一種生成函數方法,一個模型在一個你試圖解決的玩具問題中建議了這種方法,結果證明這在那種情況下其實還不錯。
此外還有驗證。模型可能能夠驗證你确信正确的某些步驟,但你隻是想再找一雙眼睛來确認。也許還有生成反例。如果你想考慮一個定理可能是錯誤的許多潛在方式,一個模型可能能夠比你更有效地窮舉這些可能性。
形式證明助手不可或缺
James Donovan: 你們都提到了定理證明器和形式化的作用,是否可以公平地說,你們都認爲這是進行數學研究和使用大語言模型或同等技術之間的必要中間層?
陶哲軒: 基本上是的。證明必須是正确的。數學證明的特點是,如果一個證明有100個步驟,其中一個步驟是錯誤的,那麽整個證明就可能崩潰。AI當然會犯所有這些錯誤。有一些類型的數學可以接受一定的錯誤率,就像Mark說的,比如尋找模式,尋找猜想。
如果有AI隻有50%的正确率,但你有其他方法來檢查它,那麽也沒關系。特别是如果它想輸出一個論證,那麽強制AI以類似Lean的形式輸出是一個非常自然的協同作用。如果它編譯成功,那就太好了;如果沒有,它會返回一條錯誤消息,并更新它的答案。
人們已經實現了這一點,他們可以用這種叠代技術證明一些簡短的證明,但這還遠沒有達到你可以問它一個高級數學問題,它就能輸出一個巨大證明的程度。
AlphaFold可以用3天的計算時間做到這一點,但它無法擴展。對于某些軟性任務,可以接受正錯誤率,你不需要形式證明助手。但對于任何真正複雜的、一個錯誤就可能傳播的任務,它基本上是不可或缺的。
Mark Chen: 在OpenAI,我們在不同的時期或多或少地關注形式化數學。我認爲今天我們做的少了一些,主要是因爲我們想探索更普遍的推理。我們确實希望你在計算機科學等領域學到的推理與你在數學等領域學到的推理非常相似。所以我當然理解進行形式化數學的優勢。
數學家的"失敗"是AI寶貴的訓練數據
James Donovan: 即使在訓練過程中,可能有很多不正确的解決方法沒有進入訓練模型,因爲數學家通常不會發布和糾正錯誤的東西,這對于更廣泛的科學領域也是如此。你們兩位認爲這會産生很大的影響嗎?我們是否應該努力推動人們也發布失敗的答案?
陶哲軒: 我認爲這是一個好主意。鼓勵這樣做很困難,人們不喜歡承認自己的錯誤。但這對AI來說可能是非常寶貴的訓練數據。
當我教課時,有時最有效的課是偶然發生的,我準備了一個證明,然後在課堂上講,結果證明是錯的,我必須實時修改它。課堂上看到我嘗試各種方法,比如,如果我改變這個假設,這個例子可能會有效。後來我得到了反饋,說那些是我最寶貴的課。那是因爲我犯了錯誤。我認爲這些數據在很大程度上是你們無法獲得的。
事實上,許多領域專家的專業知識是建立在幾十年錯誤的基礎上的,這些錯誤教會了他們什麽不該做,即負空間。随着我們轉向更正式的環境,我認爲這方面開始有所改變。
現在,我們在證明完成後對其進行形式化。最終,我們将達到在進行過程中進行形式化的程度。我們可能在思考數學問題時與AI對話,并嘗試在進行過程中将步驟形式化。然後,也許它行不通,你必須回溯等等。這将自然地創建一些我們現在沒有的數據。
AI可能爲數學帶來新的靈感
James Donovan: 許多數學家都談到定理的美妙之處,以及所有元素都契合在一起并能優雅地表達出來的那種頓悟時刻。我們是否有可能在使用此類工具時失去這種認知過程?
陶哲軒: 當計算器普及時,也出現了類似的情況。人們總是說,既然你不用手工計算,你就會失去你的數感。在某種程度上,這是真的。我可以想象,100年前的數學家在從直接計算中獲得數感方面要好得多。但是,你也可以通過使用計算器獲得不同類型的數感。
所以我認爲會出現不同類型的審美标準。我認爲會有一些計算機生成的證明,它們以不同的方式同樣非常優雅和驚人。但我認爲,至少在未來幾十年裏,人工智能範式不會完全取代人類。
我認爲數學家在某種程度上比較慢,我們仍然使用粉筆黑闆。所以會有人仍然會精心設計非常精彩的證明。未來會有一類數學家,他們會将AI生成的數學轉化爲更人性化的東西。我認爲這在未來會很常見。
AI已經在實際教學中成功運用,最重要的是學會結合
James Donovan: 在我的生物學領域,人們傾向于認爲這些模型會在原本看似無關的事物之間找到模式,你會發現所有事物之間潛在的統一性。
這種想法基于這樣一個觀點:有很多唾手可得的成果,隻是我們還沒有注意到。而我認爲對于數學和物理學的部分領域來說,改進幾乎就在于活動的開展方式,我們感覺這可能存在根本上的不同。所以你們是否認爲這将對我們如何教育人們學習數學,特别是如何支持那些将要進行前沿數學研究的人産生影響?
陶哲軒: 學生們已經在使用大語言模型,最明顯的是幫助他們完成作業,但也可以從不同的角度看待一個主題。
教育工作者也在想辦法将大語言模型融入我們的教學中。一個越來越普遍的做法是,提出一些數學問題或其他領域的問題,給出GPT的答案,然後說這個答案是錯的,請評論它。或者與AI進行對話,并實際教它如何修改答案。
實際上有一個班級,他們做了一個小組項目,老師發了一份練習期末考試卷,然後說,請嘗試用提示工程和數據分析來訓練AI,弄清楚如何最有效地教會AI解決期末考試題,他們做到了。他們讓一組做提示,一組做基準測試等等。但這同時也迫使他們,例如,爲了生成所有數據,爲了生成模拟考試,他們必須真正理解課堂材料才能做到這一點。
所以這實際上是一個借口,讓他們深入研究,學習課堂材料以及如何使用這些AI工具。所以我們會找到創新的方法來結合這兩種方法。
Mark Chen: 你認爲過度依賴AI工具會導緻數學技能下降或洞察力喪失嗎?
陶哲軒: 我認爲這将是一種轉變。我們将更少地使用某些技能,但我們将更多地培養其他技能。
國際象棋就是一個很好的例子。國際象棋現在基本上是一個已解決的問題,但人們仍然經常下棋。但他們練習國際象棋的方式現在已經大不相同了。他們嘗試不同的走法,然後問國際象棋引擎,這是個好棋嗎?例如,國際象棋理論正在蓬勃發展,許多關于棋盤哪個部分值得控制的百年格言正在被重新評估,因爲人類會向國際象棋引擎提出各種問題。這是一種獲得國際象棋直覺的不同方式,而不是傳統的隻是下很多棋和閱讀很多教科書的方法。
所以,這将是一個轉變,一種權衡,但我認爲最終是積極的。
Mark Chen: 當人們問我應該如何适應新興的人工智能時,我仍然認爲,基本上沒有必要突然放棄學習任何特定學科。我認爲人們應該擁抱人工智能,看看它如何能讓他們更有效率。
在數學領域,它可以幫助你進行大量的繁瑣計算。如果這是一些你已經了如指掌的例行公事,你可以讓模型進行操作。我仍然認爲對一個學科有非常深入的理解是很重要的。即使在今天的機器學習領域,那些正在影響最大變化的人也是那些非常了解數學或系統的人。
我認爲人類有一種與數學核心相聯系的特殊審美。而且,由于其他人也在評判這種審美,模型在定義問題和擁有品味方面可能更難模仿。當然,數學本身就是一項很好的技能。我認爲它具有很強的可遷移性,它教會你穩健的推理,我認爲數學家通常适應性很強。
所以,絕對沒有理由不大量投資于數學。
用AI輔助證明隻是加速了已經發生的趨勢
James Donovan: 如果模型在做非常複雜的數學,我們可能會達到一個地步,即它超出了人類在我們的環境中驗證或理解的能力。你們兩位是否認爲這在不久的将來是可能的?如果是,如何應對?
陶哲軒: 事實上,現在就已經出現數學家有時會産生沒有人能理解的巨大證明的情況。人們已經在使用大量的計算機輔助。
有一些證明需要TB級别的證明證書,因爲其中包含大量的SAT求解器計算或一些大型數值建模。還有一些證明是建立在數百篇文獻的基礎上的,我們将這些先前的結果視爲黑匣子,沒有人能理解所有内容。所以我們在某種程度上已經習慣了這一點。
我們可以将一個複雜的證明劃分成多個部分,你隻需要理解其中一部分,然後相信計算機或人類能夠理解其他部分,并且它們都能正常工作。這種情況會繼續發生,所以我們将會有大型複雜的論證,其中一部分将由AI生成,希望也能進行形式化驗證。
我認爲這是一種趨勢,它隻是加速了已經發生的趨勢,我不認爲這是一個真正的相變。
Mark Chen: 我擔心的很多問題是類似的,比如你可能會有一些錯誤傳播,或者其他人建立在某個結果之上,而你隻是建立在一些錯誤的數學之上。特别是如果計算機生成的新見解的數量增加的話。
我們在OpenAI非常關注的一個問題是更普遍的可擴展監督問題。這個想法是,當一個模型花了大量時間思考,并得出了某種根本性的見解,你如何知道模型沒有犯錯?你如何知道它是正确的?你如何相信它?從根本上說,這确實是一個非常現實的問題。
它在幾年前可能還比較理論化,但我認爲今天的模型确實有能力解決非常困難的問題。那麽,我們如何審查并相信問題得到了正确的答案呢?
James Donovan: 數學是我們有機會解決這個問題的唯一領域,因爲我們有形式化驗證,這也可以自動完成。
陶哲軒: 是的,你希望這方面的進展最終能促進所有其他科學的進步。如果我們能找到一種方法,從這些數學證明推導到物理、化學等等。
數學生态會更加适應AI,但短期内變化不明顯
James Donovan: 數學的實際生态系統會發生變化以适應大語言模型嗎?如果是,會如何變化?
陶哲軒: 它會的。很難準确預測它将如何變化。
我認爲會出現一些現在不流行的新型數學,因爲它們在技術上是不可行的。特别是實驗數學是一個非常小的部分,我認爲像95%是理論性的,這在所有科學家中是不尋常的。
通常,實驗和理論之間是平衡的。但是實驗很難,你必須非常擅長編程。或者你的任務必須足夠簡單,你可以用一個普通的軟件來自動化它,這是數學家可以編程的範圍内的。但是有了AI,你可以做更複雜的探索。
傳統上,你可能會研究一個微分方程,但你可能會問AI,這是對這個微分方程的分析,現在對列表中的500個方程重複相同的分析。這是你現在無法用傳統工具自動化的事情,因爲你需要軟件對問題有一些理解。
所以我認爲數學的類型會改變。現在已經有一種趨勢是變得更加協作,這将随着AI的發展而加速。但我認爲至少在未來一二十年裏,我們仍然會寫論文、審稿、教學等等。我認爲這不會是一個重大的變化,我們會越來越多地在我們的工作中使用人工智能,就像我們已經在其他方面越來越多地使用計算機輔助一樣。
AI的貢獻仍難以界定
James Donovan: 能否設想一個我們将突破直接歸功于大語言模型本身的世界?那意味着什麽?
陶哲軒: 這将是一個我們必須面對的大問題。我認爲我們目前的論文作者模式,比如在科學領域,我們可能有一位主要作者,然後是一大堆次要作者。數學家還沒有這樣做,我們仍然按姓氏字母順序排列,在很大程度上,我們忽略了誰做了什麽的問題,我們隻是說,我們都做出了同等的貢獻。
我認爲我們将不得不更精确地界定貢獻。現在已經有這樣一種趨勢,至少在科學領域,當你寫一篇論文時,會有一部分是關于作者貢獻的,誰做了什麽。如果是GitHub,你可以查看GitHub提交,這也會給你一些數據。
所以,一旦你知道一半的提交是由AI完成的,等等,就會出現一個問題:你是否真的将AI提升爲共同作者,或者你是否至少在緻謝中提到它?我們還沒有這方面的規範。我們需要解決這個問題,會有一些測試案例和一些争議,最終會制定出對每個人都有效的方案。但我沒有這個問題的答案。
Mark Chen: 我認爲還有一個相關的問題,雖然不完全相同,那就是訪問權限的問題。如果模型繼續貢獻大量的證明塊,那麽那些擁有更多計算資源的人,他們在數學研究方面是否處于更有利的地位?這絕對是需要思考的問題。我不太清楚該如何沿着這條思路繼續思考,但它确實是一個難題。
AI打破了技術壁壘,以後不懂數學也可以進行研究
James Donovan: 對本身不是數學家的人來說,如果我們能夠真正加速基礎數學的發展,你預計會看到世界上發生什麽?這會爲社會其他部分帶來什麽?
陶哲軒: 我認爲這可以增加公民對數學的參與。可以想象,例如人們争論地球是圓的還是平的,令人驚訝的是,這個問題仍然存在。但是在AI中,你可以實際開始構建模型,你可以假設地球是平的,天空會是什麽樣子等等。
現在,在你弄清楚事物會發生多大的變化之前,你需要相當多的數學知識。但你可以想象,有了這些模型工具,它實際上可以爲你創建一個可視化工具,你可以看到,這就是這個宇宙理論的樣子。
所以我認爲這可以将數學與許多目前感到被排除在外的人聯系起來,因爲他們隻是缺乏進行這門學科任何研究所需的純粹技術技能。
James Donovan: 你是否認爲我們需要更好地進行這種數學研究,才能在其他應用科學領域使用AI?例如加速工程、物理或……
陶哲軒: 很多科學已經以數學爲基礎,如果你不懂數學,你無法在沒有數學的情況下進行準确建模。當然,在後端,如果你想訓練AI,你需要大量的數學。
我認爲我們可能會進入一個這樣的世界:你可以成爲一名生物學家或其他什麽,你可以要求AI進行統計研究,你不需要知道參數的确切細節。如果AI足夠可靠,它實際上可以爲你完成所有數學工作。所以它可以使數學成爲科學的可選條件,而現在不是這樣。所以它可以雙向運作。
數學家需靈活應對AI,知道如何玩AI很重要
James Donovan: 你對年輕數學家有什麽建議?他們應該關注哪些領域,應該解決哪些類型的問題?
陶哲軒: 我的建議是他們必須靈活。我認爲數學正變得越來越技術化,越來越協作。也許50年前,你可以專攻數學的一個子領域,幾乎不與其他數學家互動,你就可以以此爲生。現在這基本上是不可行的。我認爲數學是一個更大的生态系統的一部分,這是一件好事。
有了AI,它可以開啓比以前認爲可能的更廣泛的合作。你可以與你實際上沒有專業知識的領域的科學家合作,但AI可以幫助你快速入門,并在科學家之間充當通用翻譯器。
所以,要保持開放的心态,也要認識到這些工具也有局限性。你不能盲目地使用這些工具,你仍然需要培養自己的人類技能,這樣你才能監督AI。它不是魔杖。
James Donovan:根據你所看到的趨勢,你會鼓勵學生現在學習哪些技能,以便将來能夠充分利用這些模型?
Mark Chen: 老實說,我們仍然需要技術領域的專家,他們能夠與這些工具很好地協同工作。我喜歡保持靈活的總體建議。我認爲對各個領域的人來說,至少了解神經網絡如何工作、如何訓練、它們的動态是什麽樣的,以及它們的局限性是什麽,這将非常有幫助。
我認爲,人們玩得越多,越了解如何加速它們,他們就越有效率。我認爲每個人的效率都會有一個乘數效應。也許幾年後,這個乘數有望顯著大于1,但我認爲有效利用AI工具的人總體上會比那些對它視而不見的人更有效率。
AI在競賽中的表現既出人意料,也低于預期
James Donovan: 聽說模型最近在國際數學奧林匹克競賽有白銀級别的表現,你對進展速度感到驚訝嗎?
陶哲軒: 它既超出了我的預期,也低于我的預期。
在任何可以生成類似任務數據的任務中,例如國際數學奧林匹克競賽,DeepMind生成了大量的模拟證明,實際上是大量的模拟失敗證明,這實際上是他們秘密的一部分。所以很多我原以爲幾年内都無法完成的任務現在都完成了。
另一方面,每當你超越有數據存在的範圍,進入一個研究級問題,世界上隻有10個人真正認真思考過這個問題,AI工具仍然沒有那麽有用。我有一個我現在仍在進行的項目,我們正在證明2000萬個小型數學問題,而不是證明一個大問題。我認爲這是一項AI非常适合的任務,因爲如果它們能夠處理一定比例……
但事實證明,在這個項目研究的所有問題中,也許99%可以用更傳統的蠻力計算方法處理,而1%需要人工幹預,這相當困難。已經嘗試過的AI可以恢複99%的相當容易的問題,但它們并沒有對真正具有挑戰性的核心問題做出貢獻。這可能隻是目前技術水平的體現。
所以,我認爲在看到它們自主解決這些研究級問題之前,還需要有更多的突破。
Mark Chen: 我想講一個我腦海中的轶事,它既說明了這一點的令人印象深刻,又說明了仍有進步空間。
我們今年也用我們的o系列模型參加了國際信息學奧林匹克競賽。一方面,它們确實需要每個問題的大量樣本。我們在博客文章中宣布,你需要每個問題10000個樣本來從模型中提取金牌水平的表現。這感覺很多,但同時,它能夠做到這一點就已經讓我感到難以置信了。其中一些是非常反模式的問題。
所以它就在那裏。我真的很興奮能真正發揮出這種能力。
AI不擅長在稀缺數據中推理,OpenAI新研究有望解決
James Donovan: 你需要看到哪些類型的推理,才能認爲你可以使用AI解鎖一些目前它們難以解決的更具挑戰性的問題,即較小的子集問題?
陶哲軒:我絕對認爲AI解決問題是一種非常互補的方式,它是一種非常數據驅動的問題解決方式。
正如你所說,對于某些任務,它實際上比人類做得更好。我們正在學習的是,我們對某些任務難度的認知必須重新校準,因爲我們沒有嘗試使用數據驅動的方法來解決某些類型的問題。但有一些問題是不可判定的。任何數量的數據都無法實際解決某些問題,我們可以實際證明它們無法被證明。
我的意思是這不是AI的強項,但如果你想讓AI真正像人類那樣在解決數學問題上競争,它們需要在數據稀缺的環境中進行推理,你需要研究一個新的數學對象,你隻知道關于它的五六個事實,一些少量的例子。也許它與其他一些已知的數學對象有非常模糊的類比,你必須從非常少量的數據中推斷出下一步該做什麽。
這是AI不擅長的領域,也許它完全是錯誤的,我認爲試圖強迫AI這樣做就像是用錯誤的工具來完成一項任務。這是人類真正擅長并且非常有效的事情,所有那些蠻力檢查、案例分析和綜合,以及尋找它們不擅長的模式。
所以認爲智力是一個一維的尺度,并且哪一個更好,人工智能還是人類,這可能是一個錯誤。我認爲你應該把它們視爲互補的。
Mark Chen: 如果我們的研究項目成功,我們将擁有非常高效的數據稀疏推理器。所以,希望我們能證明你是錯的,Terence。
構建AI技術交流平台很重要
James Donovan: 如果你倆明天被任命爲大學校長,并獲得了一些有意義的預算,你會建立一個什麽樣的部門?你會投資哪些基礎設施來真正利用這些新技術?
陶哲軒: 這是一個好問題。我可以想象擁有一些集中的計算機資源來運行你可以自己調整的本地模型等等。這有點難,技術變化如此之快,以至于現在對任何特定硬件或軟件的投資可能在幾年後就不那麽重要了。
所以你可以将來自不同學科的很多人聚集在一起,共同找出使用這些技術的方法的地方。我的意思是,我們已經開發了很多這樣的技術中心類型的東西。但我認爲它必須非常自由,因爲技術是如此不可預測。我們需要不同的部門互相交流,看看協同作用在哪裏。
Mark Chen: 我隻會給出一個非常簡短的答案。我認爲OpenAI正在做正确的事情。建造一台非常大的計算機,讓我們弄清楚如何将這台計算機變成智能。
觀衆問答環節目前對數學結果進行搜索的最好方式是衆包
1号觀衆Eduardo:我是一名訓練有素的數學家,現在也從事AI方面的工作,大約50年了。
35或40年前,我正式通過我的同事要求美國數學學會提出一項大規模的數學項目,類似于物理學家當時的超級對撞機。我說,讓我們計算機化,讓我們用某種統一的語言建立一個基本數學定理的數據庫,這樣人們就可以很容易地引用和找到這些東西。但我被拒之門外,他們覺得我瘋了,是個怪人。
但現在我們顯然處于一個可以開始這樣做的局面。所以我的問題是,你認爲在三五年後,是否有能力通過某種學習,可能是某種基于注意力的類型,通過嵌入的内容、相互關聯的内容來識别模式,從而真正做到這一點?
你知道我在說什麽,對數學進行語義搜索将會非常棒。
陶哲軒: OpenAI實際上已經做了一些這方面的工作。我做了一些實驗,比如,如果你有一個定理,你認爲你知道它的名字,或者你認爲你大概知道它是什麽,但你不記得它的名字,所以你不能直接在搜索引擎中輸入。你可以用非正式的術語向大語言模型描述它,它通常可以告訴你。
對于隐藏在arXiv上20篇論文中的更晦澀的結果,我們目前還沒有這種能力。這是一個很好的問題,我向很多我交談過的機器學習領域的人提出了這個問題:有沒有什麽方法可以提取出一個數學結果的本質并對其進行搜索?目前最好的方法是衆包,你去一個問答網站,比如Math Overflow。
在重要問題上,目前更鼓勵搜索而非AI模型
2号觀衆Lizzie:我目前是斯坦福大學的一名醫學生,研究神經科學,如果你不介意的話,可以稱之爲真正的神經網絡。我正在嘗試使用我仍在學習的大語言模型或AI模型來進行AI藥物發現。
我遇到了一個技術問題,我住在舊金山,我想在這個周末去舊金山歌劇院。我在ChatGPT中輸入并問它,卡門什麽時候上映,因爲那是卡門的演出時間表。然後ChatGPT告訴我星期六可以去。所以我去了那裏,沒有演出,隻有星期天下午2點。
那麽,有了這個技術難題,我該如何在進行AI藥物發現時更謹慎地信任或使用這個系統呢?我不知道答案,我無法檢查,而且它會有更長遠的影響。
Mark Chen: 實際上,我鼓勵你今天嘗試将模型與搜索一起使用。我認爲現在有一些方法可以讓模型浏覽并将模型的響應基于真實的輸出源。所以,如果你今天使用搜索,它會引用特定的網站或特定的來源,以反映事實。
我認爲未來版本的搜索将會非常精确,它們會告訴你這些網站中可以找到答案和參考的位置。但我今天會鼓勵你嘗試使用搜索進行相同的查詢。
數學與其他學科一直是雙向的
3号觀衆Danny:我在加州大學伯克利分校獲得了數學學士學位,然後直到大約6個月前,我還是威斯康星大學人工智能科學專業的博士生,現在我在法學院學習人工智能和法律相關的主題。
我做過很多不同的事情,我想問Tao教授的問題是,我知道曆史上數學理論是先發展的,然後其他領域的研究人員,尤其是物理學或化學或其他領域的研究人員會将該理論應用到他們的問題中。
現在,随着人工智能成爲如此重要的事情,你是否看到有任何反饋?我知道在物理學中,人們大量使用機器學習來模拟偏微分方程的計算解,而這些是無法用傳統方法解決的。你是否看到數學家從其他領域獲得了任何新的理論見解?特别是考慮到我們現在可以生成更多的數據。
陶哲軒: 數學一直是雙向的。我的意思是有一些物理學家的發現,數學家無法解釋,然後他們不得不發展數學理論。狄拉克發明了一種叫做狄拉克δ函數的東西,根據正統數學,它不是一個函數。我們不得不擴展我們對函數的定義。它一直是雙向的。
OpenAI未來可能整合全部工作流
4号觀衆Ashish: 我在微軟擔任産品經理,我爲AI構建無代碼平台。我的問題是,我想描述一下我在工作中用來寫東西、做事情的工作流程。我使用OpenAI進行深度思考,思考我正在研究的任何主題,然後我使用Perplexity進行研究,最後,這些是我浏覽器上的不同标簽頁,我最終使用帶有Canvas的Perplexity将所有内容整合在一起。
所以,這是一個人工策劃的工作流程。我想知道将來是否有更簡單的方法來做到這一點。
Mark Chen: 這是一個非常好的問題。我在之前的回答中稍微提到過這一點,現在有很多模型,今天之所以會讓人感到困惑,部分原因是OpenAI一直被當作是研究預覽版。我們隻是想向世界展示更高級的推理能力。我們會讓它變得不那麽混亂。我想你想把所有東西都整合在一起,讓它變得非常無縫。
再次重申,很難承諾具體日期,但我認爲你的工作流程會變得簡單很多。
以上爲本次對話主要内容,更多細節可以回看原視頻。
回看地址:
https://www.youtube.com/watch?v=kO192K7_FaQ
OpenAI社區往年活動(需要先注冊申請爲論壇成員):
https://forum.openai.com/public/events/virtual-event-the-future-of-math-with-o1-reasoning-iai6dmiyib?agenda_day=671ab753f829550b951ad5bd&agenda_track=671ab753f829550b951ad5d1&agenda_stage=671ab753f829550b951ad5c2&agenda_filter_view=stage&agenda_view=list