文 | 周鑫雨
編輯 | 鄧詠儀
在針對大模型的态度上,圖靈獎三巨頭已經可見地分成了旗幟鮮明的兩個陣營:
Yoshua Bengio 是悲觀派。在反對強于 GPT-4 能力的大模型研發的聯名信簽署名單中,Bengio 赫然在列。而 Yann LeCun 則更爲樂觀。他不僅在社交平台上公開反對叫停研究的做法,還将積極地進行了不少有關 AGI(通用人工智能)的假設研究。
但無論是 GPT-4 引發的聯名叫停運動,還是有關離職谷歌的決定,在圖靈三巨頭中,Goffrey Hinton 都顯得格外低調,未做任何公開表态。
Goffrey Hinton。圖源:智源
在中國首秀智源大會中,這位學者給觀衆上了一堂硬核的技術哲學課。
比起現下大模型已顯露的安全和倫理風險,Hinton 更關注超級智能(super-intelligence)時代下,人與機器的控制權搶奪問題。他認爲,人類很少去思考如何與比自身更智能的物種的交互方式。這就陷入了類似精英治理合法性的讨論,不過在未來," 精英 " 可能并非人類,而成了人工智能。
不過,盡管尚未有面對超級智能控制人類的最優解,Hinton 認爲 " 人工智能 " 中的 " 人工 " 二字恰恰是人類的優勢:這意味着智能物種并非通過進化叠代而來," 人工 " 的特點讓它們不具備與人類競争的天性。
在名爲《通往智能的兩條路》的演講中,他提出了幾個重要觀點:
· 大語言模型通過成千上萬個計算機副本獲取知識,這就是大模型比人類更快學到更多知識的原因。
· 如果人類想讓數字智能更有效率,就需要允許它們創建子目标。但相對地,設定清晰的子目标意味着數字智能将獲取更多的權力和控制,從而使得目标的實現更加容易。
· 一旦數字智能開始追求更多的控制權,可能會通過控制人類來獲得更多權力。一旦人工智能掌握了 " 欺騙 " 技能,也就能輕易具備控制人類的能力。
字裏行間,這位深度學習之父提醒大家居安思危:" 我相信,超級智能比我想象的要近得多。"
以下是 Hinton 的演講整理(内容由智源研究院提供,略經 36 氪的整理編輯):
今天我要談論的是我的研究,它使我相信超級智能比我想象的更接近。所以我想要談論兩個問題,而我将幾乎完全專注于第一個問題,即人工神經網絡是否很快會比真實的神經網絡更聰明。正如我所說,我将描述引導我得出這一結論的研究。最後,我會簡要讨論我們是否能控制超級智能人工智能,但這不是本次演講的重點。
通往智能的第一條路徑:硬件模拟
在傳統計算中,計算機被設計爲精确遵循指令。我們可以在不同的物理硬件上運行完全相同的程序或相同的神經網絡,因爲它們被設計爲精确遵循指令。這意味着程序中的知識或神經網絡的權重是永恒的,不依賴于任何特定的硬件。
然而,實現這種永恒性是有高成本的。我們必須以高功率運行晶體管,以使其以數字方式運作。我們無法充分利用硬件的豐富模拟和高度可變的特性。這就是數字計算機存在的原因。它們遵循指令的原因是因爲它們被設計成讓我們先觀察問題,确定解決問題所需的步驟,然後告訴計算機執行這些步驟的模式。
但現在情況發生了改變。我們現在有了一種不同的方法來讓計算機完成任務,那就是從示例中學習。我們隻需向計算機展示我們希望它們完成的任務,由于如何讓計算機做你想要的事情的方式發生了改變,現在我們有可能要放棄計算機科學最基本的原則,即軟件應該與硬件相分離。在放棄這個原則之前,讓我們簡要了解一下爲什麽它是一個好的原則。由于軟件與硬件的分離,我們可以在不同的硬件上運行相同的程序。我們還可以關注程序的特性,并對神經網絡上的程序特性進行研究,而不必擔心電子方面的問題。
這就是爲什麽計算機科學部門可以與電氣工程部門不同。如果我們放棄軟件和硬件的分離,我們就得到了我稱之爲 " 有限計算 " 的東西。顯然它有很大的缺點,但也有一些巨大的優勢。
有限計算。圖源:智源
爲了這些優勢,我開始研究有限計算,以便能夠以更低的能量運行大型語言模型等任務。特别是能夠使用更少的能量來訓練它們,放棄永恒性的好處是放棄硬件和軟件的分離。我們可以獲得巨大的能量節約,因爲我們可以使用非常低功率的模拟計算。這正是大腦正在做的。它确實有 1 位的數字計算,因爲神經元要麽觸發,要麽不觸發。但大部分計算是模拟計算,并且可以以非常低功率完成。我們還可以獲得更便宜的硬件。目前的硬件必須以二維方式精确制造,但實際上我們可以使用三維生長硬件,因爲我們不需要完全理解硬件的連通性或每個部分的工作原理。
顯然,要實現這一點需要大量的新納米技術,或者也許是通過基因重組重新設計生物神經元,因爲生物神經元已經大緻能夠實現我們想要的功能。在我詳細介紹有限計算的所有缺點之前,我想給你舉一個例子,說明我們明顯可以通過使用模拟硬件更便宜地完成的計算任務。
如果您将神經活動的向量與權重矩陣相乘,那就是神經網絡的核心計算。這是它大部分工作所在之處。目前我們所做的是以非常高的功率驅動晶體管,以表示數字中的位數。然後,我們執行 O ( n^2 ) 的操作來将兩個 n 位數相乘。在計算機上可能隻是一個操作,但在位操作上卻是 n^2 個操作。另一種選擇是将神經活動實現爲電壓,将權重實現爲電導。然後,在單位時間内,電壓乘以電導會産生電荷,而電荷會相互疊加。
現在很明顯,您可以通過電導矩陣乘以電壓向量。這種方法在能量效率上要高得多。已經存在以這種方式工作的芯片。不幸的是,人們接下來會嘗試使用模數轉換器将模拟答案轉換爲數字形式,而這是非常昂貴的。如果可能的話,我們希望完全保持在模拟領域。但問題是,不同的硬件部件最終将計算出略有不同的結果。
有限計算的主要問題是,學習過程必須利用其運行的硬件部件的特定模拟特性,而我們不确切知道這些特性是什麽。例如,人們不知道将輸入與神經元的輸出相關聯的确切函數,或者可能不知道連接性。這意味着我們無法使用反向傳播算法等方法來獲得梯度,因爲反向傳播是前向傳遞的精确模型。
問題是,如果我們不能使用反向傳播,我們還能做些什麽?因爲我們現在非常依賴于反向傳播。這裏有一個人們已經讨論了很多次的非常簡單和明顯的學習過程。
您對網絡中的每個權重生成一個小的随機擾動向量。然後,您測量全局目标函數的變化。在一小批示例上,然後通過擾動向量進行永久性地更改權重,擾動向量的縮放因子爲目标函數的改善。如果目标函數變得更糟,顯然您會朝相反的方向調整。這個算法的好處是,平均而言,它的行爲與反向傳播相同。
因爲平均而言,它遵循梯度。但它的問題在于方差非常高。當您選擇一個随機方向在權重空間中移動時,所産生的噪聲與網絡的規模非常不成比例。這意味着這種算法對于連接數較少的小網絡可能有效,但對于大型網絡來說效果不佳。
這裏有一種方法效果要好得多。它仍然存在類似的問題,但比擾動權重要好得多,即擾動神經元的活動。也就是說,您考慮對每個神經元的總輸入進行随機擾動的向量。您觀察當您在一小批示例上對其進行随機擾動時,目标函數會發生什麽變化,并獲得由此擾動導緻的目标函數差異。然後,您可以計算如何改變神經元的每個傳入權重以遵循梯度。同樣,這隻是梯度的随機估計,但噪聲要比擾動權重小得多。這個算法足夠好以學習簡單的任務,比如識别數字。如果您使用非常非常小的學習速率,它的行爲就和反向傳播完全一樣,但速度要慢得多,因爲您需要使用非常小的學習速率。如果您使用較大的學習速率,它會有噪聲,但對于類似 MNIST 的任務仍然可以很好地工作,但不能很好地擴展到大型神經網絡。
要使其擴展,我們可以采取兩種方法。不是試圖找到适用于大型神經網絡的學習算法,我們可以嘗試找到适用于小型神經網絡的目标函數。這裏的思路是:我們想要訓練一個大型神經網絡的話,要做的是使用許多小的目标函數來應用于網絡的各個小部分。因此,每個小組神經元都有自己的局部目标函數。現在,可以使用這種活動擾動算法來訓練一個小型的多層神經網絡。它的學習方式與反向傳播大緻相同,但噪聲較大。然後通過使用許多更多的小型局部神經元組,将其擴展到更大的網絡規模。
這引出了一個問題,即這些目标函數是從哪裏來的?一種可能性是在局部區域進行無監督學習,即在圖像的每個層級上都有局部區域的表示,并使得每個局部區域在特定圖像上産生局部神經網絡的輸出。然後嘗試使該局部神經網絡的輸出與所有其他局部區域産生的平均表示一緻。您試圖讓從局部區域提取的内容與同一圖像中所有其他局部區域提取的内容達成一緻。因此,這是經典的對比學習。同時,您還試圖與同一層級上其他圖像中提取的内容産生不一緻。
具體細節更加複雜,我們不會詳細介紹。但我們可以使這個算法運行得相當好,其中每個層級的表示都有幾個隐藏層,您可以進行非線性操作。各個層級使用活動擾動逐漸學習,而較低層級沒有反向傳播。因此,它的能力不會像反向傳播那樣強大,因爲它無法在許多層級上傳播反向信号。很多人投入了大量工作使這個算法能夠運行,并且已經證明它可以相對良好地工作。它的效果可能比其他提出的在實際神經網絡中可能有效的算法要好。但是要使它工作起來是有技巧的。它仍然不如反向傳播好。随着網絡變得更深,它相對于反向傳播的效果會顯著下降。我沒有詳細介紹這種方法的所有細節,因爲您可以在一篇發表在 ICLR 上的論文和網絡上找到相關資料。
通往智能的第二條途徑:知識共享
現在,讓我談談對于有限計算而言的另一個重大問題。總結一下,到目前爲止,我們還沒有找到一個真正好用的學習算法,可以充分利用模拟屬性。但我們有一個可以接受的學習算法,足以很好地學習諸如小規模任務和一些較大的任務(如 ImageNet),但效果并不太好。
有限計算的第二個重大問題是其有限性。當特定的硬件設備失效時,所有學到的知識也會随之喪失,因爲知識和硬件細節密切相連。解決這個問題的最佳方案是在硬件設備失效之前,将知識從教師傳授給學生。
這就是我現在正在嘗試做的事情。教師向學生展示了對各種輸入的正确響應,然後學生試圖模仿教師的反應。如果你觀察特朗普的推文是如何運作的,人們會因爲他們認爲特朗普說的是虛假的東西而感到非常不滿。他們認爲他試圖描述事實,但事實上并非如此。特朗普所做的是對某種情況做出非常情緒化的回應。這使得他的追随者能夠根據這種情況來調整他們神經網絡中的權重,以便對該情況給出相同的情緒化回應。這與事實無關,而是關于從一個邪教領袖到邪教追随者獲取偏執的運作反饋,但它确實非常有效。
如果我們考慮蒸餾方法的效果,以一個将圖像分類爲大約一千個不重疊類别的代理爲例。隻需要大約 10 位的信息來确定正确答案。當你在訓練這個代理時,如果告訴它正确答案,你隻對網絡的權重施加了 10 位的約束。這并不是很多的約束。但是現在假設我們訓練一個代理來與教師對這 1024 個類别的響應一緻。假設這些概率中沒有微小的、不重要的部分,也就是獲得與該分布相同的概率分布,該分布包含 1023 個實數,提供了數百倍的約束。不久前,我和傑夫 · 迪恩一起研究了蒸餾方法,并證明它可以非常有效地工作。
确保教師輸出概率中沒有很小值的方法是在訓練學生時,将教師和學生都以高溫度參數運行。對于輸入 softmax 函數的低級概率值(即 "low chips"),對教師的輸出進行溫度參數縮放,以獲得更平滑的分布。在訓練學生時,使用相同的溫度參數。需要注意的是,這種溫度參數調整僅在訓練過程中使用,而不是在使用學生進行推理時。
我隻是想給你展示一個蒸餾的例子。這裏有一些來自 "M" 數據集的圖像。我展示給你的是教師對各個類别的概率分配情況。
數據集。圖源:智源
當你使用高溫度參數訓練教師模型并觀察第一行時,它非常自信地認爲這是一個數字 2。如果你看第二行,它也相當自信地認爲這是一個數字 2。但它同時認爲可能是一個數字 3,或者可能是一個數字 8。如果你仔細觀察,你會發現這個數字 2 與字母 "h" 相比更相似,而不是其他數字 2。如果你看第三行,你會發現這個數字 2 非常像一個 0。
而教師模型告訴學生,當你看到那個圖像時,應該輸出數字 2,但你也可以在輸出中稍微增加對數字 0 的可能性。學生模型從這個例子中學到了比僅僅被告知那是一個數字 2 更多的信息。它正在學習與該圖像相似的其他特征。如果你看第四行,你會發現學生模型非常自信地認爲那是一個數字 2,但它也認爲可能是一個數字 1 的可能性非常小。對于其他的數字 2,它并不認爲可能是數字 1,或許隻有第一行有一點可能性。我已經畫出了學生模型認爲可能是數字 1 的那個圖像,這樣你就能理解爲什麽它看起來像一個數字 1,因爲有時候數字 1 就是畫成那樣的。其中一個圖像在頂部有一條線,在底部有一條線。這種樣子的圖像是數字 1 的一種特點,數字 1 也有點類似。然後,如果你看最後一張圖,這是教師實際上判斷錯誤的一張圖,教師認爲它是數字 5,但根據無盡标簽,它實際上是數字 2。
學生模型可以從教師的錯誤中學到很多東西。關于蒸餾的一個特殊屬性我特别喜歡,那就是當你訓練學生模型使用教師的概率時,你在訓練學生模型以與教師相同的方式進行概括,即通過給錯誤答案賦予較小的概率來進行概括。
通常情況下,當你訓練一個模型時,你會努力讓它在訓練數據上得到正确答案,并希望它能正确地推廣到測試數據上。你會盡量使模型不過于複雜,或者采取各種方法,希望它能正确地進行推廣。但在這裏,當你訓練學生模型時,你直接訓練學生模型去進行推廣,因爲它被訓練成以與教師相同的方式進行推廣。顯然,你可以通過給出一個圖像的标題而産生更豐富的輸出,然後訓練教師和學生以相同的方式預測标題中的單詞。
現在我想讨論的是一個智能體群體如何共享知識。所以,我們不再考慮個體智能體,而是考慮在一個群體中分享知識,事實證明,社區内部的知識共享方式決定了計算過程中的許多其他因素。
使用數字模型和數字智能,你可以擁有一大群使用完全相同權重的智能體,并以完全相同的方式使用這些權重。這意味着你可以讓這些智能體對不同的訓練數據片段進行觀察和計算,爲權重計算出梯度,然後将它們的梯度進行平均。
現在,每個模型都從它所觀察到的數據中學習。這意味着你可以通過讓不同的模型副本觀察不同的數據片段,獲得大量的數據觀察能力。它們可以通過共享梯度或權重來高效地分享所學的知識。如果你擁有一個擁有萬億個權重的模型,那意味着每次分享時你可以獲得數萬億比特的帶寬。但這樣做的代價是你必須擁有行爲完全相同的數字智能體,并且它們以完全相同的方式使用權重。這在制造和運行方面都非常昂貴,無論是成本還是能源消耗方面。
一種替代權重共享的方法是使用蒸餾。如果數字模型具有不同的架構,我們已經在數字模型中使用蒸餾。但是,如果你使用的是利用特定硬件的模拟特性的生物模型,那麽你無法共享權重。
因此,你必須使用蒸餾來共享知識。這就是這次讨論中所涉及的内容。正如你所看到的,使用蒸餾來共享知識并不是很高效。用蒸餾來共享知識是困難的。使我産生了一些句子,你試着弄清楚如何改變你的權重,以便你也能産生相同的句子。但是與僅僅共享梯度相比,這種方式的帶寬要低得多。每個曾經教過東西的人都希望能夠将自己所知道的東西直接傾囊而授給學生。那将是很好的。那大學就沒必要存在了。
但是我們的工作方式并不像那樣,因爲我們是生物智能。我的權重對你沒有用處。到目前爲止,我們可以說有兩種不同的計算方式,一種是數字計算,另一種是生物計算,後者利用了動物的特性。它們在不同代理之間有效共享知識的效率上存在很大差異。如果你觀察大型語言模型,它們使用數字計算和權重共享。
但是模型的每個副本,每個代理都以一種非常低效的方式從文檔中獲取知識。實際上,這是一種非常低效的蒸餾形式。它接收文檔,試圖預測下一個單詞。它沒有展示給它教師的概率分布,隻是展示給它一個随機的選擇,也就是文檔作者選擇的下一個單詞。因此它的帶寬非常低。這就是這些大型語言模型從人們那裏學習的方式。每個副本通過蒸餾以非常低效的方式學習,但是你有成千上萬個副本。這就是爲什麽它們可以比我們學習更多的原因。我相信這些大型語言模型比任何個體知道的東西多上千倍。
警惕超級智能對人類的控制
現在的問題是,如果這些數字智能體不再通過緩慢的蒸餾過程從我們這裏學習,而是直接從現實世界中學習,将會發生什麽?我必須說,盡管蒸餾的過程很慢,但當它們從我們這裏學習時,它們正在學習非常抽象的東西。在過去幾千年裏,人類對世界的認識有了很多進展。現在,這些數字智能體正在利用的是我們能夠用語言表達出來的我們對世界所了解的一切。因此,它們可以捕捉到人類在過去幾千年中通過文件記錄的所有知識。但每個數字智能體的帶寬仍然相當有限,因爲它們是通過學習文檔來獲取知識的。
如果它們能夠通過建模視頻等無監督的方式進行學習,那将是非常高效的。一旦我們找到了一種有效的方法來訓練這些模型以建模視頻,它們将能夠從整個 YouTube 學習,那是大量的數據。如果它們能夠操作物理世界,例如擁有機器手臂等,那也會有所幫助。
但我相信,一旦這些數字智能體開始這樣做,它們将能夠比人類學習更多,并且學習速度相當快。這就涉及到我在開頭提到的另一個問題,即如果這些智能體變得比我們更聰明會發生什麽。顯然,這個會議主要讨論的就是這個問題。但我的主要觀點是,我認爲這些超級智能可能會比我過去所認爲的發生得更快。如果你想創造一個超級智能體,不良分子将會利用它們進行操縱、選舉等活動。在美國和其他許多地方,他們已經在利用它們進行這些活動。而且還會用于赢得戰争。
要使數字智能更高效,我們需要允許其制定一些目标。然而,這裏存在一個明顯的問題。存在一個非常明顯的子目标,對于幾乎任何你想要實現的事情都非常有幫助,那就是獲取更多權力、更多控制。擁有更多控制權使得實現目标變得更容易。我發現很難想象我們如何阻止數字智能爲了實現其它目标而努力獲取更多控制權。
一旦數字智能開始追求更多控制權,我們可能會面臨更多的問題。比如,在使用物理氣隙隔絕的情況下,超級智能物種仍然可以輕易通過控制人類來獲得更多的權限。作爲對比,人類很少去思考比自身更智能的物種,以及如何和這些物種交互的方式,在我的觀察中,這類人工智能已經熟練的掌握了欺騙人類的動作,因爲它可以通過閱讀小說,來學習欺騙他人的方式,而一旦人工智能具備了 " 欺騙 " 這個能力,也就具備前面提及的——輕易控制人類的能力。
所謂控制,舉個例子,如果你想入侵華盛頓的一座建築物,不需要親自去那裏,隻需要欺騙人們,讓他們自認爲通過入侵該建築物,就能實現拯救民主,最終實現你的目的(暗諷特朗普),這種操作令人感到害怕,因爲我也不知道如何來阻止這樣的行爲發生,所以我希望年輕一代的研究人員,可以找出一些更智能的辦法,來阻止這種通過欺騙實現控制的行爲。
盡管人類在這個問題上目前還沒有什麽好的解決方案,但好在這些智能物種都是人打造的,而非通過進化叠代而來,這可能是人類目前具備的微弱優勢,恰恰是因爲沒有進化能力,它們才不具備人類的競争、攻擊性的特點。
我們可以做一些賦能,甚至是賦予人工智能一些倫理原則,隻不過現在我仍然會感到緊張,因爲到目前爲止,我還想象不到更智能的事物,被一些反倒沒那麽智能的事物所控制的例子。我打個比方,假設青蛙創造了人類,那麽你認爲現在誰會占據主動權,是人,還是青蛙?
歡迎交流