ICLR 2020 | 神經(jīng)正切，5行代碼打造無限寬的神經(jīng)網(wǎng)絡模型

本文作者：張大倩

2020-04-20 10:04

專題：ICLR 2019

導語：可以同時構建有限和無限寬的神經(jīng)網(wǎng)絡。

本文是對 ICLR 2020 論文《NEURAL TANGENTS: FAST AND EASY INFINITE NEURAL NETWORKS IN PYTHON》的解讀，作者來自谷歌。

ICLR 2020 | 神經(jīng)正切，5行代碼打造無限寬的神經(jīng)網(wǎng)絡模型

論文地址：https://arxiv.org/pdf/1912.02803.pdf
開源地址：https://github.com/google/neural-tangents

深度學習在自然語言處理，對話智能體和連接組學等多個領域都獲得了成功應用，這種學習方式已經(jīng)改變了機器學習的研究格局，并給研究人員帶來了許多有趣而重要的開放性問題，例如：為什么深度神經(jīng)網(wǎng)絡（DNN）在被過度參數(shù)化的情況下仍能如此良好地泛化? 深度網(wǎng)絡的體系結構、訓練和性能之間的關系是什么？如何從深度學習模型中提取顯著特征？

近年來，該領域取得進展的一個關鍵理論觀點是：增加 DNN 的寬度會帶來更有規(guī)律的行為，并使這些行為更易于理解。最近的許多結果表明，能夠變得無限寬的DNN聚合到另一種更簡單的模型類別上的過程，稱為高斯過程。

在這一限制下，復雜的現(xiàn)象（如貝葉斯推理或卷積神經(jīng)網(wǎng)絡的梯度下降動力學）可以歸結為簡單的線性代數(shù)方程。這些無限寬網(wǎng)絡的一些思路，也被頻繁地擴展到有限的網(wǎng)絡上。因此，無限寬網(wǎng)絡不僅可以用作研究深度學習的維度，其本身也是非常有用的模型。

ICLR 2020 | 神經(jīng)正切，5行代碼打造無限寬的神經(jīng)網(wǎng)絡模型

左圖：示意圖顯示了深度神經(jīng)網(wǎng)絡在無限寬的情況下如何產(chǎn)生簡單的輸入/輸出映射。

右圖：隨著神經(jīng)網(wǎng)絡寬度的增加，我們看到網(wǎng)絡在不同的隨機實例上的輸出分布變?yōu)楦咚狗植?/span>。

不幸的是，推導有限網(wǎng)絡的無限寬度限制需要大量的數(shù)學知識，并且必須針對研究的每種體系結構分別進行計算。一旦無限寬的模型被推導出來，想進一步提出一個有效的和可擴展的實現(xiàn)還需要很高的工程能力?？傊?，將有限寬的模型轉(zhuǎn)換成相應的無限寬網(wǎng)絡的過程可能需要幾個月的時間，并且可能它本身就是研究論文的主題。

為了解決這個問題，并加速深度學習的理論進展，谷歌研究者提出了一種新的開源軟件庫“神經(jīng)正切”(Neural Tangents)，允許研究人員像訓練有限寬的神經(jīng)網(wǎng)絡一樣容易地構建和訓練無限寬的神經(jīng)網(wǎng)絡。其核心是：神經(jīng)正切提供了一個易于使用的神經(jīng)網(wǎng)絡庫，可以同時構建有限和無限寬的神經(jīng)網(wǎng)絡。

先舉個神經(jīng)切線的應用示例，想象一下在某些數(shù)據(jù)上訓練一個完全連接的神經(jīng)網(wǎng)絡。通常，神經(jīng)網(wǎng)絡是隨機初始化的，然后使用梯度下降進行訓練。對這些神經(jīng)網(wǎng)絡進行初始化和訓練可以得到一個集成網(wǎng)絡。

研究人員和從業(yè)人員通常會把集成的不同部分的預測情況平均，以獲得更好的表現(xiàn)。另外，可以從集成的不同部分預測的方差中估計其不確定性。這種方法的缺點是，訓練一個網(wǎng)絡集成需要大量的計算預算，因此很少使用這種方法。但是，當神經(jīng)網(wǎng)絡變得無限寬時，通過高斯過程描述該集成，它的均值和方差在整個訓練過程中便能被計算出來。

使用神經(jīng)正切，只需五行代碼就可以構造和訓練這些無限寬網(wǎng)絡集成！訓練過程如下所示，可以前往以下地址使用進行此實驗的交互式協(xié)作notebook ：

https://colab.sandbox.google.com/github/google/neural-tangents/blob/master/notebooks/neural_tangents_cookbook.ipynb

ICLR 2020 | 神經(jīng)正切，5行代碼打造無限寬的神經(jīng)網(wǎng)絡模型

在這兩個圖中，作者將有限神經(jīng)網(wǎng)絡集成的訓練與相同結構的無限寬度集成進行了比較。前者的經(jīng)驗均值和方差用兩條淺黑色虛線之間的黑色虛線表示；后者的閉合形式的均值和方差由填充顏色區(qū)域內(nèi)的彩色線表示。在這兩個圖中，有限寬和無限寬的網(wǎng)絡集成非常接近，乃至于難以區(qū)分。左：隨著訓練的進行，在輸入數(shù)據(jù)（水平x軸）上輸出（垂直f軸）。右圖：訓練過程中由于不確定因素而導致的訓練和測試損失。

盡管無限寬網(wǎng)絡集成是由一個簡單的閉式表達控制的，但它與有限寬網(wǎng)絡集成有顯著的一致性。而且由于無限寬網(wǎng)絡集成是一個高斯過程，它自然提供了閉合形式的不確定性估計(上圖中的彩色區(qū)域)。這些不確定性估計與預測變化非常匹配：訓練有限寬網(wǎng)絡的大量不同的副本時觀察到的結果（虛線）。

上述示例顯示了無限寬神經(jīng)網(wǎng)絡在捕捉訓練動態(tài)方面的能力。然而，使用神經(jīng)正切構建的網(wǎng)絡可以應用于任何問題，即可以應用一個常規(guī)的神經(jīng)網(wǎng)絡來解決這些問題。

例如，下面將使用CIFAR-10數(shù)據(jù)集來比較圖像識別上的三種不同的無限寬神經(jīng)網(wǎng)絡架構。值得注意的是，谷歌研究者可以在梯度下降和全貝葉斯推理（有限寬網(wǎng)絡機制中的一項艱巨任務）下，對高度復雜的模型進行評估，例如閉合形式的無限寬殘差網(wǎng)絡。

ICLR 2020 | 神經(jīng)正切，5行代碼打造無限寬的神經(jīng)網(wǎng)絡模型

我們可以看到，無限寬網(wǎng)絡模仿有限寬神經(jīng)網(wǎng)絡，其性能等級與性能比卷積網(wǎng)絡更差的全連接網(wǎng)絡相似，而卷積網(wǎng)絡的性能又比寬殘差網(wǎng)絡差。

然而，與常規(guī)訓練不同的是，這些模型的學習動態(tài)是完全可以在閉合形式下進行處理的，這使研究者們對這些模型的行為有了前所未有的了解。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

via https://ai.googleblog.com/2020/03/fast-and-easy-infinitely-wide-networks.html

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

專題

ICLR 2019

本專題其他文章

張大倩

知情人士

發(fā)私信

當月熱門文章

ICLR 2020 | 神經(jīng)正切，5行代碼打造無限寬的神經(jīng)網(wǎng)絡模型

ICLR 2019

ICLR 2020 | 神經(jīng)正切，5行代碼打造無限寬的神經(jīng)網(wǎng)絡模型