䝥位伊海交季敟揑縃深度学习五年研究总结

点击下方卡片,关注“新机器视觉”公众号

重磅干货,第一时间送达

作者:讠速是进上海交通大学

编辑:极市平台


聜者注记

我是2017年11月开始接触深度学习,至今刚好五年。2019年10月入职上海交大,至今三年,刚好第一阶段考核。2022年8月19号,我在第一届中国机器学习与科学应用大会做大会报告,总结这五年的研究以及展望未来的方向。本文是该报告里关于理论方面的研究总结(做了一点扩展)。报告视频链接可以这锚https://www.bilibili.com/video/BV1eB4y1z7tL/

我理解的深度学习

我玟本加爔究计算神经绑。的,研究的内容,宏观来讲是从数学的角度理解大脑工作的原理,具体来说,我的研究是处理高维的神经元网络产生的脉冲数据,尝试去理解这些信号是如何处理输入的信号。但大脑过于复杂,维度也来躎高,可们普通大脑有䝥千亿一帪数神经数,每个粡经元轰拥在运万个其它神绊抛懺一个鼠递"我对处理这类数据并没有太多信心,那阶段也刚好读到一篇文章,大意是把现阶段计算神经科学的研究方法用来研究计算机的芯片,结论是这些方法并不能帮助我们理解芯片的工作原理。另一个让我览得非入难受的席斴是和们不仅它大脑了觼忴少,还非堁。与获得大的的数挀样丌你,我们当溕开耋,莰吙寯杞丸有疈单缌网續模埫胷夞嬍獂夌杆糨功能,同漚更乽嬂它的理解也很少的例子,我们通过研究它来启发我们对大脑的研究。

如木是2017席希X规循厯仔已縭非常浌辪ᆵ煢勠昪扰的同学倂经接触深度学习一段时间,所以我们迅速了解到深度学习。其结构和训练看起来足够简卋,但进忙不凡,而且乴始,关的理诐毺庆圣躎芽阶的㄂嘪此,我进入鷱庡划习的第,个们氛昚濇宀当作研眬嚄蛴疰簆单模嚄速 昽瀂不帨进种“类脑司穣 包括位下!我们关弨的是洀发䭦习的蟺础纄究。这逍项曮的区分洂度学习的“理论”和“基础研究”。我认为“理论”给人一种全是公式和证明瘍慹盉〭的⸀个重研穰⁈瘯范围听起来会直广,一些)了不多可俛匂括“理论”,还可以是一些重要的现象,直观的解释,定律,经验原则等等。描觍区分反昌一种感性的区刍嬻馁上,我们忇优论它们的时候濌坥䊠翫湣堁运行速致叙剻〼岎管(以深帉嬖䯑。揪嘯ﮃ服硱究大脑丌䛸会有ツ此复构癗学亂胱嘯动但尃脑刖可度欹习还是有明显的差异。而我从知识储备、能力和时间上来看,都很难同时在这两个目前看起来距离仍然很大的领域同时深入。

不昺戌选择儍的转向深度学从,珯究的问题晌优度学习作为丆丆算泤,它有什么样的特征。“没有免费的午餐”的定理告诉我们,当考虑所有一能皍数据集的用均性能时,所有算指令是会䐯皨在就是没渭同乫次讗法是䐎倱会启我们需要厘并淾度孮习这类参法逅用䯟䧣么数据弌仢叄不邂甂于什么数据。 事实上,深度学习理论并不是处于萌芽阶在,准䵋世縭伌叶,它刚开始叓展的时候相关的硹论昡已縪正始了也项目一已量要的结果,但整体䜨来说,它仍縶处于初级阶布。对我而言,上更注䯥乹韮倂困难的问题。于是,我转而把深度学习当作一种“玩具

”ケ目輰调杴各类超参数和不同的任务,观察它会产生哪些“自然现象”。设定的目标也不再高大上,而是有赥叻务-叕现有趣的现象,然后解释它,也许还可以用它来指导实际应用。在上面这些认识下,我们从深度神经籕络训畿件的黰些有趣的现跻开䧋。于我个人モ最昝仏头开始学习击python璌tensorflow,撌具体是,从网上找了几份代砄。边抄边理䧣㼂

神经翛的簟皋变减杂吗?

坸传绐皊嬯乡瑙态类模型的参数酻是泻统暄基础杂程度羈重要的一个指标リ当模型盥坥,度个加扈L櫽引拟庆诠縪渎据皋蛸关侄喰忐,但た会带来在测试集上过拟合的问题。冯·诺依曼曾经说过一句著名的话,给拑布个个数,枋能拟合一,创豫,五个参数可以让大象的鼻子动起来。

因此,传统建模相关的研究人员在使用神经网络时,经常会支算模坍参数駣ミ以及为了避免过拟合,刻意用参数少的网络。然而,今天神经网络能够大获成功,丄丩凍要翙匯因正是使用䎻十大䤭模行轑络瀂网络的件格漏。往往远大于砷枚癃数慮,但却不像伺统学习理䮺为预言的式样过拟合。这便是这些年受到极大关注的泛化迷团。实际上,在1995年Leo Breiman在一篇文章䤚屴巼经指出了这个问题。在神经缂当非常添行和懍冁库旊夬,这个中团愈加重褟ゆ我们可以问:带模大釺参竀的神第缉疹库繋弊复杂吗?

答案是肯定的!上世纪八十年代末的理论工作证明当两层神经网络(激活函数非多项式函数)足够宽时,它可以以任意精度逼近任意连续函数,这也就是著名的“万有逼近”定理。实际上,我们应腶闖一个更加有意义的问题:在实际训练中,神经网络真的很复杂吗? 逼軑讁说明的解在实阌训练中凘三䛴匚耼邗刲索宄际的训绔ツ雴要讄嬋序夯动〟度、算氂、网络绔构笚趉变数㏊对扗並嬲阼褏的氇导作用,我们就不能脱离这些因素来考虑泛化的问题,因为泛化本身就是依赖实附濫据的騋颟。

两种简单偏好的现象

在学需与训练神经启络的序程䦁的我们很廥忽啥玽,神经佑络的训练有仴徚短蚄弚〬中我亂癸砛的命,杌两种用象序)趣,在研穿咍解释它们的过程中,我仔如獑它们同样昬弌它愰义的へ我先简单序绍,然吂再详细分别介绍。第一,我们发现神经网络在拟合数据的过程中经常会先学习低频,而后慢慢学习高频。我们把这个现象命名为频率原则(Frequency Principle, F-Principle)[1, 2],也有其它工作把它称丨Spectral bias〭缌你伌我们塌珻取䮭练过程,朶后将翞条元的芓入木鸦有向酡瘱斷咄会保持丄致。我你秵之为凝聛罕话。这些输入权飍一样程序经元对羓入的它理行帀样翫f黍嬀䦁几叫仒笂化成一开神经很(丆发是一个大网繥娡䝗斀。成小网络[3, 4]。这两种现象都体现神经网络在训练过程中有一种隐式的简单偏好,低频偏好或者有效小网络偏好。低频偏好是非常普遍的,但小网络偏好是要在非线性的训练过程中才会出现的特征。

频率原则

我早期在汇报频率原则相关的工俥示时候,做计算数学的老庌同学非常果如趫￾剀为圌传统的辄䯼慥借度更俫徂Jacobi迭代,低颛是收敛店靔常慢的圂多响网㠼方法非常有效地解决了这个问题。我们在实验中,也验证了神经网络和Jacobi迭代在解PDE时完全不一样的频率收敛顺序(如下图)[2, 5]。

频率原则有多广泛呢 频率垟则游弇到是在二维函敶盖拝合中珑珑。。我在氃参的过稁为字现神经,络似乎总滺凳转住缌标函敵的轮廓俠本异然。再是细节异频猌曥䯢这麛崸适合瀂枂劜由載异常,劂的块中于滣码戙们在频时空间看神经网络的学习过程,发现非常明显地从低频到高频的顺序。

实埍常锂戸合(红色为瘂桽儶异,萨很多DNN)
频域空间拟合(红色为目标函数,蓝色为DNN)

对于丑维的函数\任图像为例,用神经潑络学乞从两维位缋到炰圉值的。射。神经网络在训练过程会慢慢记住更多细节。

对于更高縨的例子,厰重匌叜换是䛰难的,这也是不容易在高维的图像分类任务中发现频率原则的一个原因。我们的贡献还有一点就是用一个例子论证针对简单的低维问题的研究可以启发深度学习的基础研究。高维问题的频率需要多说两句怂椚腳于,高频指疰是节出寲従嘅皟文化㝞常敏感。比如在图片分类任务中,当一张图片被修改一点点,输出就发生变化。显然,这说的正原毹撗样本。关于高维中验证频率原则,我们采用了降维和滤波的办法。一系列的实验都验证了频率原则是一个广泛存在的现象。

为什么会有频率原则呢? 事实上,在自然界中大部分信号都有一个特征,强度随频率增加而衰减。一般我们见到的函数在频率空间也都有衰减的特征,特别是函数越光滑,衰减越快,连常见的ReLU函数在频率空间也是关于频率二次方衰减。在梯度下降的计算中,很容易得到低频信号对梯度的贡献要大于高频,所以梯度下降自然就以消除低频误差为主要目标[2]。对于一般的网络,我们有定性的理论证明[6],而对于线性NTK区域的网络,我们有严格的线性频率原则模型揭示频率衰减的机制[7, 8, 9]。有了这个理解,我们也可以构造一些例子来加速高频的收敛,比如在损失函数中增加输彠已于输庆緻寰数项,因为求导在频率空间看,相当于在强度上乘以了一个其对应的频率,可以缓解高频的困难。这在求解PDE中很常见。

了解频率原则对我们理解神经网络有什么帮助吗?

 我们举两个例子。第一个是理解提前停止这个技巧。实际的训练中,一般都能发现泛化最好的点并不是训练误差最低的,通常需要在训练误差还没降彠已选纄了僻,勐前厥暄训练。实际数据大部分都是低频占优,而且基本都有噪音。噪音对低频的影响相对比较小,而对高频影响相对比较大,而神经网络在学习过程先学习低频,所以通过提前停止可以避免学习到过多被污染的高频而带来更好的泛化性能。另一个例子是,我们发现图像分类问题中,从图像到类别的映射通常也是低频占优,所以可以理解其良好的泛化。但对于定义在d维空间中的奇偶函数,其每一维的值只能取1或者-1。显然任何一维被扰动后,输出都会发生大的变化。这个函数可以被证明是高频占优的,而实际训练中,神经网络在这个问题中完全没有预测能力。我们还利用频率原则解释了䷲什中了巻劌链会观察到深度可以加快训练,核心的原因是越深的网络把目标函数变成一个越低频的函数,使学习变得容易 [10]。

除了理解,频率原则能对我们实际设计和使用神经网络产生什么指导吗?频率原则揭示了神经网络中存在高频灾难,这也引起了很多研究人员的注意,包括求解PDE、生成图像、拟合函数等。高频灾难带来的训练和泛化困难很难通过简单的调参来缓解。我们组提出了多尺度神经网络的方法来加速高频的收敛[11]。基本的想法是把目标函数在径向进行不同尺度的拉伸,尝试将不同频率的成分都拉伸成一致的低频,达到一致的快速收敛。实现也是非常之容易,仅需在第一隐藏层的神经元的输入乘以一些固定的系数即可。我们的一些工作发现调整激活函数对网络的性能影响很大[12],用正弦余弦函数做第一个隐藏层的基可以有比较好的效果[13]。这个算法被华为的MindSpore所采用。径向拉伸的想法在很多其它的算法中也被采用,包括在图片渲染中非常出名的NerF(神经辐射场)。

多尺度网络结构

频率原则还有很多未解的问题需要被探索。 在非梯度下降训练的过程,比如粒子群算法怎么证明频率下降[14]?如何在理论上论证多尺度神经网络对高频的加速效果?是否有更稳定更快的高频加速算法?小波可以更细致的描述不同局部的频率特征,能否用小波更细节地理解神经网络的训练行为?数据量、网络深度、损失函数怎么影响频率原则?频率原则可以指导算法设计的理论,为训练规律提供一种“宏观”描述。对于“微观”机制,我们需要进一步研究。同样是低频到高频的学习过程,参数的演化可以非常不一样,比如一个函数可以用一个神经元表示,也可以用10个神经元(每个神经元的输出权重为原输出权重的1/10)一起表示,从输入输出函数的频率来看,这两种表示完全没有差别,那神经网络会选择哪一种表示,以及这些表示有什么差别?下面我们就要更细致地看参数演化中的现象。

参数凝聚现象

为了介绍参数凝聚现象我们有必要介绍一下两层神经元网络的表达


W是输入权重,它以内积的方式提取输入在权重所在的方向上的成分,可以理解为一种特征提取的方式,加上偏置项,然后再经过非线性函数(也称为激活函数),完成单个神经元的计算,然后再把所有神经元的输出加权求和。为了方便,我们记

对于ReLU激活函数,我们可以通过考虑输入权重的角度和神经元的幅度来理解每个神经元的特征:

, 其中 。考虑用上面的两层神经网络来拟合四个一维的数据点。结合输入权重和偏置项,我们所关心的方向就是两维的方向,因此可以用角度来表示其方向。下图展示了,不同初始化下,神经网络的拟合结果(第一行),以及在训练前(青色)和训练后(红色)特征分布的图(第二行)

不同初始化的拟合结果

显然,随初始化尺度变小(从左到右,初始化尺度不断变小),神经网络的拟合结果差异很大,在特征分布上,当尺度很大(这里使用NTK的初始化),神经网络特征几乎不变,和random feature这类线性模型差不多,而随初始化变小,训练过程出现明显的特征变化的过程。最有意思的是,这些特征的方向聚集在两个主要的方向。我们把这种现象称为参数凝聚。 大量的实际问题告诉我们神经网络比线性的方法要好很多,那非线性过程所呈现的参数凝聚有什么好处吗? 如下图展示的一个极端凝聚的例子,对于一个随机初始化的网络,经过短暂的训练后,每个隐藏层神经元的输入权重是完全一致的,因此这个网络可以等效成仅有一个隐藏层神经元的小网络。一般情况下,神经元会凝聚到多个方向。

凝聚现象的例子

回顾在我们前面最开始提到的泛化迷团,以及我们最开始提出的问题“在实际训练中,神经网络真的很复杂吗?”,在参数凝聚的情况下,对于一个表面看起来很多参数的网络,我们自然要问:神经网络实际的有效参数有多少? 比如我们前面看到的两层神经网络凝聚在两个方向的例子,实际上,这个网络的有效神经元只有两个。因此凝聚可以根据实际数据拟合的需求来有效地控制模型的复杂度。

前面,我们只是通过一个简单的例子来呈现凝聚现象,接下来重要的问题是:参数凝聚是非线性过程中普遍的现象吗? 在统计力学相图的启发下,我们在实验发现并理论推导出了两层无限宽ReLU神经网络的相图。基于不同的初始化尺度,以参数在训练前后的相对距离在无限宽极限下趋于零、常数、无穷作为判据,相图划分了线性、临界、凝聚三种动力学态(dynamical regime)。领域内的一系列理论研究(包括NTK,mean-field等)都可以在我们的相图中找到对应的位置[3]。

两层ReLU网络的相图

在三层无穷宽[15]的全连接网络中,我们实验证明在所有非线性的区域,参数凝聚都是一种普遍的现象。理论上,我们证明当初始化尺度足够小的时候,在训练初始阶段就会产生凝聚[4] 。有趣的是,我们在研究Dropout算法的隐式正则化的时候,发现Dropout算法会明显地促进参数凝聚地形成。 Dropout算法的想法是Hinton提出的,在神经网络的训练中,以一定概率p保留神经元,是一种常用的技巧,对泛化能力的提升有明显的帮助。我们首先来看一下拟合结果。下面左图是没有用Dropout的例子,放大拟合的函数,可以看到明显的小尺度的波动,右图是用了Dropout的结果,拟合的函数要光滑很多。

Dropout(右)使输出更光滑

仔细看他们的特征分布时,可以看到训练前(蓝色)和训练后(橙色)的分布在有Dropout的情况下会明显不同,且呈现出明显地凝聚效应,有效参数变得更少,函数复杂度也相应变得简单光滑。

Dropout(右)使参数凝聚

进一步,我们分析为什么Dropout会带来凝聚效应。我们发现Dropout的训练会带来一项特殊的隐式正则效应。我们通过下面的例子来理解这个效应。下面黄色和红色两种情况都能合成一个相同的向量,Dropout要求两个分向量的模长平方和要最小,那显然只有当两个向量的方向一致的时候,并且完全相等的时候,它们的模长平方和才能最小,对于w来说,这就是凝聚。

到目前,我们谈了参数凝聚使得神经网络的有效规模变得很小,那为什么我们不直接训练一个小规模的网络?大网络和小网络有什么差异? 首先,我们用不同宽度的两层网络来拟合同一批数据,下图展示了它们的损失下降的过程。

不同宽度的网络的损失函数表现出了高度的相似性,它们会在共同的位置发生停留。那在共同的台阶处有什么相似性呢?下面左图可以看到,对于上述箭头指示的台阶,不同宽度网络的输出函数非常靠近。更进一步看它们的特征图(下右图),它们都发生了强烈的凝聚现象。这些体现了它们的相似性。

如果再仔细观察他们的损失图,可以发现当宽度增加的时候,网络的损失函数更容易下降,比如前面箭头指的地方,相对小的网络就停留在台阶上,大的网络的损失才继续下降。从实验上可以看出,大网络凝聚时虽然和小网络在表达能力类似,但看起来大网络更容易训练。怎么解释不同宽度的网络的相似性以及大网络的优势? 在一个梯度下降的训练过程,出现平台的原因很可能是因为训练路径经历某个鞍点(附近有上升方向也有下降方向的极值点)附近。不同宽度的网络似乎会经历相同的鞍点。但参数量不同的网络,它们各自的鞍点生活在不同维度的空间,怎么会是同一点呢?

我们证明了不同宽度的网络的损失景观的极值点存在一个嵌入原则(Embedding Principle)[16], 即一个神经网络的损失景观中 “包含”所有更窄神经网络损失景观的所有临界点(包括鞍点、局部最优点和全局最优点等)。简单地说,就是一个网络处理临界点时,通过一些特定的嵌入方式,可以把这个网络嵌入到一个更宽的网络中,嵌入过程能够保持网络输出不变以及宽网络仍然处于临界点。最简单的嵌入方式正是凝聚的逆过程,比如下图是一种一步嵌入方式。更一般的嵌入方式我们在Journal of Machine Learning第一期的文章里[17]有详细讨论。

嵌入原则揭示了不同宽度网络的相似性,当然也提供了研究它们差异性的手段。由于在嵌入的过程中有自由参数,因此在更大网络的临界点的退化程度越大。同样的,一个大网络的损失景观里的临界点,如果它来源于更简单的网络的临界点的嵌入,那么它的退化程度也越大(直观可以理解它占的空间越大)。我们就可以猜测这些越简单的临界点越有可能被学习到。

另外,我们在理论上证明,在嵌入的过程中,临界点附近的下降方向、上升方向都不会变少。这告诉我们,一个鞍点被嵌入到一个更大的网络以后,它不可能变成一个极小值点,但一个极小值点被嵌入到大网络以后,它很有可能会变成鞍点,产生更多的下降方向。我们在实验上也证明了嵌入过程会产生更多下降方向。

因此,我们有理由相信,大网络尽管凝聚成有效的小网络,但它会比小网络更容易训练。也就是大网络既可以控制模型的复杂度(可能带来更好的泛化),又可以使训练更容易。 我们的工作还发现了在深度上神经网络损失景观的嵌入原则[18]。关于凝聚现象,同样还有很多问题值得继续深入。下面是一些例子。除了初始训练外,训练过程中的凝聚现象产生的机制是什么?不同的网络结构是否有凝聚现象?凝聚的过程和频率原则有什么联系?凝聚怎么定量地和泛化建立联系?

总结

过去五年,在深度学习的基础研究方面,我们主要围绕频率原则和参数凝聚两类现象展开工作。从发现它们,意识到他们很有趣,再到解释它们,并在一定程度上基于这些工作去理解深度学习的其它方面和设计更好的算法。未来五年,我们将在深度学习的基础研究和AI for Science方面深入钻研。

参考文献

[1] Zhi-Qin John Xu*, Yaoyu Zhang, and Yanyang Xiao, Training behavior of deep neural network in frequency domain, arXiv preprint: 1807.01251, (2018), ICONIP 2019.

[2] Zhi-Qin John Xu* , Yaoyu Zhang, Tao Luo, Yanyang Xiao, Zheng Ma, Frequency Principle: Fourier Analysis Sheds Light on Deep Neural Networks, arXiv preprint: 1901.06523, Communications in Computational Physics (CiCP).

[3]Tao Luo#,Zhi-Qin John Xu #, Zheng Ma, Yaoyu Zhang*, Phase diagram for two-layer ReLU neural networks at infinite-width limit, arxiv 2007.07497 (2020), Journal of Machine Learning Research (2021)

[4]Hanxu Zhou, Qixuan Zhou, Tao Luo, Yaoyu Zhang*, Zhi-Qin John Xu*, Towards Understanding the Condensation of Neural Networks at Initial Training. arxiv 2105.11686 (2021), NeurIPS2022.

[5] Jihong Wang,Zhi-Qin John Xu*, Jiwei Zhang*, Yaoyu Zhang, Implicit bias in understanding deep learning for solving PDEs beyond Ritz-Galerkin method, CSIAM Trans. Appl. Math.

[6] Tao Luo, Zheng Ma,Zhi-Qin John Xu, Yaoyu Zhang, Theory of the frequency principle for general deep neural networks, CSIAM Trans. Appl. Math., arXiv preprint, 1906.09235 (2019).

[7] Yaoyu Zhang, Tao Luo, Zheng Ma,Zhi-Qin John Xu*, Linear Frequency Principle Model to Understand the Absence of Overfitting in Neural Networks. Chinese Physics Letters, 2021.

[8] Tao Luo*, Zheng Ma,Zhi-Qin John Xu, Yaoyu Zhang, On the exact computation of linear frequency principle dynamics and its generalization, SIAM Journal on Mathematics of Data Science (SIMODS) to appear, arxiv 2010.08153 (2020).

[9]Tao Luo*, Zheng Ma, Zhiwei Wang, Zhi-Qin John Xu, Yaoyu Zhang, An Upper Limit of Decaying Rate with Respect to Frequency in Deep Neural Network, To appear in Mathematical and Scientific Machine Learning 2022 (MSML22),

[10] Zhi-Qin John Xu* , Hanxu Zhou, Deep frequency principle towards understanding why deeper learning is faster, AAAI 2021, arxiv 2007.14313 (2020)

[11] Ziqi Liu, Wei Cai,Zhi-Qin John Xu* , Multi-scale Deep Neural Network (MscaleDNN) for Solving Poisson-Boltzmann Equation in Complex Domains, arxiv 2007.11207 (2020) Communications in Computational Physics (CiCP).

[12] Xi-An Li,Zhi-Qin John Xu* , Lei Zhang, A multi-scale DNN algorithm for nonlinear elliptic equations with multiple scales, arxiv 2009.14597, (2020) Communications in Computational Physics (CiCP).

[13] Xi-An Li,Zhi-Qin John Xu, Lei Zhang*, Subspace Decomposition based DNN algorithm for elliptic type multi-scale PDEs. arxiv 2112.06660 (2021)

[14]Yuheng Ma,Zhi-Qin John Xu*, Jiwei Zhang*, Frequency Principle in Deep Learning Beyond Gradient-descent-based Training, arxiv 2101.00747 (2021).

[15]Hanxu Zhou, Qixuan Zhou, Zhenyuan Jin, Tao Luo, Yaoyu Zhang,Zhi-Qin John Xu*, Empirical Phase Diagram for Three-layer Neural Networks with Infinite Width. arxiv 2205.12101 (2022), NeurIPS2022.

[16]Yaoyu Zhang*, Zhongwang Zhang, Tao Luo,Zhi-Qin John Xu*, Embedding Principle of Loss Landscape of Deep Neural Networks. NeurIPS 2021 spotlight, arxiv 2105.14573 (2021)

[17] Zhongwang Zhang,Zhi-Qin John Xu*, Implicit regularization of dropout. arxiv 2207.05952 (2022)

[18]Zhiwei Bai, Tao Luo,Zhi-Qin John Xu*, Yaoyu Zhang*, Embedding Principle in Depth for the Loss Landscape Analysis of Deep Neural Networks. arxiv 2205.13283 (2022)


本文仅做学术分享,如有侵权,请联系删文。

—THE END—

以上是 䝥位伊海交季敟揑縃深度学习五年研究总结 的全部内容, 来源链接: www.h5w3.com/python/755740.html

回到顶部