花椒粉怎么做普林斯顿大学教授:用理论的力量横扫深度学习(77PPT)-图灵人工智能

作者:admin | 分类:全部文章 | 浏览:70

普林斯顿大学教授:用理论的力量横扫深度学习(77PPT)-图灵人工智能
目前深度学习的应用较为广泛,尤其是各种开源库的使用,导致很多从业人员只注重应用的开发,却往往忽略了对理论的深究与理解。普林斯顿大学教授Sanjeev Arora近期公开的77页PPT,言简意赅、深入浅出的介绍了深度学习的理论——用理论的力量横扫深度学习杏林子的资料!
深度学习历史
学习任何一门知识都应该先从其历史开始,把握了历史,也就抓住了现在与未来那多灵异手记。——BryanLJ

由图可以简单看出深度学习的发展历史,在经历了单调、不足与完善后,发展到了如今“动辄DL”的态势。
定义与基本概念
神经网络基本结构图:

定义:
θ:深度网络的参数
训练集:(x1, y1),(x2, y2),…,(xn, yn)
损失函数ζ(θ,x,y):表示网络的输出与点x对应的y的匹配度
目标: argminθEi[ζ(θ四爷我爱宅,x1, y1)]
梯度下降:
结合GPUs、大型数据集,优化概念已经塑造了深度学习:
反向传播:用线性时间算法来计算梯度;
随机梯度下降:通过训练集的小样本评估;
梯度、解空间推动形成了残差网络(resnet)、WaveNet及Batch-Normalization等;
理论的目标:通过整理定理,花椒粉怎么做得出新的见解和概念。
深度学习中的优化
困难:深度学习中大多数优化问题是非凸(non-convex)的,最坏的情况是NP难问题(NP-hard)。
维数灾难:指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象
深度学习“黑盒”分析:
原因:
1、无法确定解空间;
2、没有明确的(xi, yi)数学描述;
所以,求全局最优解是不可行的。

未知解空间中的控制梯度下降:

≠0→?下降方向,但如果二阶导数比较高,允许波动很大。为了确保下降,采用由平滑程度(可由高斯平滑f来定义)决定的小步骤绝代歌姬。
平滑:
要求:→满足且与成正比刘钟永 。
非“黑盒”分析:
很多机器学习问题是深度为2的子案例,例如,输入层和输出层之间的一个隐含层。通常假设网络的结构、数据分布,等等。比起GD/SGD,可以使用不同算法,例如张量分解、最小化交替以及凸优化等等。
过度参数化(over-parametrization)和泛化(generalization)理论
教科书中说:大型模型会导致过拟合

很多人认为:SGD +正则化消除了网络的“过剩容量”(excess capacity),但是过剩容量依旧还是存在的,如下图所示:

事实上,在线性模型中也存在同样的问题。
泛化理论:
测试损失(Test Loss)-训练损失(Training Loss)≤
其中仕途天才,N是“有效能力”。
“真实容量”(true capacity)的非空估计被证明是难以捉摸的:

“真实参数”(true parameters)的非空边界被证明是难以捉摸的:

深度网络噪声稳定性(可以视作深度网络的边缘概念):

噪声注入:为一个层的输出x添加高斯η。
测量更高层次的变化,若变化是小的,那么网络就是噪声稳定的。
VGG19的噪声稳定性:

当高斯粒子经过更高层时的衰减过程
与泛化相关定性实验:

垫层(layer cushion)在正常数据上的训练要比在损坏数据上的训练高得多

在正常数据训练过程中的进化
“深度”的作用
深度的作用是什么?
理想的结果是:当遇到自然学习问题时,不能用深度d来完成,但可以用深度d+1来完成。但是目前,由于理论依据不足,缺乏“自然”学习问题的数学形式化,还无法达到理想的结果。
深度的增加对深度学习是有益还是有害的?
支持:会出现更好的表现(正如上面实验结果所示);
反对:使优化更加困难(梯度消失(vanishing gradient)、梯度爆炸(exploding gradient),除非像残差网络这样的特殊架构)。
生成模型与生成对抗网络(GAN)理论
无监督学习:“流行假设”(Mainfold Assumption):

学习概率密度p(X|Z)的典型模型
其中,X是图像,Z是流行上的编码氰水母。目的是使用大量未标签的数据集来学习图像→编码匹配(code mapping)。
深度生成模型(deep generative model)

隐含假设: Dreal是由合理大小的深度网络生成的木星幻战记。
生成对抗网络(GANs)
动机:
(1)标准对数似然函数值(log-likelihood)目标倾向于输出模糊图像。
(2)利用深度学习的力量(即鉴别器网络,discriminator net)来改进生成模型,而不是对数似然函数。


u:生成网络可训练参数
v:鉴别器网络可训练参数
鉴别器在训练后麦胶性肠病 ,真实输入为1许冠文四兄弟 ,合成输入为0。
生成器训练来产生合成输出,使得鉴别器输出值较高。
GANs噩梦:模式崩溃(mode collapse)
因为鉴别器只能从少数样本中学习,陈康堤所以它可能无法教会生成器产生足够大的多样性分布。
评估来自著名GANs的支持大小(support size)

CelaA:200k训练图像
DC-GAN:重复500个样本,500x500 =250K
BiGAN和所有支持大小,1000x1000 =1M
(结果与CIFAR10相似)
深度学习—自由文本嵌入

无监督学习文字嵌入经典流程
常用方法:复发性神经网络或LSTM等
手工业(cottage industry)的文本嵌入是线性的:
最简单的:构成词(constituent word)的词嵌入求和
加权求和:通过适应段落数据集来学习权重
性能(相似性、蕴涵任务):

较先进的句子嵌入方法与下游分类(downstream classification)任务的比较:

附:普林斯顿大学教授:深度学习理论理解(77页PPT)下载地址:
https://www.dropbox.com/s/qonozmne0x4x2r3/deepsurveyICML18final.pptx
往期精彩文章(单击就可查看):
美国科学院院士、图灵奖得主:约翰蔡珠祥?爱德华?霍普克罗夫特——深度学习
南京大学教授:周志华——深度森林:探索深度神经网络以外的方法
斯坦福大学人工智能实验室主任:李飞飞——ImageNet之后,计算机视觉研究最新进展
海军工程大学教授:贲可荣——人工智能技术及其应用进展
清华大学:刘洋——基于深度学习的机器翻译
国防科技大学教授:殷建平——计算机科学理论的过去、现在与未来
清华大学软件学院院长——刘云浩:与高中生对话人工智能
【原创】|日本理化学研究所先进智能研究中心主任——Masashi Sugiyama:弱监督机器学习研究新进展
「人物特写」清华大学邓志东:“特征提取+推理”的小数据学习才是AI崛起的关键
明略讲堂 | 清华马少平教授详解“人工智能能做什么?”
【原创】|西安电子科大——焦李成:人工智能时代后深度学习的挑战与思考
Michael I. Jordan——计算思维、推断思维与数据科学
【原创】王飞跃:生成式对抗网络的机会与挑战
【原创】|微软亚洲研究院——刘铁岩:深度学习前沿
清华大学教授:孙富春——认知时代人工智能与机器人
清华大学:朱军博士——When Bayes meets Big Data
加州大学伯克利分校:马毅——低维结构和高维深模型(视觉)数据
加州大学伯克利分校计算机系教授:Dawn SONG——AI如何建立一个更强的防御系统
清华大学:刘知远——知识表示学习及其应用
李飞飞和ImageNet的洪荒之力
清华大学教授:孙富春——教育机器人核心技术展望
从高端人才配置看全国第四轮计算机科学与技术专业一级学科评估结果
长江学者、北京大学教授:黄铁军——人工智能的过去、现在和未来
« 上一篇 下一篇 »
文章归档