来自美国波士顿
更专业的论文润色机构
400-110-1310

咨询学术顾问:400-110-1310

服务时间:周一至周日,9:00-23:00

建议反馈/客户投诉:Editsprings@163.com

微信扫码二维码,添加学术顾问企业微信

您还可以点击在线咨询按钮,与人工客服直接对话,无需等待,立马接入。

在线咨询
欢迎关注“艾德思EditSprings”微信公众号

关注微信获取最新优惠和写作干货,
随时手机询价或咨询人工客服,更可实时掌握稿件
进度,加速稿件发表。

微信扫描二维码关注服务号

艾德思:Deep Learning LeCunBengio Hinton在Nature上发表的综述学习笔记

论文润色 | 2019/06/20 13:46:56  | 433 次浏览

传统的机器学习方式使用处理原始数据, 严格依赖于领域知识去做特征提取(Limited in their ability to process natural data in their raw form).而深度学习是一种表示学习方式, 它可以使用多个(非线性的)处理层的计算模型来 自动地学习不同抽象层次的数据表示 , 可以用来学习非常复杂的函数(学习高维数据中的复杂结构). 以图像为例子, 原始数据是 像素 , 第一层会学习图像的 特定位置和方向上有没有边 的存在.第二层通常会根据那些边的某些排放而来 检测图案 .第三层或许会把那些图案进行组合,从而使其对应于 熟悉目标的某部分 .In images, local combi­nations of edges form motifs, motifs assemble into parts, and parts form objects. 对于分类任务而言,高层次的表达能够强化输入数据的区分能力方面,同时削弱不相关因素.

Input-Output function: Insensitive to irrelevant variations of the inputs; Sensitive to particular minute variations; 深度学习模型内部的可调参数, 就像"旋钮'一样, 可以用来调节输入-输出的Mapping Function. SGD之所以被称为"随机'的,是因为小的样本集对于估计全体样本的平均梯度来说会有噪声的扰动. 像Linear classifier这样的"浅层'分类器, 之所以需要好的特征抽取(要求有一定的工程技巧及领域知识), 是因为它们在如raw data这样的底层特征上,几乎没有办法去辨识出不同类别的区别. 使用Gaussian Kernel等的非线性变换方式从训练数据中得到的特征, 并不能产生很好的泛化性能. ReLU通常会使多层神经网络学习的更快, 可以让一个深度网络直接进行有监督的训练, 而不需要无监督的pre-training.

隐含层的作用可以看作是使用一种非线性的方法来扭曲(distorting)数据, 使得最后一层变得线性可分. 在90年代, 人们普遍认为, 梯度下降方式容易陷入不好的极小值, 且认为, 学习有用的/多级层次结构的/使用较少先验知识进行特征提取的方式不靠谱. 实际上,在大规模神经网络中, 极小值压根就不是事, 不管是使用什么样的初始条件,系统总是可以得到效果差不多的解.相反, 解空间中存在着大量的鞍点, 且大多数鞍点的值都相差不多,因此,关系也不大. 非监督式学习的初始化方式: 使用不带标签的数据, 训练出能够使得"高层的特征抽取结果可以还原出底层数据'的参数. 卷积神经网络的4个核心思想: 局部连接; 权值共享; 池化操作; 多层次结构. 局部连接 : 原始数据的局部关联性, 如图像数据, 它可以形成比较容易被探测到的具有区分性的局部特征.

权值共享 : 局部特征与位置无关, 使用具有平移不变性.

池化操作 : 池化的操作是将语意相似的特征合并起来, 它可以减少表达的维度, 还可以做到缩放不变性, 提高鲁棒性(creating an invariance to small shifts and distortions).

多层次结构 : 挖掘数据的多层次语意特征(像素-->形状-->图案-->部件-->物体)

12年ImageNet比赛,AlexNet成功的关键:GPU的应用;ReLU的使用;Dropout方式的提出;生成更多的训练数据 相比与非分布式表示的学习算法, 深度学习算法有两个巨大的优势: 一/分布式特征表示能够表示更多的原始数据的组合, 例如在原始数据n维的二值特征仅仅只能表示2^n种组合; 二/深层网络中的表示层的组合带来了另一个指数级的优势潜能. 分布式表示的数据, 它的各个特征之间并不是互相排斥的. 多层神经网络的隐含层利用网络中输入的数据进行特征学习, 使之更加容易预测目标输出 Logic-inspired与neural-network-inspired paradigms之间的争论(不太懂…) 循环神经网络很强大, 但训练上存在问题, 会存在梯度消失或梯度爆炸的问题 理论和经验证实RNN很难学习并长期保存信息, 为了解决这个问题, 引入了网络存储的问题, 提出了LSTM, 它也可以解决梯度消失的问题(但不能解决梯度爆炸的问题) 其它增强RNN的记忆模块的方式: 神经图灵机 强化学习不同于监督学习,在于其中没有监督者, 只有一个奖励信号,并且反馈是延迟的,不是立即生成的,因此时间(序列)在强化学习中具有重要的意义. New paradigms are needed to replace rule-based manipulation of symbolic expressions by operations on large vector.

 

更多科研论文服务,动动手指,请戳 论文润色投稿期刊推荐论文翻译润色论文指导及修改论文预审

语言不过关被拒?美国EditSprings--专业英语论文润色翻译修改服务专家帮您!

上一篇:润色论文是什么意思?为什么需要润色论文?

下一篇:艾德思:bmc cancer SCI期刊投稿技巧点评

特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。

凡注明来源为“EditSprings”的论文,如需转载,请注明来源EditSprings并附上论文链接。

最热论文