斯坦福大学秋季课程《深度学习理论》STATS 385开讲

411
机器之心整理
机器之心编辑部
今年 8 月份,机器之心推荐了斯坦福 2017 CS231n 春季课程。近日,斯坦福公开了 STATS 385 秋季课程(还未结课,10.11-12.16),主题为《深度学习理论》,相关的课件资源也已放出(部分视频公开),希望能为大家寻求课程资源提供帮助。
  • 课程地址:https://stats385.github.io (https://stats385.github.io/)
  • 视频地址:https://www.researchgate.net/project/Theories-of-Deep-Learning
  • B站地址:https://www.bilibili.com/video/av16136625/

课程介绍
深度学习最近的成就很大程度上基于经验,不过,学者们总是在试图在理论层面上解释发展背后的原因。在斯坦福大学新推出的课程《Theories of Deep Learning》中,我们将从讲师 Bruna、Mallat、Mhaskar、Poggio、Papyan等人那里,试图建立神经网络背后的理论体系。在最初的背景介绍课程之后,几个论文作者将对自己的工作进行专门讲解。本课程共有 10 讲,每周上一次课。
该课程主要可以分为四部分,即回顾深度学习的概念、复习深度学习的理论方法、然后再讨论具体的理论贡献和最后三个课程的理论分析。
课程结构图

从上图可以看出,该课程主要围绕五个主题讨论,即统计机器学习、最优化理论、逼近理论和 Harmonic 分析和神经科学。可能我们比较熟悉的就是统计机器学习和最优化方法,他们确实能解释深度学习具体算法到底是如何工作的,但并不足以构建深度学习的理论基石。
该课程开篇先讨论了深度学习的挑战,即它到底是不是有理论依据。当然这里并不是说深度学习算法没有理论推导与分析,而是说该领域是不是存在一个普遍的理论基础,它应该拥有逻辑自洽和可解释性。这一部分的课程先解释了深度学习目前所出现的问题,例如它的黑箱问题、理论可解释性问题等等。随后介绍了试图构建相关理论的方法,如神经科学、谐波分析(Harmonic analysis)、逼近理论、统计机器学习。
尝试使用神经科学的观点解释视觉与卷积神经网络
前面既然已经了解到了深度学习的局限性,那么第二课就具体讨论了深度学习(主要以 CNN 为例)所涉及的概念与理论。这一部分从最基本的感知机单元(现在已有另外一个基本单元 Capsule)开始,详细介绍了各主流 CNN 框架与常用的训练技巧,如正则化、批量归一化(BN)和最优化方法等。
下面我们简要地展示了这一部分课程的内容。我们知道感知机是深度神经网络的基本构成单元,它是构成目前所有架构的基础,包括最近 Hinton 开放的 Capsule 单元也只是利用一组神经元以表征向量。而组织这些基本单元的架构就是整个神经网络的结构,一般这些神经元会有正向和反向传播两种路径,正向传播以给定输入数据做出推断,而反向传播误差以更新网络。以下是该课程给出的定义:
而基于这两种传播方式的 CNN 也有不同的架构以实现不同的功能。本课程以 AlexNet 为例详细介绍了深度卷积网络的架构与概念,包括 ReLU 激活函数、最大池化和 Dropout 机制等,当然训练过程中常见的最优化方法、批量大小和权重衰减策略也都有介绍。下面展示了近来各深度卷积网络的准确度与网络运算规模:
除了模型的构建,深度学习比较重要的就是模型的训练了,但模型的训练是一个非常工程的问题,我们会有很多的训练技巧。该课程简要介绍了正则化或批归一化等技术,这对于理解如何训练深度神经网络十分重要。总的来说,这一部分课程重点介绍了目前深度学习的主要架构与方法。
第三课主要讨论如何使用 Harmonic 分析方法解析深度卷积神经网络,这一部分从非线性特征提取器的重要地位开始,讲述了特征的位置不变性,即同一个特征在不同位置出现应该都能检测到并正确识别出来。这一部分如下做了大量的理论性分析:
此外,这一部分还讨论了许多 Topology reduction 方面的知识。
前面第三课主要从谐波分析的角度介绍了卷积网络,而后面第四课主要讨论了将 CNN 解释为生成模型的推断,通过动态规划解释卷积网络的推断和使用 EM 算法解释学习的过程。
下面是从动态规划的角度理解卷积网络,即 CNN 可以解释为一种通过最大化输入相似度而寻找概念记忆的动态规划方法。这种方法虽然在数学上是和 CNN 等价的,但直观经验上并不太等价。
此外,通过反向传播学习也可以根据 Hard EM 方法而做出解释。如下所示,EM 和 EG 算法的 E 步和 M/G 步可以分别等价解释为前馈传播卷积操作和反向传播误差以更新权重。
我们现在不仅已经了解了深度学习的基本原理与概念,同时对于理论性的解释也有所涉猎。但深度学习中还会存在很多问题,例如维度灾难、高度非凸函数优化等。这一部分课程主要从逼近理论、最优化理论和学习理论三个角度讨论深度学习令人疑惑的问题。
从逼近理论来说,我们需要清楚什么时候及为什么深层网络要比浅层网络更好。
而从最优化理论来说,我们是否能够探知经验风险的整体趋势,而不是只能像 SGD 甚至是二阶牛顿法那样只能探测到损失函数的局部变化特征。而对于深度神经网络那样的高度非凸函数,寻找经验风险函数的整体趋势对于避免陷入局部最优解极其重要。
最后从学习理论来说,深度学习如何才能不至于过拟合是非常重要的一个问题。
总的来说,该课件的前两个是组织者对人工智能发展的总结以及对该课程的介绍。从第三课开始,讲师开始对深度学习的一些概念做详细介绍:从卷积神经网络到生成模型、动态规划&EM 等等。
邀请的客座讲师如下:


本文为机器之心编译,转载请联系本公众号获得授权。