深度学习本质上是一种基于样本数据、使用多层神经网络对模式进行分类的统计学技术。深度学习文献中的神经网络包括一系列代表像素或单词的输入单元、包含隐藏单元的多个隐藏层,以及一系列输出单元,节点之间存在连接。在典型应用中,这样的网络可以在大型手写数字(输入,表示为图像)和标签(输出,表示为图像)集上进行训练,标签代表输入所属的类别。随着时间的进展,一种叫作反向传播的算法出现了,它允许通过梯度下降过程调整单元之间的连接,以使任意给定输入可以有对应的输出。大体上,我们可以把神经网络所学习的输入与输出之间的关系理解为映射。神经网络,尤其是具备多个隐藏层的神经网络尤其擅长学习输入-输出映射。此类系统通常被描述为神经网络,因为输入节点、隐藏节点和输出节点类似生物神经元,不过已经大大简化。节点之间的连接类似神经元之间的连接。
大部分深度学习网络大量使用卷积技术,该技术约束网络中的神经连接,使它们本能地捕捉平移不变性。这本质上就是物体可以围绕图像滑动,同时又保持自己的特征。深度学习还有一个著名的能力——自生成中间表示,如可以响应横线或图结构中更复杂元素的内部单元。原则上,对于给定的无限多数据,深度学习系统能够展示给定输入集和对应输出集之间的有限确定性「映射」,但实践中系统是否能够学习此类映射需要依赖于很多因素。一个常见的担忧是局部极小值陷阱,即系统陷入次最优解,附近求解空间内没有更好的解。在实践中,大型数据集的结果通常比较好,因其具备大量可能的映射。例如,语音识别中,神经网络学习语音集和标签(如单词或音素)集之间的映射。目标识别中,神经网络学习图像集和标签集之间的映射。在某个游戏系统中,神经网络学习像素和游戏杆位置之间的映射。
深度学习系统最常用作分类系统,因其使命是决定给定输入所属的类别(由神经网络的输出单元定义)。只要有足够的想象力,那么分类的能力是巨大的;输出可以表示单词、围棋棋盘上的位置等几乎所有事物。
在拥有无限数据和计算资源的世界,可能就不需要其他技术了。