1989 LeNet

文章信息

文章原名：Backpropagation Applied to Handwritten Zip Code Recognition
文章链接：https://ieeexplore.ieee.org/document/6795724(Sci-Hub有)
作者信息：
- Y.LeCun
- B.Boser
- J.S.Denker
- D.Henderson
- R.E.Howard
- W.Hubbard
- L.D.Jackel
机构：贝尔实验室，AT&T Bell Laboratories, Holmdei, NJ 07733 USA

论文思想

LeNet结构原理

![[0008.png]]

如上图所示：

输入为16x16的像素值域为的像素点
第一层为8x8的共计64个5x5非线性下采样卷积核，
第二层为

文章重要内容

2. 邮编

2.1 数据集

用于训练和测试网络的数据集由9298个分段数字组成，这些数字来自美国邮件上出现的手写邮政编码。这些图像的示例如图1所示。

0003 1.png

图1 测试集中的原始邮政编码示例（上）和标准化数字（下）

数字是由许多不同的人书写的，使用了各种各样的尺寸、书写风格和工具，并有着广泛不同的注意程度。7291个例子用于训练网络，2007个例子用于测试泛化性能。该数据库的一个重要特征是，训练集和测试集都包含许多模糊、不可分类甚至错误分类的示例。

2.2 预处理

在信封上定位邮政编码，并将每个数字与相邻数字分开，这本身就是一项非常艰巨的任务，由邮政服务承包商完成（Wang和Srihari，1988年）。在这一点上，数字图像的大小不同，但通常在40乘60像素左右。然后应用线性变换以使图像适合于16乘16像素的图像。这种变换保留了字符的纵横比，并在图像中的无关标记被去除后执行。由于线性变换，产生的图像不是二进制的，而是具有多个灰度级，因为原始图像中的可变数量的像素可以落入目标图像中的给定像素中。每个图像的灰度级被缩放和平移到-1到1的范围内。

3. 网络设计

3.1 输入和输出

识别的剩余部分完全由多层网络执行。网络中的所有连接都是可调的，尽管受到严格限制，并且通过反向传播进行训练。这与早期的工作有所不同（Denker 等人，1989年），在那项工作中，连接的前几层是手动选择的常数，实现在一个神经网络芯片上。网络的输入是一个16x16的标准化图像。输出由10个单元组成（每个类别一个），并使用位置编码。

3.2 特征图与权重共享

在视觉模式识别的经典工作中，已经证明提取局部特征并将它们组合成更高阶特征的优势。这种知识可以通过强制隐藏单元仅组合局部信息源来轻松地构建到网络中。对象的独特特征可以在输入图像的不同位置出现。因此，拥有一组特征探测器，能够在输入平面的任何位置检测到特定实例的特征，似乎是明智的。由于特征的精确位置对分类不重要，我们可以在过程中失去一些位置信息。尽管如此，必须保留大致的位置信息，以便下一层能检测到更高阶、更复杂的特征（福岛1980年；莫泽1987年）。
通过使用“权重共享”技术，可以轻松地在输入的任何位置检测到特定的特征。权重共享技术首次在Rumelhart等人（1986年）针对所谓的T-C问题中描述，它包括通过单一参数（权重）控制多个连接（链接）。这可以被解释为在连接强度之间施加平等约束。这种技术可以以非常少的计算开销实现。
权重共享不仅大大减少了网络中自由参数的数量，还可以表达有关任务的几何和拓扑信息。在我们的案例中，第一个隐藏层由我们称之为特征映射的几个平面组成。一个平面中的所有单元共享同一组权重，从而在不同位置检测相同的特征。由于特征的确切位置不重要，特征映射不需要像输入那样有许多单元。

3.3 网络架构。

该网络如图2所示。

(疑似)图2 网络结构(在原文中被标记为图3)

其架构是LeCun（1989年）提出的架构的直接扩展。该网络有三个隐藏层，分别命名为H1、H2和H3。进入H1和H2的连接是局部的，并受到严格限制。

H1由12组64个单元组成，排列成12个独立的8x8特征图。这12个特征图将被指定为H1.1、H1.2、...、H1.12。每个特征图中的每个单元在输入平面上接受一个5x5的邻域的输入。对于H1层中相隔一个单元的单元，它们在输入层的接受域相隔两个像素。因此，输入图像被下采样，一些位置信息被消除。从层H1到H2也发生类似的二对一下采样。动机是检测特征的存在可能需要高分辨率，而其确切位置不需要同样高的精确度来确定。

同时也已知，在图像的一个位置重要的特征类型很可能在其他位置也重要。因此，给定特征图中每个单元上的对应连接被限制具有相同的权重。换句话说，H1.1中的每个64个单元使用相同的25个权重。每个单元对图像的相应部分执行相同的操作。因此，一个特征图的功能可以被解释为使用5x5核的非线性下采样卷积。

H2层也由12个特征图组成。每个特征图包含16个单元，排列在一个4x4的平面上。如前所述，这些特征图将被指定为H2.1、H2.2、...、H2.12。H1与H2之间的连接方式与输入与H1之间的相似，但稍微复杂一些，因为H1有多个二维图。H2中的每个单元结合来自H1中12个不同特征图中的8个的局部信息。其接受域由位于八个图中相同位置的单元周围的八个5x5邻域组成。因此，H2中的一个单元有200个输入、200个权重和一个偏置。再一次，给定图中的所有单元被限制具有相同的权重向量。H2中的一个图从其中的八个H1图中获取输入，选择这些图的方案在此不予描述。超出边界的连接像在H1中一样处理。总结来说，H2层包含192个单元（12乘4x4），并且H1与H2层之间共有38,592个连接（192个单元乘以201个输入线）。所有这些连接仅由2592个自由参数控制（12个特征图乘以200个权重加上192个偏置）。

H3层有30个单元，并且与H2完全连接。因此，H2与H3之间的连接数是5790个（30乘以192加上30个偏置）。输出层有10个单元，也与H3完全连接，另外增加了310个权重。总结来说，该网络有1256个单元，64,660个连接，以及9760个独立参数。

4. 实验环境

所有模拟均使用在SUN-4/260上运行的反向传播模拟器SN（Bottou和LeCun 1988）进行。

在每个节点上使用的非线性函数是缩放的双曲正切函数。这类对称函数被认为可以加快收敛速度，尽管如果某些权重过小，学习可能会极其缓慢（LeCun 1987年）。输出单元的目标值被选在sigmoid函数的准线性范围内。这样可以防止权重无限增长，并防止输出单元操作在sigmoid的平坦区域。输出成本函数是均方误差。

在训练之前，权重使用均匀分布在与之间的随机值进行初始化，其中是连接所属单元的输入数（输入量）。这种技术倾向于保持总输入在sigmoid的操作范围内。

在每次学习实验中，模式以固定顺序重复呈现。权重根据所谓的随机梯度或“在线”程序（每呈现一个单一模式后更新）进行更新，而不是“真正的”梯度程序（在更新权重之前对整个训练集进行平均）。从经验研究（由理论论证支持）来看，随机梯度的收敛速度比真正的梯度快得多，尤其是在大型、冗余的数据集上。它还找到了更加鲁棒的解。

所有实验都使用了牛顿算法的一个特殊版本，该版本使用一个正的、对角线的黑塞矩阵近似（LeCun 1987年；Becker和LeCun 1988年）。这种算法并不被认为能显著提高学习速度，但它能可靠地收敛，而不需要对参数进行广泛调整。