无监督学习新突破！华为美研所提出自动编码变换网络AET

深度神经网络的成功往往依赖于大量有标记的样本数据，但是这样的数据在许多实际场景中很难获得。为了解决这一挑战，无监督学习是首选方法，即不使用任何标记数据训练神经网络。与传统的自动编码数据（AED）方法不同，来自华为美研的Guo Jun Qi 等人提出了一种新的基于自动编码变换（AET）的无监督表示学习方法：给定一个随机的变换，AET尝试仅从编码特征中尽可能准确地预测出变换类型。其中心思想是：只要无监督特征能够成功地对原始图像和转换图像中视觉结构的基本信息进行编码，就可以很好地预测出变换类型。参数化变换、非参数化变换和GAN引导的各种变换都可以对AET进行实例化。

实验表明，与现有的无监督方法相比，AET有了很大的改进，在CIFAR-10、ImageNet和Places数据集上取得了较好的表现。其中以AlexNet作为骨干网络的Top-1准确率（53.2%）极大地逼近了全监督方法（59.7%）。该论文已被CVPR2019接收。本文是AI前线第69篇论文导读，让我们一起来了解这个效果出色的无监督学习新方法。

介绍

深度神经网络在图像分类、目标检测和语义分割领域取得了巨大成功，激励我们进一步探索其在各种计算机视觉任务中的全部能力。然而，训练深度神经网络通常需要大量标记数据，网络才能学习到视觉理解任务所需要的特征表示。但是许多实际场景中，只有有限数量的标记数据可用于训练网络，这极大地限制了深度神经网络的适用性。因此，越来越多的研究人员开始采用无监督的方式学习深度特征表示，以解决标签数据不足的新兴视觉理解任务。

目前最具有代表性的方法是自编码器（Auto-Encoders）和生成对抗网络（Generative Adversarial Nets）。自编码器通过训练自编码网络来输出具有足够信息的特征表示，该表示能够被对应的解码器重构成输入图像。我们将此类自编码器及其变体都归为自编码数据（Auto-Encoding Data，AED）模式。如图1（a）所示。而GAN以一种无监督的方式学习特征表示，通过从输入噪声中生成图像，对抗训练生成器和判别器。生成器的输入噪声可以视为输出的特征表示，由于其包含生成对应图像的必要信息。还有一种新的方法，结合了AED和GAN的优势：为了获得每个图像的“噪声”特征表示，可以用生成器作为解码器来训练编码器，形成自动编码器体系结构。这样，在给定输入图像的情况下，编码器可以直接输出其噪声表示，通过生成器生成原始图像。

相反，我们提出通过自动编码转换（AET）而不是数据本身来学习无监督的特征表示。通过对某些图像操作算子进行采样，对图像进行变换，我们训练自编码器能从学习到的特征表示中直接重构原始图像和变换图像的操作算子。我们认为只要经过训练的特征具有足够的信息量，对图像的视觉结构进行了良好的编码。我们就可以从特征中解码出变换。与图1中传统的AED相比，AET关注探索特征表示在不同图像变换下的动态机制，不仅揭示了静态的视觉结构，但体现了他们如何随不同的变换方式而变化。除此之外，对于AET框架中图像变换的形式也不受限制，因此我们探索了多种变换，从简单的图像变形到其他任何参数和非参数的变换。

$\"image\"$

图1：AED与AET示意图。AET尝试在输出端预测输入的变换，而AED在输出端预测输入的数据。AET中，编码网络E提取出含有视觉结构丰富信息的特征，以解码得到输入的变换。

AET详解

AET结构

假设我们在分布τ中采样一个变换t，例如图像变形，投影变换，或GAN引导的变换。将其应用于从分布X中采样得到的一张图像x，得到x的变换版本t(x)。

我们的目标是学习编码器E：x→E(x)，将给定样本x编码为特征表示E(x)。同时，我们学习解码器D：[E(x), E(t(x))]→t’，通过将原始图像和经过变换的图像的编码特征解码，得到输入变换的预测值t’。由于对输入变换的预测是通过解码特征得到的，而不是原始图像和变换图像，它可以驱使模型提取出高质量的特征作为图像的表示。

自动编码变换（AET）的学习问题可以简化为联合训练特征编码E和转换网络解码器D。我们选择一个损失函数来量化变换t和预测值t’之间的误差。AET可以通过最小化该损失函数求解：

$\"image\"$

与训练其他深度神经网络类似，E和D的网络参数通过反向传播损失函数L的梯度，在mini-batch上联合更新。

AET家族

许多种类的变换方式都可以轻易嵌入AET形式中。这里我们讨论三类变换：参数化的变换、GAN引导的变换和非参数化的变换，来实例化AET模型。

参数化变换

假设我们有一簇变换：

$\"image\"$

其参数为θ。这相当于定义了参数化变换的分布，其中每个变换都可由其参数表示，而输入变换和预测变换之间的损失函数可以通过其参数的差得到：

$\"image\"$

例如放射变换和投影变换，可以表示为图像进行变换前后的同质坐标系之间的参数化矩阵：

$\"image\"$

该矩阵捕捉了由给定变换引起的几何结构变化，因此可以直接定义损失函数：

$\"image\"$

来对目标和估测变换之间的差异进行建模。

GAN引导的变换

除了放射变换、投影变换这类几何变换，也可以选择其他形式的变换对网络进行实例化。比如GAN生成器，将输入变换到真实图像的流形上。假设生成器G(x,z)，与采样随机噪声z联合学习，可以对给定图片x的变换进行参数化。由此可以定义一个GAN引导的变换： $\"image\"$ ，变换参数为z。而损失函数可以通过对比局部生成器的噪声参数得到：

$\"image\"$

与传统的改变图像的低层级表面和几何结构信息的变换相比，GAN引导的变换可以改变图像的高级语义。这也有助于AET学习到更具有表现力的特征表示。

非参数变换

当某个变换t很难参数化时，我们仍然可以通过衡量随机采样图像在变换前后的平均误差来定义损失函数：

$\"image\"$

对于输入的非参数变换t，我们也需要解码网络输出对变换的预测值t‘。这一步可以通过选择一个参数化的变换tθ作为t‘，作为t的估测值。尽管非参数的变换t不属于参数化变换的空间，但是这样的近似已经足够用于无监督学习，因为我们的最终目标并不是获取对输入变换的精准估计，而是学习到能够在参数化变换空间中给出最佳估计的好的特征表示。

我们发现多种变换都可以用于训练AET，但是在本文中我们主要关注参数化变换，因为他们不需要训练额外的模型（GAN引导的变换），也不需要选择附加的变换对非参数形式进行近似（非参数变换）。这样在实验中可以和其他非监督方法进行直接明了的对比。

实验

在这一部分，我们在CIFAR-10，ImageNet和Places数据库上测试所提出的AET模型。无监督学习方法通常根据使用学习到的特征的分类表现对其进行评价。

CIFAR-10实验

我们首先在CIFAR-10数据库上对AET模型进行评价。我们采用了两个不同的变换：放射变换（affine）和投影变换（projective）来训练AET，分别将训练得到的模型命名为AET-affine和AET-project。

网络结构和实现细节

我们采用NIN（Network-In-Network）结构。如图2上半部分所示，NIN由4个卷积块组成，每个包含3个卷积层。AET有2个NIN分支，分别将原始图像和变形图像作为输入。两个分支第四个卷积块的输出进行相连，并平均池化成一个384-d的特征矢量。在最后附加一个全连接层对输入的变换进行预测。两个分支共享网络权重，作为编码网络，对输入图像生成特征表示。（训练细节、以及放射变换和投影变换的具体参数请参考论文原文。）

$\"image\"$

图2：在CIFAR-10数据集上训练和衡量的AET模型的网络结构示意图。

评价标准

为了评价无监督模型学习到特征的质量，一般利用学习到的特征训练分类器。根据现有评价准则，我们在第二个卷积块上建立一个分类器，如图2底部所示，将前两个卷积块固定，并利用标注样本在其上训练分类器。我们通过使用AET特征训练基于模型的和无模型的分类器，对分类结果进行评测。

实验结果

$\"image\"$

表1：CIFAR-10数据库上无监督特征学习方法的对比。

表1给出了CIFAR-10数据集AET模型和其它全监督以及无监督方法的对比。从表中可以看到，无监督AET模型+卷积分类器几乎达到了其对应的全监督NIN的错误率（7.82% vs. 7.2%）。AET也超过了其他无监督方法的表现，体现了AET能够在无监督网络的训练中更有效地探索图像变换的信息。由于RotNet和AET采用的是同样的网络和分类器，我们将RotNet作为比较基线。从结果中可以看出，利用AET学到的特征训练的全连接（FC）和卷积分类器的分类结果都完胜RotNet。

$\"image\"$

表2：RotNet与AET在CIFAR-10数据集的效果对比。

我们也对比了AET和RotNet训练KNN分类器和其他种类的FC层进行分类的结果。从表2可以看出，不论什么分类器，AET-project都能够取到最小误差。
$\"image\"$

图3：不同模型的KNN误差率随近邻数量K的变化曲线图。

图3中，我们比较了KNN近邻数量K对结果的影响。AET-project依然取得了最好的表现。KNN分类器的结果体现了利用AET模型学习到的无监督特征在无类标数据的情况下训练分类器的优势。

ImageNet实验

我们进一步在ImageNet数据集上验证AET的效果。我们使用AlexNet作为骨干网络来学习无监督特征，采用投影变换作为图像变换实例。

网络结构和训练细节

我们采用两个AlexNet网络分支，共享权重，分别采用原始图像和变换图像作为网络输入，训练AET-project模型。两个分支的倒数第二个全卷积层的特征连接起来，经过输出层，得到8个投影变换的参数（训练细节请参考论文原文）。

实验结果

$\"image\"$

表3：ImageNet数据集非线性层的Top-1准确率。

我们采用了两种设置：Conv4和Conv5。它们分别表示在无监督训练后，将AlexNet从底层的卷积层到Conv4、或到Conv5的部分固定，然后利用标注数据训练网络的剩余部分。从结果中可以看出，两种设置下AET模型的表现都优于其他无监督模型。

$\"image\"$

表4：ImageNet数据集线性层的Top-1准确率。

我们在不同数量的卷积层上训练了一个1000个通道的线性分类器进行测试，表4给出了实验结果。从表中可以看出AET学习到的特征在线性分类器上的表现也超越了其他无监督方法。

Places实验

我们在Places数据集上进行了实验。如表5所示，我们评测了在ImageNet数据集上进行预训练的无监督模型，然后利用Places的标注数据训练单层的逻辑回归分类器。我们通过这个实验评估了无监督特征从一个数据集到另一个的可扩展性。我们的模型依然基于AlexNet。我们也对比了利用Places数据集的标注数据和ImageNet数据集标注数据的全监督模型。结果显示AET模型的表现优于其他无监督模型。

$\"image\"$

表5：Places数据集线性层的Top-1准确率

对预测变换的分析

尽管我们的最终目标是学习到好的图像特征表示，我们也研究了预测的变换的准确度，以及它和监督学习分类器性能的关系。

$\"image\"$

图4：错误率（top-1准确率）vs. AET损失在CIFAR-10和ImageNet数据集上随训练epoch变化曲线图。

如图4所示，变换预测的损失（AET模型训练最小化的损失）与分类误差和Top-1准确率都较为匹配。更好的变换预测准确度代表着所学习到的特征能取得更好的分类结果。

$\"image\"$

图5：原始图像（顶部），经过变换的输入图像（中部），经过AET模型预测变换的图像（底部）。

在图5中，我们也对比了原始图像、变换图像，以及AET模型预测变换的图像。这些样例体现了模型能很好地从编码特征中解码出变换，从而得到的无监督表示能够在分类实验中有较好的表现。

总结

在这篇论文中，我们提出了一个与传统的自动编码数据方法（AED）相对的自动编码变换方法（AET），用于无监督训练神经网络。通过在网络输出端估测随机采样的变换，AET驱使编码器学习好的图像表示，能够包含关于原始图像和变换图像的视觉结构信息。多种变换都可以融合到该框架下，实验结果验证了该方法的表现相对于其他方法有了显著提高，大大缩短了与全监督方法的差距。

论文原文：(https://arxiv.org/pdf/1901.04596.pdf)

$\"image\"$