标签归档:CVPR

CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)的介绍

雷锋网 AI 科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续。下文是Momenta高级研究员王晋玮对此次大会收录的 Xception:Deep Learning with Depthwise Separable Convolutions 一文进行的解读。

Inception模块是一大类在ImageNet上取得顶尖结果的模型的基本模块,例如GoogLeNet、Inception V2/V3和Inception-ResNet。有别于VGG等传统的网络通过堆叠简单的3*3卷积实现特征提取,Inception模块通过组合1*1,3*3,5*5和pooling等结构,用更少的参数和更少的计算开销可以学习到更丰富的特征表示。

通常,在一组特征图上进行卷积需要三维的卷积核,也即卷积核需要同时学习空间上的相关性和通道间的相关性。将这两种相关性显式地分离开来,是Inception模块的思想之一:Inception模块首先使用1*1的卷积核将特征图的各个通道映射到一个新的空间,在这一过程中学习通道间的相关性;再通过常规的3*3或5*5的卷积核进行卷积,以同时学习空间上的相关性和通道间的相关性。

但此时,通道间的相关性和空间相关性仍旧没有完全分离,也即3*3或5*5的卷积核仍然是多通道输入的,那么是否可以假设它们可以被完全分离?显然,当所有3*3或5*5的卷积都作用在只有一个通道的特征图上时,通道间的相关性和空间上的相关性即达到了完全分离的效果。

若将Inception模块简化,仅保留包含3*3的卷积的分支:

再将所有1*1的卷积进行拼接:

进一步增多3*3的卷积的分支的数量,使它与1*1的卷积的输出通道数相等:

此时每个3*3的卷积即作用于仅包含一个通道的特征图上,作者称之为“极致的Inception(Extream Inception)”模块,这就是Xception的基本模块。事实上,调节每个3*3的卷积作用的特征图的通道数,即调节3*3的卷积的分支的数量与1*1的卷积的输出通道数的比例,可以实现一系列处于传统Inception模块和“极致的Inception”模块之间的状态。

运用“极致的Inception”模块,作者搭建了Xception网络,它由一系列SeparableConv(即“极致的Inception”)、类似ResNet中的残差连接形式和一些其他常规的操作组成:

作者通过TensorFlow实现了Xception,并使用60块NVIDIA K80分别在ImageNet和JFT(Google内部的图像分类数据集,包含17000类共3.5亿幅图像)上进行训练,并分别在ImageNet和FastEval14k上进行测试。在ImageNet上,Xception的准确率相比Inception V3有一定的提升,并比ResNet-152或VGG-16有较多提升(单个模型,单个crop):

在JFT/FastEval14k上,Xception取得了比ImageNet上相比于Inception V3更多的准确率提升:

同时,和Inception V3相比,Xception的参数量有所下降,而训练时的迭代速度也没有明显变慢:

另外,在ImageNet和JFT上的训练过程都显示,Xception在最终准确率更高的同时,收敛过程也比Inception V3更快:

在Xception中加入的类似ResNet的残差连接机制也显著加快了Xception的收敛过程并获得了显著更高的准确率:

值得注意的是,在“极致的Inception”模块中,用于学习通道间相关性的1*1的卷积和用于学习空间相关性的3*3的卷积之间,不加入任何非线性单元相比于加入ReLU或ELU激活函数将会带来更快的收敛过程和更高的准确率:

这篇文章中提及的Depthwise Convolution操作,即group数、输入通道数和输出通道数相等的卷积层,在最近一年内被多篇CNN模型结构设计方面的工作所使用,包括Factorized Convolutional Neural Networks,Xception,MobileNet和ShuffleNet等,以及ResNeXt一文中使用的大量分group卷积操作也与之有相似之处。它们有的在ImageNet上取得了非常好的结果,有的大幅降低了模型的理论计算量但损失较少的准确度。本文作者从空间相关性和通道间相关性的角度解释Depthwise Convolution,认为这是将学习空间相关性和学习通道间相关性的任务完全分离的实现方式。

事实上,这一操作也可以从低秩角度理解,即将每个输入通道上可学习的卷积参数的秩限制为1。不过潜在的问题是,虽然Depthwise Convolution可以带来准确率的提升或是理论计算量的大幅下降,但由于其计算过程较为零散,现有的卷积神经网络实现中它的效率都不够高,例如本文中Xception的理论计算量是远小于Inception V3的,但其训练时的迭代速度反而更慢一些。期待后续会出现更加高效的Depthwise Convolution实现。

雷锋网

CVPR 2017精彩论文解读:综合使用多形态核磁共振数据的3D生物医学图像分割方法 | 分享总结

雷锋网 AI 科技评论按:计算机视觉盛会 CVPR 2017已经结束了,雷锋网 AI 科技评论带来的多篇大会现场演讲及收录论文的报道相信也让读者们对今年的 CVPR 有了一些直观的感受。

论文的故事还在继续

相对于 CVPR 2017收录的共783篇论文,即便雷锋网(公众号:雷锋网) AI 科技评论近期挑选报道的获奖论文、业界大公司论文等等是具有一定特色和代表性的,也仍然只是沧海一粟,其余的收录论文中仍有很大的价值等待我们去挖掘,生物医学图像、3D视觉、运动追踪、场景理解、视频分析等方面都有许多新颖的研究成果。

所以我们继续邀请了宜远智能的刘凯博士对生物医学图像方面的多篇论文进行解读,延续之前最佳论文直播讲解活动,此次是第2篇。

刘凯博士是宜远智能的总裁兼联合创始人,有着香港浸会大学的博士学位,曾任联想(香港)主管研究员、腾讯高级工程师。半个月前宜远智能的团队刚刚在阿里举办的天池 AI 医疗大赛上从全球2887支参赛队伍中脱颖而出取得了第二名的优异成绩。

在 8 月 1 日的直播分享中,刘凯博士为大家解读了「Joint Sequence Learning and Cross-Modality Convolution for 3D Biomedical Segmentation」(用于三维生物医学分割的合并序列学习和多形态卷积)这篇论文,它主要解决了一个三维生物医学图像分割中重要问题:如何综合使用多种形态的 MRI 数据进行区域分割。以下为当天分享的内容总结。

图文分享总结

刘凯博士:大家好,我是深圳市宜远智能科技有限公司的刘凯,我们的官网是 yiyuan.ai。这里也有我的微博ID,我经常会发一些跟人工智能相关的资料和文章,大家可以关注一下。今天讲的也是关于生物医学图像的应用,是结合序列学习和交叉模态卷积的3D生物医学图像分割。其实在医学图像方面,分割,英文是segmentation,是非常重要的工具或者应用。 

我先讲一下这篇文章的主要内容,它讲的是对核磁共振图像中的脑部肿瘤部位进行切割的例子。右边的图给出来的就是什么叫“对肿瘤部位进行切割”。我们通过MRI拍出来图片,如果有一些跟正常的大脑皮层细胞不太一样的部位,这些部位就很有可能是有脑部肿瘤,所以要把它切出来,切出来之后再做相应的研究。比如这三个例子可以看到大脑中有一些病变的位置,要达到的就是最右边一列的样子,把它们切出来。这个工作其实不算太容易,主要有几个方面的原因。

首先比较难定位到哪些是肿瘤部位,因为肿瘤部位的形状千奇百怪,没有固定的形状,不像人脸识别的时候,每个人的五官都差不多,位置区别也不会很大。比如说神经胶质瘤和胶质母细胞瘤的形状两种就就很不同,就是不同的肿瘤形状也不一样。然后肿瘤的分布很广泛,可能分布在大脑的任何区域,那跟人脸也不一样了,就跟刚才我说一样。

那怎么去实现、怎么去解决这些难点呢,这篇文章提出来一个思路就是交叉形态卷积的方法做一个 encoder-decoder 的网络结构,然后同时用LSTM对2D的切片序列建模。

这里有个概念,因为MRI也是跟CT一样断层扫描的过程,就是它一层一层,一层扫出来的就是一个2D的图片,然后多层累计起来就是3D的,但是其实切割是要切割出3D的脑部肿瘤位置,这样就需要把2D的变成3D的,把2D的切片之间的关系通过LSTM描述出来,最后把多模态卷积和LSTM网络结合在一起,达到3D切割。

刚才提到多模态的概念,就是因为这个是MRI特有的特征,因为CT里面并没有。这里有四个模态,就是通过四种方式扫描脑部得到MRI数据,这是这里列出来的四个的名字,我们先不用管它这四个具体是什么意思,只是知道它有四种模态就行了,这四种模态对最终切割的结果是有直接的作用的。现在大多数的3D图像切割方法只是用了一个模态,或者把多个模态分别来做,然后再堆积起来。

这个方法的framework大概是这样的,从左到右看。

  • 首先每一个脑部的MRI数据,他都是通过四种模态切出来的,这里用四种不同的颜色来表示,相当于每一个slice就是我说的那个2D的图片。

  • 切完之后他会把四个模态,就是到图b这个阶段了,四个模态交叉在一起做一个multi-modal的encoder,这个encoder就是用一个神经网络来实现的。

  • 四个模态encode到一起之后,在这一步就用神经网络把四个模态下的脑部切割出来了,这是2D的情况下。

  • 然后再加上convolution LSTM把2D的切割、2D和2D之间的dependency描述出来之后就形成了3D的切割,然后再做一下decoder,展现成最后这种形式。在最中间有一个切割出来的东西,其他没被切割到的background。

这就是一个大体的流程,然后对具体对每一个细节的过程,我再详细介绍一下。

第一个模块就是multi-modal的encoder,这里的网络结构最主要的几个方面是用四个卷积核,通过batch-normalization,然后加一个非线性变换,在后面有四个最大池化层。这就是先简单介绍一下,如果要详细了解这个网络结构是怎么设计的,可以去读一下这篇论文。

另外一个嗯比较重要的部分就是多模态交叉卷积。四个模态的数据进入到这个卷积网络之后,他就会把每一个模态下面的cross在一起,然后通过一个三维的卷积,卷积的大小里有个C×4,就是因为他每个channel里面有 c 个slice,就是说它是一个立体结构了,一个长宽是H、W,高是C的这种。四个模态弄到一起就是C×4×H×W,有大小。

然后在这里,是用4×1×1的一个卷积核,做卷积之后得到每一层的切割出来的特征。切割出来之后,然后就进入了后面的convolution LSTM。

这个convolution LSTM跟普通的LSTM有一个区别,就是把原来的矩阵相乘替换为一个卷积操作,就是普通的乘法变成卷积层,这样它就能够在把之前状态的空间信息保留着。其实它的目的就是,卷积LSTM会描述一个2D切割边缘的趋势,比如说这一张中切片它的形态是这样的,然后到下一张它会有一个轻微的变化,要把这种变化描述出来。

因为刚开始有一个图像的encoder,还是要把它解析出来。最后就有一个soft-max的分类,也是一个两分类的,就是每一个像素是前景还是背景的概率。是前景的话,就是我们要切割出来的部位;如果是背景的话就不是我们感兴趣的地方。

它的实验部分做了两个,第一个跟医学没有关系,这个通用的场景就不讲了。我讲一下跟医学相关的那个,他有一个公开的脑部MRI的数据,就叫BRATS-2015。

他切的是神经胶质瘤这个疾病,它的严重程度分为五种,0 就是非肿留,1 是脑细胞坏死,2 是水肿,3 是非增强性肿瘤,4 是增强性肿瘤,数字从低到高,它严重程度会越来越高。临床上是从三种不同的方面去评价切分的效果:

  • 第一种,完全把四种严重程度的病都切割切割出来,相当于区分肿瘤和非肿瘤;

  • 第二种,部分切割,只关注 1、3、4 这三种。2 的水肿,其实也是比较容易混淆的,就是它不是真正的肿瘤

  • 第三种,只关注增强型的肿瘤,就是最严重的那种

最右边是一个图例,看这几种方法哪一个切的好一些。第二列是就是ground truth,第三列是U-Net,是一个提的比较早、比较通用的一个benchmark的方法,来做数据切割;然后第四列的CMC,cross-modality convolution,这个也是这篇文章提出来的;然后CMC+convolution LSTM,就是描述了切片与切片之间的dependency的算法。可以看出来,最后一个跟ground truth是比较接近的。

这里有从三个方面看的评价结果,三个指标。其实都是算它切割得跟ground truth重合的部分的比例,第一种“Dice”就是它的 overlap 部分,除以他们两个面积交集和并集的一个平均,这里的P就是predict出来的区域,然后T是ground truth的区域。PPV是positive predicted value,那是他的交集部分除以预测的区域;sensitivity就是交集的面积除以ground truth区域。这里也是跟U-Net比较了一下。

我下面补充一下这个U-Net的概念,如果没有医学图像切割的一些知识背景的话,可能不太理解它。其实U-Net就是一个网络结构,参考文献在最下面。这种网络结构,就是画出来长得字母U,然后所以叫yU-Net。

它之所以长成这样,是因为这个图像进来,最左边可能大家看的不是很清楚,图像里其实是一个一个的细胞,它们都连在一起,但是边缘是有一些线割开的。网络的目标是把这些细胞一个一个地切开,就像最右边的这种情况。网络刚开始的时候用的卷积就先是3×3的卷积,然后加上ReLu这个非线性变换,然后一步一步做下去。其实这个网络结构还是挺深的,如果有兴趣可以去看一下这篇文章。其实这个算法对大物体小物体的切割都是做得还不错的,就是因为这种U结构的,先对大物体切割,然后再去对小物体切割。

这里面还有一些trick,就是在BRATS-2015这个数据上来,因为这个数据量其实不大,好像正例一共只有60多个,负例两百多个。这里也出现了一个数据不均衡的问题,它是用median frequency平衡法,这个很简单,这个算式里有一个除法,就是分子式median frequency,就是每一个类的平均frequency,除以这一类总的出现的次数。如果出现次数越多,那它这个权重就会越小,就是赋了一个比较小的权重,就在 loss 函数里对这一类的数据设定了一个权重,相当于下采样的过程。

在这个学习过程中使用了two-stage training,第一个阶段是只采用了包含肿瘤的切片,然后用median frequency减少大类的权重。第二阶段是降低学习率,然后把median frequency这种限制去掉,它的分布就是接近你的真实的分布,因为如果使用median frequency,它的分布是会变的,但是真实数据中那个大类的确实会存在,还是要去描述这个问题,先保证了这个模型第一部分不收敛到大类这个问题之后,然后第二个阶段去再去慢慢的学习真实的分布。

在第一阶段的时候避免采样到空的序列,就是先去采样了有肿瘤问题的,然后再在训练LSTM的时候也用了正交初始化的方法处理梯度消失的问题。这种方法其实都是可以用的,不一定非得这个问题上去用。

我读到最后就发现一个不太好的一个地方,就是他在前面后面都提到了这个KU-Net,它说了跟它的方法模型是最相关的,其实这个KU-Net就是用U-Net+RNN,他用RNN也是去描述2D切片之间的dependency。

这篇论文里方法的不同就是,它用的交叉模态的方法去代替U-Net的那一部分,然后用LSTM去代替RNN那一部分。从直观上来讲应该会比这个KU-Net效果要好,但是他说因为没有公开代码不进行实验对比,我觉得这个理由不是特别充分。其实写文章的时候既然他都给了U-Net的比较了,然后这种跟他更相关的、而且思路上也挺像的,应该更要比较一下才对。

问答环节

(先上一次论文讲解中的问题开始)

Q:Sequntial learning的时候有没有用move-and-average,就是有没有移动平移法

A:这个那篇文章里面并没有讲,但是我觉得这个移动平均法在sequntial的学习的时候还是可以用的,就是相当于你在不同的步骤的预测值都做一个平均,还是有一定的推广性的。

Q:关于医学图像数据不平衡的问题

A:其实不平衡的问题,解决方法有好多种,最简单的就是上采样和下采样。如果那些大类的数据特别多,做一下下采样,然后小类的做一下上采样。这个比较简单,然后我在实际问题中有一些经验,其实不是这一类多就一定要下采样,这一类少就一定要上采样,其实要看它具体的分布。

有的时候,比如说我们在做肺结节检测的这个过程中,通过肺CT或者X光去看那个肺部有一些会癌变的结节,去找这些病变的点。其实在这里面小结节会比较多,大结节会比较少。在这种例子里,大家直观的很可能觉得要下采样小结节,那实际上并不是的,我们这反而是上采用了上采样的小结节,就是把它的数据要增多。因为小结节比较难分,它其实很小,跟background非常像,然后就容易被忽略掉,然后大结节就很明显,即使只有少量的数据,它也能分出来的。

所以这个跟实际的应用有关系,一般情况下做模型之前一个很大的步骤是要去处理数据,有的时候一些trick是从数据得到灵感,就应该去怎么去实现。包括数据增强也好,怎么解决数据偏移也好。这是预处理的部分。

然后在实际训练中解决数据不平衡的问题可以通过一个叫hard negative mining的方式,就比如刚开始的数据不平衡,有的倾向于分到大类那一部分。而且你这个模型在分的时候,前期会有一些分错的,分错了就说明这个模型分的效果还不太好。比如说把小类的分到大类里面去了,明显是分错了,然后就把这些分错的小类的找出来,做一下增强,比如说做两倍的增强,然后再放到模型里面、再去学,这样持续下去,就会有针对性的把小的数据去增强,慢慢把数据变平衡了。这个思路其实是跟刚才的数据预处理是一样的,但是更灵活一些,因为在训练之前,直接把小的类做增强,这种是比较主观的,实际上不一定小类的就难分,最好先去模型试一下,看哪些比较难分,然后就专注于这种数据去做数据增强。其实上一篇论文讲解直播的时候,论文里面也提到这个思路。

然后数据增强的时候其实也挺有意思的,上一篇论文里面提到要根据泛化能力比较强的做增强,而不是统一形式的增强。我们在实际在做的时候,也还是以肺结节为例子,我们在做hard negative mining的时候,因为在肺结节检测里面少,就是发现肺结节在跟常规思路的机器学习方式有一些相反的现象。其实正例跟负例相比,本身是偏少的,因为他那个肺里面有很多部位结节是很少的。但是实际模型去训练,然后训练的时候就会发现好多并不是结节的预测成结节了。这个需要hard negative mining,就是要把negative的sample要增强一些。原来我们心想的通常情况下是应该把少的那一部分增强,那肺结节检测是实际上是相反的。在脑部切割的时候也会有这个问题。

然后最近关于一个segmentation的一个新的方法,目前还没有用到在segmentation里面,我只是有一个想法,提出目标检测Fast-RCNN这一系列的何恺明发了一篇文章,是Fast-RCNN的延续,叫做Mask-RCNN,就不光是把那个目标能检测出来了,还能把目标的轮廓给画出来。这样的话就非常像这里,比如说把病变的位置detect出来,其实是在这个地方画了一个rectangle,这是找出它的位置了。如果我们要把病变区域切出来的,就要沿着它的轮廓,把它做一个mask。我觉得这个方法是可以试一下的,就相当于把目标检测和segmentation结合在一起了,所以还是一个挺好的思路。

(等待问题过程中顺便插播一则公司介绍)

我们宜远智能位于深圳,也是一个初创公司,主要是做人工智能在医学图像处理上的应用,然后做一些基于医学图像的辅助诊断,大家有兴趣的话可以去我们官网看一下。我们现在也在招人,如果有兴趣的话可以在微博里面艾特我或者发邮件给我,邮箱地址是 kennethkliu@foxmail.com。加我的微信也可以,但是微信的话我也不会发太多东西。微信号是 kenneth_liukai。

Q:这个问题有人问,我重复一下。也是数据不平衡的问题,当positive和negative不平衡的时候可以做hard negative mining。那么假如第一次分类有部分数据分错了,那么增强的权重是重采样权重还是梯度的权重?

A:这个是两种都可以,我们实际中一般是数据重采样。如果增加梯度的权重,其实不知道是针对哪一种。只是说这个权重的话,就把数据重新放进去。增加权重也可以,但是你增加这个权重的时候,学的时候就不只针对分错的那些了,会对所有的数据都增加了权重。那么还是重采样来得更直接一些,就是分错的那个数据再重新放进去,或者是加倍重新放进去,再去训练,这个都是可以的。

其实在图像上面做数据增强,不光是重采样,还有一些时候为了增加它的泛化性,会做一些偏移、切割、平移这种操作,也是很有效果的。

Q:除了重采样,还有其他办法解决数据不平衡的问题吗?

A:重采样跟数据不平衡,其实是同一个思路。因为数据不平衡,你为了能达到平衡,那就是要打乱原来的数据分布了。除非这个模型对数据不平衡的状况不敏感,就是说即使数据不平衡,也能学出来,大类就大类的学,小类就小类的学。这种就是要考验模型的能力的,有些模型即使类别比较小的也是能够学出来的,要看这个模型的区分能力了。

Q:如果数据图像label有时标错的比较厉害,标错的比例甚至达到1/3,有没有什么数据清洗的办法?

A:对这个这个问题非常好,因为在医学图像里面这个问题特别严重。

其实医学标注数据是有很强的背景知识要求,一般都是要比较高水平的医生标的才会比较准确。

对普通的医生来说,比如说有一些结节,或者一些脑部的MRI上病变的位置,其实在那里,但他就看不到,因为他知识水平有限,他就没见过这种东西。我们也曾经试过要用好几个医生然后去标,水平不一样,指标的差异还挺大的,跟ground truth差距就更大了。

当然了这个ground truth也不是标准的ground truth,只是三个专家级的医生标的共同的结果。这种方法可以这么来,就是说你的模型也可以去标一下。如果这个模型是完全基于现在这种“脏”数据学出来的,那么它真的是没办法能够学得好,那它就是去拟和这个“脏”数据了。如果有另外一个好的模型,就可以transfer过来,它去把这个数据标一遍,跟达到1/3标错的那个数据一起,相当于两个专家会诊一样。它会有一个统计分布,这种情况下能够一定程度上把那些“脏”数据给剔除掉。这是一种思路。

另外的话,有一些如果他标错了,就会出现同样的图像、非常相近的图像,得到了不同的label。这种就是标注相冲突的,这也是一个问题。我们就可以拿一个ImageNet pre-train的model去看两个图像的差异。假如说真的差异很小,然后label标注的截然相反,就可以做一定形式的过滤。

这个问题我不知道回答的好不好,我就是以我的经验来说。这其实是一个开放性的问题,可能有很多的方法去实现。其实做机器学习,ground truth就相当于一个先知,告诉你哪些是真的标注数据,那才是真正的标注数据。那实际上很多都是人标的,人的知识水平就限制了标注质量的好与差。

雷锋网 AI 科技评论整理。感谢刘凯老师带来的分享。

雷锋网

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶 | CVPR 回顾

雷锋网AI科技评论报道,2017年计算机视觉领域顶级学术会议CVPR(IEEE Conference on Computer Vision and Pattern Recognition)刚刚结束,今年CVPR上,一共783篇论文被收录,录取率29%,口头报告录取率仅2.65%。作为国内著名的人工智能研究机构,腾讯AI Lab(腾讯人工智能实验室)共有六篇论文入选CVPR。它们是:

论文一:Real Time Neural Style Transfer for Videos


本文用深度前向卷积神经网络探索视频艺术风格的快速迁移,提出了一种全新两帧协同训练机制,能保持视频时域一致性并消除闪烁跳动瑕疵,确保视频风格迁移实时、高质、高效完成。


论文二:WSISA: Making Survival Prediction from Whole Slide Histopathological Images


论文首次提出一种全尺寸、无标注、基于病理图片的病人生存有效预测方法WSISA,在肺癌和脑癌两类癌症的三个不同数据库上性能均超出基于小块图像方法,有力支持大数据时代的精准个性化医疗。


论文三:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning


针对图像描述生成任务,SCA-CNN基于卷积网络的多层特征来动态生成文本描述,进而建模文本生成过程中空间及通道上的注意力模型。


论文四:Deep Self-Taught Learning for Weakly Supervised Object Localization


本文提出依靠检测器自身不断改进训练样本质量,不断增强检测器性能的一种全新方法,破解弱监督目标检测问题中训练样本质量低的瓶颈。


论文五:Diverse Image Annotation


本文提出了一种新的自动图像标注目标,即用少量多样性标签表达尽量多的图像信息,该目标充分利用标签之间的语义关系,使得自动标注结果与人类标注更加接近。


论文六:Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images


基于曼哈顿结构与对称信息,文中提出了单张图像三维重建及多张图像Structure from Motion三维重建的新方法。

腾讯AI Lab于2016年4月正式成立,主要围绕图像识别、语音识别、自然语言处理和机器学习4个方向进行研究。在今年3月第10届UEC杯世界计算机围棋赛决赛中,腾讯 AI Lab研发的围棋人工智能程序“绝艺”(Fine Art)击败日本开发的“DeepZenGo”,以11战全胜的战绩夺冠,就潇洒地展示了实验室的算法实力。

腾讯副总裁姚星曾表示,和集团其他更多针对于产品应用而展开研究的团队不同,腾讯AI Lab 的目标是增强腾讯的人工智能原创性、基础性研究。从上述入选论文主题也可以看出,研究主题更多体现为方法论的突破。其中,雷锋网此前报道《深度学习集体瓶颈,产业化加速时代CV研究出路在哪里?| CVPR 2017》指出,「Diverse Image Annotation」用少量多样性标签表达尽量多的图像信息,以及「Deep Self-Taught Learning for Weakly Supervised Object Localization」讨论的弱监督学习等作品,体现了当前CV研究遭遇瓶颈而又晨光微启的时代中一个创新突破的方向。

那么,这些论文成果背后的想法,以及腾讯AI Lab对未来CV未来研究创新的判断是怎样的呢?CVPR 2017期间,雷锋网AI科技评论与AI Lab 计算机视觉中心总监刘威博士进行了交流,以下是对话实录(有删减):

雷锋网:这是您第几次参加CVPR?

刘威:我参加CVPR有超过10年历史,最早一次是2005年。

雷锋网:您曾说,CVPR的口头报告一般是当年最前沿的研究课题,在学界和工业界都影响很大。能否谈一谈您对今年CVPR的看法?

刘威:在本届CVPR里,录取论文涉及的领域占比最高的五类是:计算机视觉中的机器学习(24%)、物体识别和场景理解(22%)、3D视觉(13%)、低级和中级视觉(12%)、分析图像中的人类(11%)。

从我们研究方向和兴趣出发,团队也非常关注其中的五个前沿领域:低中层视觉、图像描述生成、3D视觉、计算机视觉与机器学习、弱监督下的图像识别等。

雷锋网:据了解,这次实验室重点解析了《视频的实时神经风格迁移》「Real Time Neural Style Transfer for Videos」这一篇,为什么是选中这一篇呢?

刘威:团队在本届CVPR上有六篇文章被录取,虽然数量不多,但我对质量还算满意。这篇论文所研究的实时视频滤镜技术,已在腾讯QQ手机版上线,实现基础研究到应用的迅速转化,形成了一个较好的闭环,与我们“学术有影响,工业有产出”的研究目标相契合。

雷锋网:《视频的实时神经风格迁移》这一个突破,将会给目前的视频处理和应用带来什么变化和价值?

刘威:该研究成果表明在训练时加入对视频时域一致性的考虑,能够约束前向神经网络生成时域一致的编辑结果。

在过去很长一段时间内,业界流行的图像滤镜通常只是对全局颜色属性的调整,比如亮度、色相、饱和度等。在2016年的CVPR,Gatys等人首创性地提出将深度神经网络应用于图像的艺术风格迁移,使得输入图像能够模仿如梵高的星空、莫奈的日出印象等任何类型的艺术风格,效果惊艳。

Gatys等人工作虽然取得了非常好的效果,但是缺点是基于优化,非常耗时;到2016 ECCV时,Johnson等人提出了使用深度前向神经网络替代优化过程,实现了实时的图像风格迁移,修图工具Prisma随之风靡一时。但直接将图像风格迁移的方法应用到视频上,却会使得原本连贯的视频内容在不同帧中转化为不一致的风格,造成视频的闪烁跳动,严重影响观感体验。为了解决闪烁问题,Ruder等人加入了对时域一致性的考虑,提出了一种基于优化的视频艺术滤镜方法,但速度极慢远远达不到实时。

腾讯AI Lab使用深度前向卷积神经网络,探索视频艺术风格快速迁移的可能,提出了一种全新的两帧协同训练机制,保持了视频时域一致性,消除了闪烁跳动瑕疵,同时保证视频风格迁移能够实时完成,兼顾了视频风格转换的高质量与高效率。

类似的方法也有望能够助力其他图像编辑方法向视频推广。

雷锋网:在这六篇论文成果中,除了通用的视频媒体解析,也涉及到医学等细分领域的研究,请问腾讯AI Lab如何选择研究方向?

刘威:在基础和前沿研究方向上,CV团队目前聚焦中高层视觉,尤其视频等可视结构数据的深度理解,同时也在重要的交叉领域发力,如视觉+NLP、视觉+信息检索等。

正在进行或计划中的研究项目兼具了挑战性和趣味性,包括超大规模图像分类、视频编辑与生成、时序数据建模和增强现实,这些项目吸引了哥伦比亚和清华等海内外知名大学的优秀实习生参与。

雷锋网:实际应用中,似乎很多时候对图像的处理不只是视觉问题,更多可能是涉及NLP的方法,对于这些交叉的现象,能否结合实际应用来谈谈您的看法?

刘威:现在互联网上的数据很多都是视觉与文本信号共同出现,譬如腾讯视频,不仅有视频信息,还有音频信息,还有相应的字幕、评论和弹幕等信息——如何挖掘或者学习它们之间的相关性也是业界的研究热点。近年来计算机视觉+NLP相结合,出现了很多热点的研究问题,譬如图像文本匹配、图像描述生成、图像问答等。

今年的CVPR的其中一个keynote也是邀请了NLP领域斯坦福大学的知名教授Dan Jurafsky,讨论了language方面的研究进展。因此,多个交叉领域的研究,更能推动研究成果在实际业务场景中的应用

雷锋网:在《Deep Self-Taught Learning for Weakly Supervised Object Localization》和《Diverse Image Annotation》中提到的方法似乎都更强调了机器学习的自主性,请问这是否代表着哪个领域的一些突破?

刘威:我认为这在研究的实用价值上实现了一定突破。以第一篇文章为例,它描述的是从较少的、质量低下的数据中进行的模型学习。模型在不断学习后,性能增强,从而能自主地选择更多数据、并选取其中质量更高的进行模型训练,提升模型性能,从而实现模型的自主学习。

这种依靠模型自身达到数据从少到多,从差到好的自主获取过程,在如今海量数据且质量良莠不齐的情况下更具有实用指导价值。

雷锋网:在今年的CVPR会议上,一个据称要接棒ImageNet的WebVision比赛也公布了第一期获奖名单,后者相比数据标注的分析处理,它更强调图像学习和理解,请问如何看待这个事情?实现所谓图像的学习和理解,当前存在哪些挑战?未来要实现这个突破,还要经历一个怎样的创新期?在这个创新过程中,哪些技术比较有潜力? 

刘威:2012年深度学习技术的兴起,让计算机视觉自此有了长足发展。除了物体检测与识别这类经典的中层视觉问题,在图像去噪、去模糊、超分辨率和语义分割等低层视觉问题解决上也有了很大的飞跃。

从最近两届 CVPR 广受关注的论文来看,未来CV领域的研究除了会继续提升经典视觉问题的算法性能,伴随着新数据集设计及细分研究领域上的新挑战,一些有趣且有挑战的研究问题也将会受到更大关注。我个人认为,视觉+NLP的交叉将持续升温,视频分析理解(包括视频分类、视频物体分割等)的研究将再上一个台阶。

雷锋网

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

雷锋网 AI 科技评论按:计算机视觉盛会 CVPR 2017已经结束了,雷锋网 AI 科技评论带来的多篇大会现场演讲及收录论文的报道相信也让读者们对今年的 CVPR 有了一些直观的感受。

论文的故事还在继续

相对于 CVPR 2017收录的共783篇论文,即便雷锋网 AI 科技评论近期挑选报道的获奖论文、业界大公司论文等等是具有一定特色和代表性的,也仍然只是沧海一粟,其余的收录论文中仍有很大的价值等待我们去挖掘,生物医学图像、3D视觉、运动追踪、场景理解、视频分析等方面都有许多新颖的研究成果。

所以我们继续邀请了宜远智能的刘凯博士对生物医学图像方面的多篇论文进行解读,延续之前最佳论文直播讲解活动,陆续为大家解读4篇不同的论文。

刘凯博士是宜远智能的总裁兼联合创始人,有着香港浸会大学的博士学位,曾任联想(香港)主管研究员、腾讯高级工程师。半个月前宜远智能的团队刚刚在阿里举办的天池 AI 医疗大赛上从全球2887支参赛队伍中脱颖而出取得了第二名的优异成绩。

在 8 月 1 日的直播分享中,刘凯博士为大家解读了「Fine-tuning Convolutional Neural Networks for Biomedical Image Analysis: Actively and Incrementally」(用于生物医学图像分析的精细调节卷积神经网络:主动的,增量的)这篇论文,它主要解决了一个深度学习中的重要问题:如何使用尽可能少的标注数据来训练一个效果有潜力的分类器。以下为当天分享的内容总结。

图文分享总结

刘凯博士:大家好,我是深圳市宜远智能科技有限公司的首席科学家刘凯。今天我给大家介绍一下 CVPR 2017 关于医学图像处理的一篇比较有意思的文章,用的是 active learning 和 incremental learning 的方法。

今天分享的主要内容是,首先介绍一下这篇文章的 motivation,就是他为什么要做这个工作;然后介绍一下他是怎么去做的,以及在两种数据集上的应用;最后做一下简单的总结,说一下它的特点以及还有哪些需要改进的地方。

其实在机器学习,特别是深度学习方面,有一个很重要的前提是我们需要有足够量的标注数据。但是这种标注数据一般是需要人工去标注,有时候标注的成本还是挺高的,特别是在医学图像处理上面。因为医学图像处理需要一些 domain knowledge,就是说医生对这些病比较熟悉他才能标,我们一般人是很难标的。不像在自然图像上面,比如ImageNet上面的图片,就是一些人脸、场景还有实物,我们每个人都可以去标,这种成本低一点。医学图像的成本就会比较高,比如我右边举的例子,医学图像常见的两种方式就是X光和CT。X光其实一个人一般拍出来一张,标注成本大概在20到30块钱人民币一张;CT是横断面,拍完一个人大概有几百张图片,标注完的成本就会高一点,标注的时间也会比较长,特别是CT,因为医生要看好几百张。

举个例子,比如标1000张,这个数据对 deep learning 来说数据量不算太大,X光需要2到3万人民币、3到4天才能标完;CT成本就会更长,而且时间成本也是一个很重要的问题。那我们怎么解决深度学习在医学方面、特别是医学图像方面的这个难题呢?那我们就要用尽量少的标注数据去训练一个 promising 的分类器,就是说一个比较好的分类器。

那我们就要考虑要多少训练数据才够训练一个 promising 的分类器呢?这里有个例子,比如左边这个图,这个模型的 performance 随着数据的增加是一个线性增长的过程,就是说数据越多,它的 performance 就越高。但在实际中,这种情况很少出现,一般情况下都是数据量达到一定程度,它的 performance就会达到一个瓶颈,就不会随着训练数据的增加而增加了。但是我们有时候想的是把这个临界点提前一点,让它发生在更小数据量的时候。比如右边这个图的红色虚线部分,用更小的数据达到了相同的 performance。我们的文章里就是介绍主动学习 active learning 的手段,找到一个小数据集达到大数据集一样的效果。

怎么样通过 active learning 的方式降低刚才右图里的临界点呢?就是要主动学习那些比较难的、容易分错的、信息量大的样本,然后把这样的样本标记起来。因为这些是比较难分的,容易分的可能几个样本就训练出来了,难分的就需要大量的数据,模型才能学出来。所以我们先去学这些难的。

怎么去定义这个“难”呢?就是“难的”、“容易分错”、“信息量大”,其实说的是一个意思。这个“信息量大”用两个指标去衡量,entropy大和diversity高。entropy就是信息学中的“熵”,diversity就是多样性。这个数据里的多样性就代表了模型学出来的东西具有比较高的泛化能力。举个例子,对于二分类问题,如果预测值是在0.5附近,就说明entropy比较高,因为模型比较难分出来它是哪一类的,所以给了它一个0.5的概率。

用 active learning 去找那些比较难的样本去学习有这5个步骤

  1. 首先,把所有的未标注图片数据在大量自然图像中训练的网络,大家知道现在有很多常用的网络,从最初的LeNet、AlexNet、GoogLeNet、VGG、ResNet这样的网络中去测试一遍,得到预测值。 然后挑出来那些最难的、信息量大的样本去标注

  2. 用这些刚刚标注了的样本去训练深度学习网络,得到一个网络N

  3. 把剩下没有标签的图像用N过一遍,得到预测值,挑一遍那些最难的,用人工去给它标注

  4. 把刚刚标注了的样本和原来已经标好的样本一起,也就是整个标注集拿来继续训练这个网络

  5. 重复3到4这个步骤,直到当前的分类器可以对选出来的比较难的图像很好的分类了。

刚才的文字讲解可能不是很直观,我们用一个图来看一下。这个图从左到右看,一开始灰蒙蒙的意思是都还没有标注,然后用一个pre-trained model去预测一遍都是哪个类。这样每个数据上都有一个概率,可以根据这个概率去选择它是不是难分的那个数据,就得到了中间这个图,上面那一段是比较难的,然后我们把它标注出来。然后用一个 continuous fine-tune 的 CNN,就是在原来的模型上再做一次 fine-tune,因为有了一些标注数据了嘛,就可以继续 fine-tune了。 fine-tune后的模型对未标注的数据又有了一个预测的值,再根据这些预测值与找哪些是难标的,把它们标上。然后把这些标注的数据和之前就标注好的数据一起,再做一次 continuous fine-tune,就得到 CNN2了。然后依次类推,直到把所有的数据都标完了,或者是在没有标完的时候模型的效果就已经很好了,因为把其中难的数据都已经标完了。

刚才我们提到了两个指标来判定一个数据是不是难分的数据。entropy比较直观,预测结果在0.5左右就认为它是比较难分的;但diversity这个值不是很好刻画,就通过 data augmentation数据增强的方式来设计指标,就是说从一个图像设计出一系列它的变形。这些变形就可以是靠翻转、旋转、平移操作等等,一个变成了好几个甚至十几个,增加了它的多样性。然后对这些所有的变形去预测它们的分类结果,如果结果不统一的话,就说明这副图像的diversity比较强,那么这张图像就是比较难分的,是hard sample;反之就是比较好分的,那么就不去做它的增强了。然后对所有增强以后的数据的预测值应当是一致的,因为它们代表的是同一个东西,但是也有一些例外,如果是像我刚才说的那样的简单的数据增强。

这就会产生一个问题,原始的图像,比如左边这只小猫,经过平移、旋转、缩放等一些操作以后得到9张图,每张图都是它的变形。然后我们用CNN对这9张图求是一只猫的概率,可以看到上面三个图的概率比较低,就是判断不出来是一只猫,我们直观的去看,像老鼠、狗、兔子都有可能。本来这是一个简单的例子,很容易识别出来这是一只猫,但是增强了以后反而让模型不确定了。这种情况是需要避免的。

所以这种时候做一个 majority selection,就是一个少数服从多数的方式,因为多数都识别出来它是一只猫了。这就是看它的倾向性,用里面的6个预测值为0.9的数据,上面三个预测值为0.1的就不作为增强后的结果了。这样网络预测的大方向就是统一的了。

这篇文章的创新点除了active learning之外,它在学习的时候也不是从batch开始,而是sequential learning。它在开始的时候效果就不会特别好,因为完全没有标注数据,它是从一个ImageNet数据库训练出的模型直接拿到medical的应用里来预测,效果应该不会太好。然后随着标注数据的增加,active learning的效果就会慢慢体现出来。这里是在每一次fine-tune的时候,都是在当前的模型基础上的进一步fine-tune,而不是都从原始的pre-train的model做fine-tune,这样就对上一次的模型参数有一点记忆性,是连续的学习。这种思路就跟学术上常见的sequntial learning和online learning是类似的。但是有一个缺点就是,fine-tune的参数不太好控制,有一些超参数,比如learning rate还有一些其它的,其实是需要随着模型的变化而变化的,而且比较容易一开始就掉入local minimal,因为一开始的时候标注数据不是很多,模型有可能学到一个不好的结果。那么这就是一个open的问题,可以从好几个方面去解决,不过解决方法这篇文章中并没有提。

这个方法在机器学习方面是比较通用的,就是找那些难分的数据去做sequntial的fine-tune。这里呢主要是用在了医学图像上面,然后用两个例子实验了结果,一个是结肠镜的视频帧分类,看看有没有病变、瘤之类的。结论是只用了5%的样本就达到了最好的效果,因为其实因为是连续的视频帧,通常都是差不多的,前后的帧都是类似的,不需要每一帧都去标注。另一个例子也是类似的,肺栓塞检测,检测+分类的问题,只用1000个样本就可以做到用2200个随机样本一样的效果。

这个作者我也了解一些,他是在 ASU 的PhD学生,然后现在在梅奥,美国一个非常著名的私立医院梅奥医院做实习,就跟需要做标准的医生打交道比较多。这相当于就是一个从现实需求得出来的一个研究课题。

总结下来,这篇文章有几个比较好的亮点。

  • 从标注数据来说,从一个完全未标注的数据集开始,刚开始的时候不需要标注数据,最终以比较少量的数据达到很好的效果;

  • 然后,从sequntial fine-tune的方式,而不是重新训练;

  • 选择样本的时候,是通过候选样本的一致性,选择有哪些样本是值得标注的;

  • 自动处理噪音,就是我刚才举的猫的那个例子,数据增强的时候带来的噪音,通过少数服从多数的方式把那些噪音去掉了;

  • 在每个候选集只选少量的patches计算熵和KL距离,KL距离就是描述diversity的指标,这样减少了计算量。传统的深度学习的时候会需要在训练之前就做数据增强,每个样本都是同等的;这篇文章里面有一些数据增强不仅没有起到好的作用,反而带来了噪音,就需要做一些处理;而且还有一些数据根本不需要增强,这样就减少了噪音,而且节省了计算。

这篇文章其实还比较简单,但是思路是很好的,因为提出的问题是在现实中非常常见的。有一些缺点就是:

  • sequntial fine-tune,就跟机器学习提出incremental learning和online learning的时候遇到的问题类似,就是说怎么样才能达到和batch learning的时候一样的效果。

  • 以我们在公司以及以前的研究经历来看,在标注好的那些数据上也有一些可以借鉴的思路可以加进来,比如 hard nigtive mining 有一个思路,因为在医学图像还有其它的一些数据上面,真正有病的数据是比较少的,就会出现这个模型分类的结果倾向于他没有病,就会出现一个问题是模型的有偏。这种时候用hard mining的方法就把分错的那些重新送入模型里面去重新训练。

  • 这个工作也可以在其它方面推广,不过推广的例子还有待研究,这里只用了medical的例子。

我今天分享的大概就是这些内容。其实这里还有一个更详细的解释,最好还是把论文读一遍吧,这样才是最详细的。

提问环节

Q:为什么开始的时候 active learning 没有比random selection好?

A:其实不一定,有时候是没有办法保证谁好。active learning在一开始的时候是没有标注数据的,相当于这时候它不知道哪些数据是hard的,在这个医学数据集上并没有受到过训练。这时候跟 random selection 就一样了,正在迁移原来 ImageNet 图像的学习效果。random selection 则有可能直接选出来 hard的那些结果,所以有可能比刚开始的active selecting要好一点,但这不是每次都是 random selection 好。就是不能保证到底是哪一个更好。

(完)

雷锋网 AI 科技评论整理。系列后续的论文解读分享也会进行总结整理,不过还是最希望大家参与我们的直播并提出问题。

雷锋网

CVPR 2017精彩论文解读:综合使用多形态核磁共振数据的3D生物医学图像分割方法

雷锋网 AI 科技评论按:计算机视觉盛会 CVPR 2017已经结束了,雷锋网 AI 科技评论带来的多篇大会现场演讲及收录论文的报道相信也让读者们对今年的 CVPR 有了一些直观的感受。

论文的故事还在继续

相对于 CVPR 2017收录的共783篇论文,即便雷锋网 AI 科技评论近期挑选报道的获奖论文、业界大公司论文等等是具有一定特色和代表性的,也仍然只是沧海一粟,其余的收录论文中仍有很大的价值等待我们去挖掘,生物医学图像、3D视觉、运动追踪、场景理解、视频分析等方面都有许多新颖的研究成果。

所以我们继续邀请了宜远智能的刘凯博士对生物医学图像方面的多篇论文进行解读,延续之前最佳论文直播讲解活动,从8月1日起陆续解读4篇不同的论文。此次是4篇中的第2篇。

刘凯博士是宜远智能的总裁兼联合创始人,有着香港浸会大学的博士学位,曾任联想(香港)主管研究员、腾讯高级工程师。半个月前宜远智能的团队刚刚在阿里举办的天池 AI 医疗大赛上从全球2887支参赛队伍中脱颖而出取得了第二名的优异成绩。

最佳论文直播讲解 #04

分享论文:「Joint Sequence Learning and Cross-Modality Convolution for 3D Biomedical Segmentation」

时间:8 月 4 日 (周五) 20:00

地点: AI 研习社微信群

论文简介

刘凯博士要为我们解读的生物医学图像论文中的第二篇是「Joint Sequence Learning and Cross-Modality Convolution for 3D Biomedical Segmentation」(用于三维生物医学分割的合并序列学习和多形态卷积)。它主要解决了一个三维生物医学图像分割中重要问题:如何综合使用多种形态的 MRI 数据进行区域分割。

论文简介:深度卷积神经网络这样的深度学习模型已经在三维生物医学分割任务中得到广泛应用,并取得了顶尖的表现。现在大多数的3D医学图像分割方法都只用了一个形态或把多个形态堆起来变成不同的通道。为了更好地平衡多形态的应用需求,论文中提出了一个包含交叉形态卷积层(cross-modality convolution layer)的深度编码-解码的网络结构(deep encoder-decoder structure)来合并核磁共振的不同形态,还利用卷积LSTM来对2D切片序列建模,并且把多形态卷积和LSTM网络结合在一起,做到端到端的学习。为了防止收敛到某一特定的类,论文中使用了权重策略和两个阶段的训练来处理类不均匀的情况。基于BRATS-2015数据集的实验结果显示论文中所提的方法比目前顶尖的生物医学分割方法表现更好。

观看直播或加群

长按识别或手机扫描下方二维码,进入 AI研习社(公众号:okweiwu)微信交流群,8月4日(周五)晚八点,活动准时开始!

CVPR 2017相关学术内容的报道并未结束,请心系学术的各位继续关注雷锋网 AI 科技评论的后续文章。

雷锋网

CVPR 2017最佳论文作者解读:DenseNet 的“what”、“why”和“how”|CVPR 2017

雷锋网 AI 科技评论按:CVPR 2017上,康奈尔大学博士后黄高博士(Gao Huang)、清华大学本科生刘壮(Zhuang Liu)、Facebook 人工智能研究院研究科学家 Laurens van der Maaten 及康奈尔大学计算机系教授 Kilian Q. Weinberger 所作论文《Densely Connected Convolutional Networks》当选 CVPR 2017 最佳论文,与苹果的首篇公开论文《Learning From Simulated and Unsupervised Images through Adversarial Training》共获这一殊荣。

在大会期间,雷锋网 AI 科技评论第一时间与获奖论文作者黄高博士及刘壮取得联系,以下为两位作者对 DenseNet 的详细介绍及常见疑问解答,雷锋网 AI 科技评论做了不改动原意的编辑和整理。

DenseNet 的基本结构

DenseNet 是一种具有密集连接的卷积神经网络。在该网络中,任何两层之间都有直接的连接,也就是说,网络每一层的输入都是前面所有层输出的并集,而该层所学习的特征图也会被直接传给其后面所有层作为输入。下图是 DenseNet 的一个示意图。


如果记第 l 层的变换函数为 H_l(通常对应于一组或两组 Batch-Normalization,ReLU 和 Convolution 的操作),输出为 x_l,那么我们可以用一个非常简单的式子描述 DenseNet 每一层的变换:

x_l = H_l([x_0, x_1, …, x_{l-1}])

可以看到,DenseNet 的思想非常简单,从理解到实现都不难(代码已经开源,并且 GitHub 上有用各种框架写的第三方实现)。可能很多人更关心的问题是为什么要提出 DenseNet,它有什么用,为什么会有用以及怎么把它用好。

DenseNet 是受什么启发提出来的?

DenseNet 的想法很大程度上源于我们去年发表在 ECCV 上的一个叫做随机深度网络(Deep networks with stochastic depth)工作。当时我们提出了一种类似于 Dropout 的方法来改进ResNet。我们发现在训练过程中的每一步都随机地「扔掉」(drop)一些层,可以显著的提高 ResNet 的泛化性能。这个方法的成功至少带给我们两点启发:

  • 首先,它说明了神经网络其实并不一定要是一个递进层级结构,也就是说网络中的某一层可以不仅仅依赖于紧邻的上一层的特征,而可以依赖于更前面层学习的特征。想像一下在随机深度网络中,当第 l 层被扔掉之后,第 l+1 层就被直接连到了第 l-1 层;当第 2 到了第 l 层都被扔掉之后,第 l+1 层就直接用到了第 1 层的特征。因此,随机深度网络其实可以看成一个具有随机密集连接的 DenseNet。

  • 其次,我们在训练的过程中随机扔掉很多层也不会破坏算法的收敛,说明了 ResNet 具有比较明显的冗余性,网络中的每一层都只提取了很少的特征(即所谓的残差)。实际上,我们将训练好的 ResNet 随机的去掉几层,对网络的预测结果也不会产生太大的影响。既然每一层学习的特征这么少,能不能降低它的计算量来减小冗余呢?

DenseNet 的设计正是基于以上两点观察。我们让网络中的每一层都直接与其前面层相连,实现特征的重复利用;同时把网络的每一层设计得特别「窄」,即只学习非常少的特征图(最极端情况就是每一层只学习一个特征图),达到降低冗余性的目的。这两点也是 DenseNet 与其他网络最主要的不同。需要强调的是,第一点是第二点的前提,没有密集连接,我们是不可能把网络设计得太窄的,否则训练会出现欠拟合(under-fitting)现象,即使 ResNet 也是如此。

DenseNet 有什么优点?

省参数。在 ImageNet 分类数据集上达到同样的准确率,DenseNet 所需的参数量不到 ResNet 的一半。对于工业界而言,小模型可以显著地节省带宽,降低存储开销。

省计算。达到与 ResNet 相当的精度,DenseNet 所需的计算量也只有 ResNet 的一半左右。计算效率在深度学习实际应用中的需求非常强烈,从本次 CVPR 会上大家对模型压缩以及 MobileNet 和 ShuffleNet 这些工作的关注就可以看得出来。最近我们也在搭建更高效的 DenseNet,初步结果表明 DenseNet 对于这类应用具有非常大的潜力,即使不用 Depth Separable Convolution 也能达到比现有方法更好的结果,预计在近期我们会公开相应的方法和模型。

另外,我们还提出了一个可实现自适应推理的多尺度 DenseNet,用于提高深度学习模型的推理效率。这个方法的主要思想是用浅层的特征来预测相对「简单」的图片,而只用深层的特征来预测比较「难」的图片。由于很多实际应用中,简单的图片占有较大的比例,而它们并不需要非常深的模型也能被正确预测,因此这种自适应推理方法可以有效的降低深度模型推理时的平均计算开销,而不降低精度。感兴趣的读者请关注我们的 arXiv 论文 《Multi-Scale Dense Convolutional Networks for Efficient Prediction》(https://arxiv.org/abs/1703.09844),代码参见 https://github.com/gaohuang/MSDNet

抗过拟合。DenseNet 具有非常好的抗过拟合性能,尤其适合于训练数据相对匮乏的应用。这一点从论文中 DenseNet 在不做数据增强(data augmentation)的 CIFAR 数据集上的表现就能看出来。例如不对 CIFAR100 做数据增强,之前最好的结果是 28.20% 的错误率,而 DenseNet 可以将这一结果提升至 19.64%。对于 DenseNet 抗过拟合的原因有一个比较直观的解释:神经网络每一层提取的特征都相当于对输入数据的一个非线性变换,而随着深度的增加,变换的复杂度也逐渐增加(更多非线性函数的复合)。相比于一般神经网络的分类器直接依赖于网络最后一层(复杂度最高)的特征,DenseNet 可以综合利用浅层复杂度低的特征,因而更容易得到一个光滑的具有更好泛化性能的决策函数。实际上,DenseNet 的泛化性能优于其他网络是可以从理论上证明的:去年的一篇几乎与 DenseNet 同期发布在 arXiv 上的论文(AdaNet: Adaptive Structural Learning of Artificial Neural Networks)所证明的结论(见文中 Theorem 1)表明类似于 DenseNet 的网络结构具有更小的泛化误差界。

密集连接不会带来冗余吗?

这是一个很多人都在问的问题,因为「密集连接」这个词给人的第一感觉就是极大的增加了网络的参数量和计算量。但实际上 DenseNet 比其他网络效率更高,其关键就在于网络每层计算量的减少以及特征的重复利用。DenseNet 的每一层只需学习很少的特征,使得参数量和计算量显著减少。比如对于 ImageNet 上的模型,ResNet 在特征图尺寸为 7×7 的阶段,每个基本单元(包含三个卷积层)的参数量为 2048x512x1x1+512x512x3x3+512x2048x1x1=4.5M,而 DenseNet 每个基本单元(包含两个卷积层,其输入特征图的数量一般小于 2000)的参数量约为 2000x4x32x1x1 + 4x32x32x3x3 = 0.26M,大幅低于 ResNet 每层的参数量。这就解释了为什么一个 201 层的 DenseNet 参数量和计算量都只有一个 101 层 ResNet 的一半左右。

还有一个自然而然的问题就是,这么多的密集连接,是不是全部都是必要的,有没有可能去掉一些也不会影响网络的性能?论文里面有一个热力图(heatmap),直观上刻画了各个连接的强度。从图中可以观察到网络中比较靠后的层确实也会用到非常浅层的特征。

via arXiv

我们还做过一些简单的实验,比如每一层都只连接到前面最近的 m 层(例如 m=4),或者奇(偶)数层只与前面的偶(奇)数层相连,但这样简化后的模型并没有比一个相应大小的正常 DenseNet 好。当然这些都只是一些非常初步的尝试,如果采用一些好的剪枝(prune)的方法,我觉得 DenseNet 中一部分连接是可以被去掉而不影响性能的。

DenseNet 特别耗费显存?

不少人跟我们反映过 DenseNet 在训练时对内存消耗非常厉害。这个问题其实是算法实现不优带来的。当前的深度学习框架对 DenseNet 的密集连接没有很好的支持,我们只能借助于反复的拼接(Concatenation)操作,将之前层的输出与当前层的输出拼接在一起,然后传给下一层。对于大多数框架(如 Torch 和 TensorFlow),每次拼接操作都会开辟新的内存来保存拼接后的特征。这样就导致一个 L 层的网络,要消耗相当于 L(L+1)/2 层网络的内存(第 l 层的输出在内存里被存了 (L-l+1) 份)。

解决这个问题的思路其实并不难,我们只需要预先分配一块缓存,供网络中所有的拼接层(Concatenation Layer)共享使用,这样 DenseNet 对内存的消耗便从平方级别降到了线性级别。在梯度反传过程中,我们再把相应卷积层的输出复制到该缓存,就可以重构每一层的输入特征,进而计算梯度。当然网络中由于 Batch Normalization 层的存在,实现起来还有一些需要注意的细节。为此我们专门写了一个技术报告(Memory-Efficient Implementation of DenseNets, https://arxiv.org/pdf/1707.06990.pdf)介绍如何提升 DenseNet 对内存的使用效率,同时还提供了 Torch, PyTorch, MxNet 以及 Caffe 的实现,代码参见:

Torch implementation: https://github.com/liuzhuang13/DenseNet/tree/master/models

PyTorch implementation: https://github.com/gpleiss/efficient_densenet_pytorch

MxNet implementation: https://github.com/taineleau/efficient_densenet_mxnet

Caffe implementation: https://github.com/Tongcheng/DN_CaffeScript

新的实现极大地减小了 DenseNet 在训练时对显存的消耗,比如论文中 190 层的 DenseNet 原来几乎占满了 4 块 12G 内存的 GPU,而优化过后的代码仅需要 9G 的显存,在单卡上就能训练。

另外就是网络在推理(或测试)的时候对内存的消耗,这个是我们在实际产品中(尤其是在移动设备上)部署深度学习模型时最关心的问题。不同于训练,一般神经网络的推理过程不需要一直保留每一层的输出,因此可以在每计算好一层的特征后便将前面层特征占用的内存释放掉。而 DenseNet 则需要始终保存所有前面层的输出。但考虑到 DenseNet 每一层产生的特征图很少,所以在推理的时候占用内存不会多于其他网络。

使用 DenseNet 有什么需要注意的细节?

总的来说,训练 DenseNet 跟训练其他网络没有什么特殊的地方,对于训练 ResNet 的代码,只需要把模型替换成 DenseNet 就可以了。如果想对 DenseNet 的模型做一些改进,我们有一些建议供参考:

  1. 每层开始的瓶颈层(1×1 卷积)对于减少参数量和计算量非常有用。

  2. 像 VGG 和 ResNet 那样每做一次下采样(down-sampling)之后都把层宽度(growth rate) 增加一倍,可以提高 DenseNet 的计算效率(FLOPS efficiency)。

  3. 与其他网络一样,DenseNet 的深度和宽度应该均衡的变化,当然 DenseNet 每层的宽度要远小于其他模型。

  4. 每一层设计得较窄会降低 DenseNet 在 GPU 上的运算效率,但可能会提高在 CPU 上的运算效率。

DenseNet 用于图像语义分割和物体检测等视觉任务效果如何?

由于 DenseNet 不容易过拟合,在数据集不是很大的时候表现尤其突出。在一些图像分割和物体检测的任务上,基于 DenseNet 的模型往往可以省略在 ImageNet 上的预训练,直接从随机初始化的模型开始训练,最终达到相同甚至更好的效果。由于在很多应用中实际数据跟预训练的 ImageNet 自然图像存在明显的差别,这种不需要预训练的方法在医学图像,卫星图像等任务上都具有非常广阔的应用前景。

在图像语义分割任务上,CVPR 2017 的一篇 workshop 文章 《The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation》 (https://arxiv.org/abs/1611.09326) 表明,基于 DenseNet 的全卷积网络(FCN)模型在不需要预训练的情况下甚至可以达到比其他预训练方法更高的精度,并且比达到相同效果的其他方法的模型要小 10 倍。

同样,在物体检测任务上,我们即将发表在 ICCV 2017 上的工作也表明,基于 DenseNet 的检测方法可以在不需要 ImageNet 预训练的情况下达到 state-of-the-art 的效果,并且模型参数相比较其他模型要少很多。这是目前为止第一个不用 ImageNet 预训练的基于深度学习的物体检测系统。文章会在 8 月初放到 arxiv,敬请关注。

头图 via cognifyx,正文图片由作者提供

雷锋网

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习

雷锋网 AI 科技评论按:计算机视觉盛会 CVPR 2017已经结束了,雷锋网 AI 科技评论带来的多篇大会现场演讲及收录论文的报道相信也让读者们对今年的 CVPR 有了一些直观的感受。

论文的故事还在继续

相对于 CVPR 2017收录的共783篇论文,即便雷锋网 AI 科技评论近期挑选报道的获奖论文、业界大公司论文等等是具有一定特色和代表性的,也仍然只是沧海一粟,其余的收录论文中仍有很大的价值等待我们去挖掘,生物医学图像、3D视觉、运动追踪、场景理解、视频分析等方面都有许多新颖的研究成果。

所以我们继续邀请了宜远智能的刘凯博士对生物医学图像方面的多篇论文进行解读,延续之前最佳论文直播讲解活动,从8月1日起陆续解读4篇不同的论文。

刘凯博士是宜远智能的总裁兼联合创始人,有着香港浸会大学的博士学位,曾任联想(香港)主管研究员、腾讯高级工程师。半个月前宜远智能的团队刚刚在阿里举办的天池 AI 医疗大赛上从全球2887支参赛队伍中脱颖而出取得了第二名的优异成绩。

最佳论文直播讲解 #03

分享论文:「Fine-tuning Convolutional Neural Networks for Biomedical Image Analysis: Actively and Incrementally」

时间:8 月 1 日 (周二) 20:00

地点: AI 研习社微信群

论文简介

刘凯博士要为我们解读的生物医学图像论文中的第一篇是「Fine-tuning Convolutional Neural Networks for Biomedical Image Analysis: Actively and Incrementally」(用于生物医学图像分析的精细调节卷积神经网络:主动的,增量的)。它主要解决了一个深度学习中的重要问题:如何使用尽可能少的标签数据来训练一个效果有潜力的分类器。

论文简介:用卷积神经网络(CNNs)解决生物医学图像分析问题的方法不仅引发了密切注意,它的影响范围也越来越大。然而这种方法要获得全面的成功,最大的阻碍之一就是缺乏生物医学图像方面的大规模有标注数据集。为生物医学图像做人工标注不仅单调乏味、耗费时间,而且具有这些专业知识技能的医生所需费用也很高,这就导致大规模有标注数据集往往是无法得到的。为了显著降低图像标注费用,这篇论文提出了一种新颖的方法“AFIT”(active, incremental fine-tuning 主动增量精细调节),它把主动学习(active learning)和迁移学习(transfer learning)自然地整合进了同一个框架中。

在 AIFT 中,一个经过预训练的 CNN 会在无标注图像中寻找“有价值”的图像让专家进行标注,然后新标注的图像会参与到 CNN 的精细调节中来;这样,CNN 在逐次迭代中能够借助新标注的图像样本持续进行精细调节,CNN 在目标领域的表现也就以增量的方式得到了增强。论文通过三种不同的生物医学图像应用对所提的方法进行了评估,结果表明这种方法至少可以减少一半的标注费用。这样的效果就是所提的 AIFT 方法中先进的主动学习和增量能力的优势的最佳体现。

观看直播或加群

长按识别或手机扫描下方二维码,进入 AI研习社(公众号:okweiwu)微信交流群,8月1日(周二)晚八点,活动准时开始!

CVPR 2017相关学术内容的报道并未结束,请心系学术的各位继续关注雷锋网 AI 科技评论的后续文章。

雷锋网

工业界论文被CVPR收录有捷径?| CVPR 2017

雷锋网AI科技评论按: CVPR是全球顶级的三大计算机视觉会议之一,每年都会吸引世界各地著名院所的学者提交论文,国内外从事计算机视觉和图像处理相关领域的著名学者都以能在CVPR上发表论文为荣,这些学术论文也将引领着未来的研究趋势。除了学术界以外,工业界也带来了他们的研究成果。雷锋网编辑挑选了来自工业界的四家公司入选的论文,分别作简介和评论。

阿里巴巴

阿里巴巴共有四篇论文被 CVPR 2017 接收,其中阿里人工智能实验室 3 篇,阿里 iDST 1 篇;阿里巴巴人工智能实验室此次入选的三篇论文均有杰出科学家王刚的深度参与,分别针对深度学习和计算机视觉所涉及的上下文模拟、场景分割、行为理解等问题提出了解决办法。

以下是对四篇论文的解读:

Deep Level Sets for Salient Object Detection(结合深度网络的水平集方法在显著性目标检测中的应用)

简介:显著性目标检测能够帮助计算机发现图片中最吸引人注意的区域,有效的图像分割和图像的语意属性对显著性目标检测非常重要。由南洋理工大学和阿里巴巴人工智能实验室合作,共同提出了一种结合深度网络的水平集方法,将分割信息和语意信息进行结合,获得了很好的效果。水平集方法是处理封闭运动界面随时间演化过程中几何拓扑变化的有效的计算工具,后来被用到图像分割算法当中。深度学习能够很好的建模显著性目标的语意属性,进而进行显著性目标检测,但更多的语意属性信息导致分割边界的低层信息不准确。论文巧妙的结合了深度网络和水平集方法(Deep Level Sets),同时利用图片低层的边界信息以及高层的语意信息,在显著性目标检测领域获得了最好的效果。

Global Context-Aware Attention LSTM Networks for 3D Action Recognition(将全局上下文注意力机制引入长短时记忆网络的3D动作识别)

简介:3D动作识别能够帮助计算及更好的理解人体动作,未来可以作为人机交互的一种补充。一个好的3D动作识别系统需要很好的处理动作在时间(动作需要一定时延)、空间(结构)上的信息。LSTM(长短时记忆网络)能够很好的建模动态的、相互依赖的时间序列数据(如人的3D动作序列),注意力机制能够更有效的获取数据中的结构信息,并排除掉噪声的干扰。由南洋理工大学、北京大学、阿里巴巴人工智能实验室合作,论文结合LSTM和上下文注意力机制,提出了一种新的LSTM网络:GCA-LSTM(Global Context-Aware Attention LSTM);用来建模动作序列中有效的全局上下文信息(时间信息+空间信息),进而进行3D动作识别。同时,论文为GCA-LSTM网络提出了一种循环注意力机制来迭代提升注意力模型的效果。论文方法在3个主流的3D动作识别数据集上都达到了最好的效果。

Episodic CAMN: Contextual Attention-based Memory Networks With Iterative Feedback For Scene Labeling(引入迭代反馈的上下文注意力机制记忆网络在场景分割中的应用)

简介:场景分隔通常在自动驾驶中应用,通过对路面场景进行分割,可以帮助无人车分析那部分区域是可行驶区域。也可以用于室内机器人通过场景分割获知室内物体的分布。场景分割对待分割区域周围的区域以及全局信息有较强的依赖关系,但这种依赖关系是动态变化的(即使同一区域在不同的场景中对周围信息的依赖是不同的),因此动态的获知不同区域的依赖关系以及图像全局上下文特征的使用至关重要。由南洋理工大学,伊利诺伊大学厄巴纳-香槟分校,阿里巴巴人工智能实验室合作,论文通过一个可学习的注意力机制网络来刻画不同区域之间的依赖关系,并获取包含上下文信息的特征。进一步,论文通过引入迭代反馈的方式对注意力机制网络的输出进行调节,以获得更好的包含上下文的特征。

Video to Shop: Exactly Matching Clothes in Videos to Online Shopping Images(从视频到电商:视频衣物精确检索)

作者:Zhi-Qi Cheng、Xiao Wu、Yang Liu、华先胜(阿里iDST)

简介:围绕视频电商业务场景,提出了一个在线视频衣物精确检索系统。该系统能够满足用户在观看影视剧时想要同时购买明星同款的需求。整个系统采用了目前最先进的衣物检测和跟踪技术。针对明星同款检索中存在的多角度、多场景、遮挡等问题。提出可变化的深度树形结构(Reconfigurable Deep Tree structure)利用多帧之间的相似匹配解决单一帧检索存在的遮挡、模糊等问题。该结构可以认为是对现有 attention 模型的一种扩展,可以用来解决多模型融合问题。

苹果

苹果公司之前接受采访时拒不透漏自家的AI进度,外界甚至一度怀疑苹果的AI技术落后于竞争对手。这次是奉行保密文化的苹果公司对外发布的第一篇AI论文,标志着苹果公开AI学术研究成果、对外敞开大门的第一步。该论文发表于去年12月,提出了由三部分(模拟器Simulator,精制器Refiner,再加上一个判别器Discriminator)组成的  SimGAN训练方法,因此而获得CVPR 2017最佳论文。不过,学术界有学者对这篇论文的含金量提出了质疑,认为苹果这份论文“试水”的意义远大于研究本身的意义。具体可参考雷锋网今年年初的报道。

论文题目:Learning From Simulated and Unsupervised Images through Adversarial Training

即“《借助对抗训练,从模拟、无监督图像中学习》”

作者:苹果公司 Ashish Shrivastava,Tomas Pfister,Oncel Tuzel,Joshua Susskind,Wenda Wang,Russell Webb。

简介:随着图像领域的进步,用生成的图像训练机器学习模型的可行性越来越高,大有避免人工标注真实图像的潜力。但是,由于生成的图像和真实图像的分布有所区别,用生成的图像训练的模型可能没有用真实图像训练的表现那么好。为了缩小这种差距,论文中提出了一种模拟+无监督的学习方式,其中的任务就是学习到一个模型,它能够用无标注的真实数据提高模拟器生成的图片的真实性,同时还能够保留模拟器生成的图片的标注信息。论文中构建了一个类似于 GANs 的对抗性网络来进行这种模拟+无监督学习,只不过论文中网络的输入是图像而不是随机向量。为了保留标注信息、避免图像瑕疵、稳定训练过程,论文中对标准 GAN 算法进行了几个关键的修改,分别对应“自我正则化”项、局部对抗性失真损失、用过往的美化后图像更新鉴别器。

腾讯

腾讯人工智能实验室曾经喊出“学术有影响,工业有产出”的口号。从这次入选论文数量上看,BAT三家,数腾讯最多,共6篇被收录。此次成果也可以算是对口号的前半句的一个有力回应吧!

:Real Time Neural Style Transfer for Videos(实时视频风格转化实现)

简介:最近的研究工作已经表明了使用前馈卷积神经网络来实现图像快速风格转变的可行性。而清华大学与腾讯AI实验室的研究基于这一点在实践上更近了一步,他们通过使用前馈网络对视频进行风格转化,同时还保持了风格化视频帧图像的时间一致性。在《实时视频风格转化实现》这篇论文中,作者介绍到,他们所使用的前馈网络是通过强制执行连续帧的输出既保持原有的风格又具有良好的连续性进行的训练得到的。更具体的,作者提出了一种混合损失(hybrid loss)理论,充分利用输入画面帧的画面信息,图像的风格信息和连续帧的时间信息对图像进行处理。为了计算在训练阶段的时间损失,作者提出了一种全新的两帧协同训练的机制。与原先直接硬性的将已有的画面风格转入视频的方法相比,这种全新的方式摒除了原有方法对耗时优化的依赖,即可保持画面的时间连续性,又消除了画面闪烁的问题,确保视频风格迁移实时、高质、高效和完整性,从而实现更好的视觉欣赏效果。

:WSISA: Making Survival Prediction from Whole Slide Histopathological Images

简介:德州大学阿灵顿分校(University of Texas-Alington)与腾讯AI实验室提出了就基于病理图片进行的病人生存预测方法——WSISA,有效地支持大数据时代的精准个性化医疗。作者提出了训练基于深度卷积生存(DeepConvSurv)预测结果的累积模型来记性病人层面的预测。与现有的基于图像的生存模型相比不同的是,这种模型可以有效地提取和利用WSI上所有可进行区分的小图块来进行预测。在目前的研究领域,这种方法还未有人提出过。通过论文中的方法,作者用三种数据集对胶质瘤和非小细胞肺癌的生存预测进行了研究,研究结果证实了WSISA架构可以极大程度的提高预测的精准性。

:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning (SCA-CNN:卷积神经网络中的注意力模型)

简介:由浙江大学、哥伦比亚大学,山东大学、腾讯AI实验室和新加坡国立大学(National University of Singapore)联合发表,针对图像描述生成任务,基于卷积网络的多层特征来动态生成文本描述,进而提出了空间及频道感知上的注意力模型。论文中,作者引入了一种新颖的卷积神经网络,称为SCA-CNN,其将空间和频道感知注意力融合进卷积神经网络。在实现给图像增加字幕的任务时,SCA-CNN动态的调整在多层特征映射中句子生成的语境,从而编译视觉注意力的两个特征:where(即在所层叠中注意力的空间位置)和what(即吸引注意力的频道)。论文通过三种benchmark的图像字幕数据集对提出的SCA-CNN架构进行评估,包括:Flickr8K,Flickr30和MSCOCO。通过评估证实了基于SCA-CNN架构进行图像字幕注解相对于目前已有方法的明显优势

四:Deep Self-Taught Learning for Weakly Supervised Object Localization(用于所监督对象定位的深度自学习)

简介:由新加坡国立大学(National University of Singapore)和腾讯AI实验室联合发布的论文《用于所监督对象定位的深度自学习》提出的依靠检测器自身段改进训练样本质量,不断增强检测器性能的一种全新的深度自学习方法,破解了所监督目标检测问题中训练样本质量低的瓶颈。为了实现这样的自学习,文中提出了一个种子样本采集方法,通过图像到对象的传输和密集的子图采集获取可靠的正样本来进行探测器的初始化。作者进一步的提供了一种在线支持样本收集计划来动态地选择最为可信的正样本,并提供成熟的训练方法对探测器进行训练。为了防止探测器在训练过程中陷入因过适应而造成的困境中,作者还引入了一种方法来引导自学习过程。

五:Diverse Image Annotation(多样图像标注)

简介:该论文由沙特阿拉伯的阿布多拉国王科技大学与腾讯AI实验室联合发表,提出了一种新的图像自动标注方式,即用少量多样性的标签表达尽量多的图像信息,其充分利用标签之间的语义关系,从而使得自动标注的结果与人类标注的结果更加相近。

六:Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images(对称性和/或曼哈顿特性对单个和多个图像进行三维物体结构设计)

简介:由腾讯AI实验室、约翰霍普金斯大学和加州大学洛杉矶分校联合发表,其论述了利用对称性和/或曼哈顿特性对单个和多个图像进行三维物体结构设计的方法。基于曼哈顿结构与对称信息,文中提出了单张图像三维重建及多张图像Structure from Motion三维重建的新方法。

商汤科技

人工智能技术行业巨头谷歌在此次CVPR 2017共有21篇论文入选,而国内一家独角兽公司商汤科技,它与香港中大-商汤科技联合实验室共同发表的论文数量却超越谷歌,达到惊人的23篇。这23篇论文涵盖了计算机视觉的多个领域,提出了很多新型的应用,在核心技术的研发上取得了多项国际领先的成果。下面雷锋网AI科技评论着重介绍其中的三篇论文。

Quality Aware Network for Set to Set Recognition(因图而异的融合网络)

论文简介:在人脸识别、人体再识别任务中,现有的方法是利用卷积神经网络对一个序列中的所有图像分别提取特征,再将特征进行简单的平均或池化,作为该序列的最终特征用于之后的识别。但实际应用场景中一个序列中的图像可能在许多方面存在着较大差异,例如光照、清晰度、角度等,如示例图。由于在融合序列的特征时没有考虑到这些差异,上述方法在实际应用场景用会受这些因素的影响从而无法达到理想的效果。本论文提出了一种新的序列匹配方法,充分考虑了序列内图像的差异性,并利用深度学习的方法对这种差异性进行无监督的学习,再根据学习到的质量差异性对序列中的图像特征进行融合,最终得到具有较高判别力的序列特征,解决光照模糊等一系列实际应用中的问题。 

Person Search with Natural Language Description(用自然语言来进行人的搜索)

论文简介:大规模图像库检索,通常提取图像属性特征再通过属性检索来找到目标。但是常用场景比如嫌疑犯描述都是通过自然语言描述(人类能理解的语言)。本论文提出了使用自然语言描述进行人的大库检索,如上图所示,自然语言描述为“这位妇女穿着一件长而亮的橙色长袍,腰上系着一条白色腰带。她把头发挽成一个发髻或马尾辫。”这样的描述要比用属性来的丰富的多。这个系统定位人体图像显著视觉区域,同时把有意义的文本描述短语赋予显著的视觉区域。通过学习图像-语言关系,系统可以准确得到自然语言查询和相似度得分,从而大大提成查询准确率和效率。

Residual Attention Network for Image Classification (残余注意网络用来图像分类)

论文简介:该论文首次成功将极深卷积神经网络与人类视觉注意力机制进行有效的结合。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像获得需要关注的目标区域,而后重点获取所需要关注的目标信息,抑制其他无用信息。在计算机视觉任务中,如何将视觉注意力机制有效的嵌入到神经网络结构并提升网络性能成为亟待解决的问题。 Residual Attention Network,在图像分类问题上,首次成功将极深卷积神经网络与人类视觉注意力机制进行有效的结合,并取得了远超之前网络结构的准确度与参数效率。

雷锋网AI科技评论小结:今年的CVPR大会是迄今为止规模最大的一届,其中提交论文数量最多,收录论文数量最多则直接反映了CVPR的学术影响力。商汤科技能有23篇论文被选中,除了论文质量高以外,也和今年大会的论文收录数量直线增长有关。BAT三巨头,百度并没有论文收录的消息,是没有提交论文,还是因为提交后没有入选,不得而知。另外,AI科技评论从录取的论文中发现,能显著提高CV在现实场景中的应用水平,以及将CV与最新的大众化应用相结合(如视频精确检索和淘宝购物联系起来),则最受评委的青睐。另外工业界和知名大学研究院联合发表论文也能提高论文的通过率。

工业界中,国内除了BAT三家互联网巨头参加外,还有很多的初创企业,像文中提到的商汤科技,还有自动驾驶公司驭势,Momenta等等。这些企业参加CVPR除了展示自家学术研究,以及了解借鉴最新科研成果外,还有一个最大的原因就是抢夺计算机视觉领域内的人才。各大企业展区,可以说是HR的竞技场!

雷锋网AI科技评论



 



雷锋网

阿里iDST的CVPR论文:剁手有了新方法,明星同款边看边买 | CVPR 2017

雷锋网 AI 科技评论按:CVPR是近十年来计算机视觉领域全球最有影响力、内容最全面的顶级学术会议,由全球最大的非营利性专业技术学会IEEE(电气和电子工程师协会)主办。今年CVPR审核了2620篇文章,最终收录783篇,录取率29%。阿里巴巴集团数据科学与技术研究院 iDST 和人工智能研究院 AI LAB 也有多篇论文被收录。

本文就是对阿里巴巴 iDST 视频分析团队的 CVPR 2017论文「 Video2Shop: Exact Matching Clothes in Videos to Online Shopping Images 」(从视频到电商:视频衣物精确检索)的解读,文章作者为阿里巴巴方广、磐君、思淘。

阿里巴巴 iDST 视频分析团队在这篇论文中围绕视频电商业务场景,提出了一个在线视频衣物精确检索系统。该系统能够满足用户在观看影视剧时想要同时购买明星同款的需求。整个系统采用了目前最先进的衣物检测和跟踪技术,针对明星同款检索中存在的多角度、多场景、遮挡等问题,提出可变化的深度树形结构(Reconfigurable Deep Tree structure),利用多帧之间的相似匹配解决单一帧检索存在的遮挡、模糊等问题。该结构可以认为是对现有attention模型的一种扩展,可以用来解决多模型融合问题。

论文技术在天猫魔盒视频中应用

业务场景及研究问题:视频电商中的衣物精确匹配

早在 2014 年,阿里与优酷土豆发布视频电商战略,称未来可以实现边看边买,使得视频电商的概念,继微博电商,朋友圈电商之后浮出水面。电商平台拥有少量商品,而视频网站具有巨大的流量,二者结合是发展的必然结果。电商平台可以借助视频网站的流量来实现导流和平台下沉,而视频网站则需要通过广告点击和商品成交来实现流量变现,因此二者的结合可谓一拍即合。视频电商的商业主旨是打造以视频为入口的购物服务,视频中出现所有物体都可能是商品,提供包括边看边买、明星同款、广告投放等服务,它集娱乐、休闲、购物于一体,给用户构造出一种“身临其境”情境营销,或者是明星同款的冲动式消费。视频电商目前已经不是停留在概念层次了,视频网站向电商的导流转化也一直在不断的尝试中。

然而影视剧中的服饰存在较大的差异性和异构性, 同一个目标往往展现出较大的差异。服饰购物图像通常具有杂乱、多样的背景, 而且常在户外拍摄。多样化的背景可能是建筑物,街道、风景、汽车等多种情况。由于自然场景下受到光线、角度、大小、分 辨率、几何学和光度学的变化等影响,使得服饰呈现出现的外形极为复杂,即使是同一件服饰也会出现变化较大的效果。同时在线网站为更好地展示服饰的效果,通常聘请时尚模特穿着所售商品,模特/人物姿势变化也是导致服饰变化的一个重要因素。 由于以上这些因素,使得视频明星同款搜索成为了一个极具挑战性的技术问题。

网络结构及技术细节

AsymNet网络结构:整个Asymnet深度神经网络结构如图1所示。当用户通过机顶盒(天猫魔盒)观看视频时,该网络将从电商网站(淘宝、天猫)检索到与之匹配的衣服,并推荐给用户。为忽略复杂背景对检索结果的影响,更准确的进行服装定位,我们首先应用服饰检测技术,提取得到服饰区域一组候选框。然后对这些候选框进行跟踪,得到明星同款在视频中的的运动轨迹。对于衣物候选区域和运动轨迹我们分别利用用图像特征网络(IFN)和视频特征网络(VFN)进行特征学习。考虑到服装的运动轨迹,衣物精确检索问题被定义为不对称(多对单)匹配问题,我们提出可变化的深度树形结(Reconfigurable Deep Tree Structure),利用多帧之间的相似匹配解决单一帧检索存在的遮挡、模糊等问题。后续本文将详细介绍模型的各个部分。

图 1 Asymnet深度神经网络结构

图像特征网络(IFN):传统CNN网络要求输入图像为固定的227×227(因为CNN网络中的卷积层需要有一个确定的预定义的维度)。在视频电商业务场景中,因为衣物检测候选框为任意大小,尺度变化很大,传统CNN网络无法进行有效的特征学习。针对这一问题,我们利用空间金字塔池化结构(SPP)体系结构,如图2所示。它通过空间池聚合最后一个卷积层的特征,从而使池区域的大小与输入的大小无关。

图 2 Asymnet图像特征网络(IFN)

视频特征网络 (VFN):为了更好的考虑视频的空间序列模式,进一步提高衣物检索的性能。基于 LSTM,我们提出了视频特征网络 (VFN),如图3所示。其中实验验证明两层堆叠式 LSTM 结构能够在视频特征学习中得到最佳性能。

 

图 3 Asymnet视频特征网络 (VFN)

相似性网络:明星同款匹配不同于近似衣物检索,精确匹配要求完全一致。在完全一致的 要求下,传统的通过相似性计算来进行检索的方法,不能满足明星同款精确匹配要求。已有的方法通常将精确匹配问题转换为一个二分类问题,但这种方式适应性差,只能利用单一时刻的视频帧。为了能够利用整个衣物运动轨迹,我们提出了如下的可变化的深度树形结构(Reconfigurable Deep Tree structure)将匹配问题转换为逻辑回归问题。匹配网络拟采用基于混合专家系统的逻辑回归网络。该结构可以认为是对现有attention模型的一种扩展,可以用来解决多模型融合问题。

图 4 Asymnet相似性网络

整个模型的目标函数是综合考虑每一帧的匹配结果,得到基于整个衣物运动序列和电商衣物的相似性,整个系统可以建模为对如下目标公式进行求解:

类似于attention机制,我们提出如下后验概率模型,来对上式进行求解:

得到如下梯度并采用端到端方式进行网络学习。 

试验结果

我们利用业务数据和最新的衣物检索方法进行了对比,试验结果如下表所示。相对于alexnet,Asymnet在前20的检索精确率指标上,其性能几乎提高了进一倍。相对于其他2种网络CS 和RC, 我们发现RC的性能略优于CS,因为RC具有较强的识别能力差异较小(采用多任务学习)。甚至在对于某些类别(无明显差别)RC在精确率上甚至略好于AsymNet,但是总的来说AsymNet比目前现有的方法拥有更好的性能。因为Asymnet可以处理现有的视频的时空动态变化,并结合自动视频帧的自动调节炉排判别信息的融合策略。

论文下载链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Cheng_Video2Shop_Exact_Matching_CVPR_2017_paper.pdf 

CVPR 2017 后续报道、更多近期学术会议现场报道,请继续关注雷锋网 AI 科技评论。

雷锋网

现场:CV人才争夺有多热烈,AI医疗与驾驶市场的竞争就有多激烈 | CVPR 2017

雷锋网AI科技评论报道,今天(夏威夷当地时间7月25日),IEEE主办的计算机视觉和模式识别会议 2017 CVPR 还在夏威夷如火如荼地进行中。和开始几天大家的关注点都聚焦最佳论文不同的是,大会期间会场周边还多了很多聚会活动。这,究竟是怎么肥四呢?

争夺CV人才,智能驾驶与医疗影像公司小步快跑

据雷锋网AI科技评论了解,除了大会议程,各大参会企业都纷纷在周边相约开起了小灶,举办学术界和业界相连接的聚会。而这些企业,正是CV领先应用的领域——智能驾驶与医疗影像:

  • CVPR 2017首日晚,自动驾驶大趴举办,图森未来、Berkeley DeepDrive和AutoX联合举办了关于自动驾驶的 workshop 。

  • 当地时间24日晚,conference《中国智能驾驶突破之路》举行,集合了地平线、驭势、滴滴、Momenta等中国智能驾驶企业领导者,进行了美酒、科技与商业碰撞的大趴。

  • 当地时间25日晚,来自硅谷的智能医疗影像公司VoxelCloud举办了小型聚会和presentation。

雷锋网此前报道指出,CVPR 2017包括全场过百家AI参展商在内,有在本次CVPR发表论文的企业占极少数,但他们有一个共同目的:招募英才。很明显,与其他展览不同的是,现场企业留下的联系方式多为企业招聘网址,主要站台的人员多为HR或其他行政人员,同时,无论企业大小,多数公司还是CEO亲自全程站台。

所以,当再看到图森、地平线、驭势、滴滴、VoxelCloud等企业,均相继展开各自组织的聚会活动,以此来宣讲时,也不意外了。这些活动可以看出,传统的展台宣传方式给企业在招聘宣传时带来的被动局限,他们不得不以看似主动的方式来争取人才争夺的主动性。

而从这些举动也可以看出,作为计算机视觉和模式识别领先应用的领域,智能驾驶和医疗影像,CV领域的商业化铺设、产业化科研的竞争已经喷涌而发。智能驾驶的火热和产业化程度已无需多言,而近一两年兴起的智慧医疗也开始了紧张的角逐。据了解,VoxelCloud在初创时期,目前已经开发了5款智能医疗影像产品,尤其注重团队搭建。而业内人士曾向雷锋网AI掘金志表示,在国内智能医疗影像市场中,技术公司铺设医院寻求合作正如火如荼地进行,“晚一会儿都不行。”

国际学术会议渐成学术与产业连接的平台

自从去年地平线领先采用会期举办conference的形式,这种线下学术界与产业界连接的活动便起到了成群效仿的效应。这意味着,一方面国际权威学术会议,出现了充当起学术与产业连接的平台角色的趋势。从大会论文发表也可以看出,极大一部分论文为校企合作的成果,而这未必与其最终雇主相挂钩。与此同时,这个由学术大会担当的平台,也让学界与产业界的沟通更加平等、透明,比如,学生有更加多样且充分的条件了解自己的研究方向与企业需求的匹配度;在大会的交流时刻,有学生还向雷锋网“八卦”某些大佬进入产业界的故事历程。

不仅如此,细心的观众也许注意到,CVPR 2017的论文poster区域,是被里外三圈企业展位围绕着的,这非常方便企业者“相中”研究领域适配的研究者啊!与ICLR、AAAI等会议相比,CVPR设置的展位为数最多!

除此之外,这些额外展开的活动,也并非一个简单的party,大家用以吸引人的方式,一是借助学术大牛——比如当地时间24日晚聚会《中国智能驾驶突破之路》则集合了地平线、驭势等中国明星企业领导者;一位高校教授曾经向雷锋网AI科技评论表示,他参加学术会议,除了几个keynotes,更多是参加大会前后的workshop和tutorial参与熟人社交。

当然,除了大咖云集,还有美食诱惑——比如24日晚IJCV的龙虾之夜,除了金出武雄教授、李飞飞教授等CV领域专家的出席,主题便是一个大龙虾。

但是,总的来说,可以看出这始终离不开的是借助学术大佬的号召力。所以,回到刚才选择多样性的话题,学生与企业展开相互选择、相互合作时,国际学术交流同时也是推动一个行业生态多元性发展的重要力量。一个值得一提的细节是,这届CVPR,主席之一来自小企业,这在顶级学术会议是极少见的。

而在这一个AI迅速发展的时代,雷锋网将继续致力于连接学术界与产业界的交流。未来,雷锋网将通过由CCF中国计算机协会主办,雷锋网承办的CCF-GAIR大讲堂活动,在每次国际学术会议后邀请在会议上得到认可的讲者回到国内高校,给未能到达现场的青年学者进行论文讲解、经验分享和圆桌讨论,促进多方交流与碰撞。

因此在接下来的8月盛夏,雷锋网将在深圳、上海、北京举办多场GAIR大讲堂,届时相关专家将莅临现场,分享本次CVPR 2017的经验心得,敬请期待!

雷锋网