标签归档:CVPR

CVPR 2018 中国论文分享会之「视觉与语言」

雷锋网 AI 科技评论按:视觉与语言的结合,相较于分割、检测来讲是比较新的研究领域,但或许正是因为如此,在这个领域还有很多有待探索的地方。本文为 2018 年 5 月 11 日在微软亚洲研究院进行的 CVPR 2018 中国论文宣讲研讨会中第四个 Session——「Vision and Language」环节的四场论文报告。

在第一个报告中,微软亚洲研究院的段楠博士介绍了他们将 VQA(视觉问答)和 VQG(视觉问题生成)两项任务结合成一个统一模型 iQAN 的工作。由于 VAQ 与 VQG 在某种程度上具有同构的结构和相反的输入输出,因此两者可以相互监督,以进一步同时提升两个任务的表现。

第二个报告由来自中科院自动化所黄岩介绍他们在图文匹配方面的工作。不同与其他方法直接提取图像和句子的特征然后进行相似性比较,他们认为(1)图片比语句包含更多信息;(2)全局图像特征并不一定好,于是他们提出了先对图片进行语义概念提取,再将这些语义概念进行排序,之后再进行图文匹配的比较。

来自西北工业大学的王鹏教授在第三个报告中介绍了他们在 Visual Dialog 生成方面的工作,他们提出了一种基于对抗学习的看图生成对话的方法,这种方法可以在保证问答信息的真实性的情况下,维持对话的连续性。

在第四个报告中,来自华南理工大学的谭明奎教授介绍了他们在 Visual Grounding 任务中的工作,也即给定图片和描述性语句,从图中找出最相关的物体或区域。他们将这个问题分解为三个子 attetion 问题,并在提取其中一中数据的特征时,其他两个作为辅助信息来提升其提取质量。

雷锋网注:

[1]
CVPR 2018
中国论文宣讲研讨会由微软亚洲研究院、清华大学媒体与网络技术教育部-微软重点实验室、商汤科技、中国计算机学会计算机视觉专委会、中国图象图形学会视觉大数据专委会合作举办,数十位
CVPR 2018 收录论文的作者在此论坛中分享其最新研究和技术观点。研讨会共包含了 6 个
session(共 22 个报告),1 个论坛,以及 20 多个 posters,AI 科技评论将为您详细报道。

[2] CVPR 2018 将于 6 月 18 – 22 日在美国盐湖城召开。据 CVPR 官网显示,今年大会有超过 3300 篇论文投稿,其中录取 979 篇;相比去年 783 篇论文,今年增长了近 25%。

更多报道请参看雷锋网:

Session 1:GAN and Synthesis

Session 2: Deep Learning

Session 3: Person Re-Identification and Tracking

Session 4: Vision and Language

Session 5: Segmentation, Detection

Session 6: Human, Face and 3D Shape


一、融合VQA和VQG

论文:Visual Question Generation as Dual Task of Visual Question Answering

报告人:段楠 – 微软亚洲研究院

论文下载地址:https://arxiv.org/abs/1709.07192

所谓 visual question answering (VQA),即输入 images 和 open-ended questions,生成相关的 answer;而所谓 visual question generation (VQG),即输入 images 和 answers,能够生成相关的 questions。

近来的 VQA 和 VQG 都是两个比较热门的研究课题,但是基本上都是独立的研究。段楠认为这两项研究本质上具有同构的结构,即编码-融合-解码通道,不同之处只是 Q 和 A 的位置。因此他们提出将这两个任务融合进同一个端到端的框架 Invertible Question Answering Network (iQAN) 中,利用它们之间的相互关系来共同促进两者的表现。

针对 VQA 部分,他们选用了目前常用的模型 MUTAN VQA,如下图所示:

MUTAN VQA 本质上是一个双线性融合模型。考虑到 VQG 与 VQA 同构,因此他们对 MUTAN 稍加改造(如下图将 Q、A 位置互换)得到对偶的 MUTAN 形式:

通过两个模块中 q 与 Q,a 与 A 的相互监督来提升 VQA 和 VQG 的表现。基于这样的思考,他们构建了端到端的 iQAN 框架如下:

这里首先是使用 MUTAN 和 Dual MUTAN 的框架生成相应的 VQA loss 和 VQG loss。其次如刚才提到,由 q 与 Q,a 与 A 的相互监督得到 dual regularizer 的 loss。另外,image 即作为 VQA 的输入,也作为 VQG 的输入,因此它们在参数上是共享的,因此他们又做了一个 embedding sharing 的部分。

部分实验结果如下:

段楠提到,在这篇文章中他们使用的主要是 MUTAN 的框架,而事实上可以很容易替换成别的框架,对比实验如下,分别使用了 iBWIMG、MLB、MUTAN 和 MUTAN+sharing LSTM:

这里是一个注意力热图结果:

二、图文匹配

论文:Learning Semantic Concepts and Order for Image and Sentence Matching

报告人:黄岩 – 中科院自动化所

论文下载地址:https://arxiv.org/abs/1712.02036

一张图片包含信息丰富多彩,而如果单单用一个句子来描述就会漏掉许多信息。这或许也是当前图像与文本匹配任务当中的一个问题。黄岩等人针对此问题,提出了学习图像语义概念和顺序,然后再进行图像/文本匹配的思路。

如上图所示,他们希望能先提取出图像中所包含的基本概念,例如 cheetah、gazelle、grass、green、chasing 等,包括各种事物、属性、关系等;然后学习出这些语义概念的顺序,如 cheetah chasing gazelle grass,显然这里不同的语义顺序也将导致不同的语义意义。基于这些语义概念和顺序在进行图片与文本的匹配。

整体来说,即用多区域、多标签的 CNN 来进行概念预测,用全局上下文模块以及语句生成来进行顺序学习。模型框架如下图所示:

a)针对句子用 LSTM 学习其特性;(b)使用多区域、多标签的 CNN 从图中进行语义概念提取;(c)使用 VGGNet 提取上下文信息;(d)利用提取出的语义概念和上下文的信息,例如空间位置等,通过 gated fusion unit 对语义进行排序;(e)此外,他们还发现事实上语句本身也包含着「顺序」的信息,因此他们利用生成的语句作为监督来学习语义顺序,进一步提高语义顺序的准确性。最后通过学习出的语义概念和顺序进行相似性打分,判断图像与句子是否匹配。

其实验结果与当前的一些 state-of-art 方法对比如下:

可以看出,在两个数据集中该方法的表现相比其他方法都有显著的提升。下面是一个实例:

ctx = context,cnp = concept,gen = generation。其中 groundtruth 匹配语句用红色标注;与 groundtruth 有相同意思的句子以下划线标注

三、看图写对话

论文:Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning

报告人:王鹏 – 西北工业大学

论文下载地址:https://arxiv.org/abs/1711.07613

所谓 Visual Dialog Generation,简单来讲,即以一张图片和对话历史为条件来回答相关问题。相比于 NLP 领域的对话,其不同之处在于输入中除了 dialog history 和 question 外,还有一个图片信息;而相比于 Visual Answer 则多了 dialog history。如下图所示:

一个很自然的想法就是仍然使用 Visual Answer 中的方案,将 dialog history 中的每一对对话视作图片中的一个 fact 去提取和生成。这种方法有一个缺点,及 Visual Answer 任务的重点是针对问题给出一个尽可能对的答案。但是对于 dialog 任务来讲,除了回答正确外,还需要维持对话的有序进行。在对话中一个好的回答是,除了回答问题外,还要提供更多的信息,以便提问者能够根据这信息继续问下去。

基于这样的想法,王鹏等人提出了基于对抗学习的方式来生成 Visual Dialog。具体来讲,他们使用了较为传统的 dialog
generator,即针对 image、question 和 dialog history 分别使用 CNN 和 LSTM
对其进行编码,随后经过 co-attention 模型对每个 local representation 给出一个权重,然后将 local
feature 做一个带权求和从而得到 attented feature,将该 feature 经过 LSTM 解码即可得到一个相应的
Answer。

在这个模型中关键的一点是他们在模型的后面加入一个鉴别器,通过它来区分输入的答案是人产生的还是机器产生的。这里输入的不仅有相应的 question 和 Answer,还有 attention 的 output,以便让鉴别器在一定的环境下分析 Q、A 是否合理。鉴别器产生的概率将作为生成器的 reward,以对生成器的参数进行更新。

这里需要重点提一下生成器中的 Co-attention 模型,这是一个序列 Co-attention 模型,他们也曾将这个模型用在 CVPR 2017 中的一篇文章中。如下图所示:

首先对 Question 做一个 attention,然后将结果作为 guidance 在 Image 上做 attention,从而得到 image 的feature;时候再把这两个的结果作为 guidance 在 history dialog 上做 attention,得到 history dialog 的 feature;如此往复,不断把结果提高。最终将输出 feature 作为整个模型的表示。

其算法如下所示:

其实验结果显示比其他方法有很大提升:

一个实例如下:

可以看出其生成对话的长度,相比其他方法要更长(这某种程度上也意味着包含更多的信息)。


四、如何找到竹筐里的熊猫?

论文:Visual grounding via accumulated attention

报告人:谭明奎 - 华南理工大学

论文下载地址:暂无

Visual Grounding 任务是指:当给定一张图片以及一句描述性句子,从图片中找出最相关的对象或区域。形象来说,如下图:

Visual Grounding 任务即从图中找出「在竹筐中的熊猫」(注意:而不是在地上的熊猫)。

据谭明奎教授介绍这篇文章的工作是由华南理工大学的一名本科生完成。在文章中,作者针对此任务,提出了 Accumulate Attention 方法,将 Visual Grounding 转化为三个子问题,即 1)定位查询文本中的关键单词;2)定位图片中的相关区域;3)寻找目标物体。

作者针对这三个子问题分别设计了三种 Attention 模块,分别从文本、图像以及候选物体三种数据中提取特征。

首先针对文本、图像以及物体,他们分别使用 Hierarchical LSTM、VGG-16 以及 Faster-RCNN 来提取特征,然后使用 attention 机制计算出每个三种数据特征向量每个元素的权重。

作者在提取一种特征的过程中,将另外两种数据的特征作为辅助信息来提高特征提取的质量。Accumulate Attention 方法按照循环的方式不断对这三种数据进行特征提取,使得特征的质量不断提高,分配在目标相关的数据上的 attention 权重不断加大,而分配在无关的噪声数据上的 attention 权重则不断减小。

其实验表明 Accumulate Attention 方法在 ReferCOCO、ReferCOCO+、ReferCOCOg 等数据集上均取得较好的效果。(其中的 r1、r2、r3、r4 分别代表循环轮数。)

雷锋网

CVPR 2018 中国论文分享会之 「GAN 与合成」

雷锋网 AI 科技评论按:2018 年 5 月 11 日,由微软亚洲研究院、清华大学媒体与网络技术教育部-微软重点实验室、商汤科技、中国计算机学会计算机视觉专委会、中国图象图形学会视觉大数据专委会合作举办了 CVPR 2018 中国论文宣讲研讨会,数十位 CVPR 2018 收录论文的作者在此论坛中分享其最新研究和技术观点。研讨会共包含了 6 个 session(共 22 个报告),1 个论坛,以及 20 多个 posters,AI 科技评论将为您详细报道。

雷锋网注:全球计算机视觉顶级会议 IEEE CVPR 2018 将于 6 月 18 – 22 日在美国盐湖城召开。据 CVPR 官网显示,今年大会有超过 3300 篇论文投稿,其中录取 979 篇;相比去年 783 篇论文,今年增长了近 25%。

更多报道请参看雷锋网更多报道:

Session 1:GAN and Synthesis

Session 2: Deep Learning

Session 3: Person Re-Identification and Tracking

Session 4: Vision and Language

Session 5: Segmentation, Detection

Session 6: Human, Face and 3D Shape

本文为 Session 1,报告论文主要以使用 GAN 方法和生成方法为主,共有四场论文报道。

在第一个报告中,北京大学刘家瑛副教授介绍他们团队使用 Attentive GAN 从单幅图像中去除雨滴的工作;第二个报告由来自中科院自动化所的胡一博博士介绍他们通过 CAPG-GAN 算法实现人脸旋转任意角度的工作;随后是由北京大学连宙辉副教授介绍了他们提出的交互式纹理变换的通用框架;最后由来自微软亚洲研究院的傅建龙研究员介绍了他们提出的基于instance-level的 DA-GAN(深度注意生成对抗网络),该网络在图像到图像翻译中能够实现更精细的生成结果。

1、如何从单张图片中去除雨滴?

论文:Attentive Generative Adversarial Network for Raindrop Removal from A Single Image

报告人:刘家瑛,北京大学

论文下载地址:https://arxiv.org/abs/1711.10098

去除图片中的雨痕,一般有四种情景,如下图所示,分别为:落下的雨滴(Rain Drop 1),落在镜头上的雨滴(Rain Drop 2),雨线(Rain Streak),以及雨雾(Mist)。

刘家瑛团队在去年 CVPR 中曾发表过一篇关于去除雨痕的文章《Deep Joint Rain Detection and Removal From A Singal Image》,在这篇论文中他们主要研究如何去除图片中的雨线。但在无人驾驶或相关研究中,更具挑战性的一个任务是如何去除落在玻璃或者镜头上的雨滴。刘家瑛在本次分享会上介绍了她所指导的北大大二学生 Rui Qian 所做的该方面工作,也即去除单张图片上随机散布的雨滴(Rain Drop 2)。

在此之前仅有的一篇类似研究,是由 David Eigen 等人发表在 ICCV 2013 的一篇文章,在这篇文章中由于作者只使用了 3 层卷积网络,所以只能处理很少的 case,同时能够处理的图片上的雨滴也非常小,基本上可以视为灰尘。

在刘家瑛所分享的这篇文章中,其思路仍然延续去年文章的方法,即生成数据集,然后用生成的数据集来训练模型。

1、数据集生成

数据集的生成方式是,本文作者 Rui Qian 使用单反+一个 3 毫米厚的玻璃片(或者直接把水喷在镜头上)收集了 1000 多对(有雨和无雨)在不同户外环境、不同背景、不同尺寸和形状的雨滴图像,以模拟真实环境中雨滴的多样性。使用一个数学公式来表达带有雨滴图像的话,如图中公式所示:

2、模型框架

在该论文中作者选择使用 GAN 的方法,整个模型的框架如下图所示:

共包含三个部分,分别为:Generator(Attention-recurrent Network),Context Autoencoder 和 Dicriminator Network。

第一部分主要的工作是做检测(即检测雨滴在图片中的位置),然后生成 attention map。首先使用 Residual block 从雨滴图片中抽取 feature,渐进式地使用 Convs 来检测 attentive 的区域。训练数据集中图片都是成对的,所以可以很容易计算出相应的 mask(M),由此可以构建出 Loss 函数;由于不同的 attention 网络刻画 feature 的准确度不同,所以给每个 loss 一个指数的衰减。相应的 loss 函数如下:

随后将 attention map 和雨滴图像一起送给 autoencoder,生成去雨滴图像。autoencoder 的结构用了 16 个 Conv 和 Relu。为了避免网络本身造成的 blur,作者使用了 skip connection,因为在低级层次这会带来很好的效果。在构建 loss 方面,除了多尺度的考虑,还加上了一个高精度的 loss,即:Multi-scale loss + perceptual loss。

最后一个是 discriminator。这个步骤有两种方式,一种是只使用 autoencoder 生成的无雨滴图像,进行判断;另一种则是加入 attention map 作为指导。如图所示:

3、实验结果

作者使用两个数据集(PSNR 和 SSIM)进行了验证,其中 PSNR 是他们自己收集的数据集。作者选用 Eigen 等人 2013 年发表的工作以及 Pix2Pix 的方法作为对比。结果如下:

其中 A 表示只有 Autoencoder,A+D 表示 Autoencoder+Discriminator,A+AD 表示 Autoencoder + Attention Discriminator,AA + AD 表示 Attention Autoencoder + Attention Discriminator。

实际去雨效果如图所示:


2、如何旋转图像中的人脸?

论文:Pose-Guided Photorealistic Face Rotation

报告人:胡一博,中科院自动化所

论文下载地址:暂无

对于如何将图像中的人脸旋转任意角度,例如从一张正脸图像生成侧脸图像,或反之从侧脸恢复其正脸图像,无论是学术界还是工业界都给予了很大的关注,因为这可以用于人脸编辑、姿态变换、数据增强、表示学习等当中。

视角旋转有 x、y、z 三个方向,目前研究中主要考虑左右偏转。如果从单张图像进行旋转的话,这其实是一种「无中生有」、一对多的病态问题。因此目前人脸旋转存在真实性不高、分辨率较低、身份信息保持较差的问题。

胡一博在介绍他们的工作之前,简单介绍了人脸旋转研究的历程,如下图所示:


1、启发

从 2015 年的 CVPR 论文开始,人脸识别逐渐引起广泛的关注。目前人脸识别主要分成两个部分,一个是人脸正面化,一个是水平方向的任意角度旋转。之所以将人脸正面化作为一个单独的部分,是因为人脸正面化的过程中可以引入「对称性」的强约束,从而降低一对多问题的困难。

其中的 TP-GAN 是人脸正面化中一个里程碑式的工作,这种方法出现之后使得人脸转正能够达到以假乱真的效果。TP-GAN 之所以能够这么有效是因为,它通过一条全局通路和 4 个局部通路(分别对应人的五官),最终让局部和全局的通路进行融合。但是这种方法有两点不足:1)它受限于最慢通路的约束存在一定的性能瓶颈;2)只适用于人脸正面化的问题中,而不能应用于更广泛的人脸旋转中。针对这两个问题,胡一博认为我们需要提升其网咯性能以及实现任意姿态的人脸旋转。

另一方面,全局优先拓扑感知理论指出生物视觉系统对全局拓扑结构非常敏感。人脸五官包含着很丰富的全局拓扑信息,因此以人脸全局拓扑信息作为一个条件指导整个人脸的过程。

2、模型

基于上面两方面的启发,胡一博等人提出了 CAPG-GAN 的方法,该方法能够进行二维空间中任意角度的人脸旋转。选择人脸全局拓扑信息作为条件有两个优势,首先它可以提供人脸的结构信息促使生成的图像更加的逼真,其次在判别器中它可以作为先验知识,可以提高判别器对于人脸结构的判别性,进而促使生成器生成分辨率较高的图像。CAPG-GAN 的结构图如下:

输入包括原始图像 I^a,原始图像的五个关键点 P^a,以及目标姿态的关键点 P^b,通过生成器 G 输出目标图像。判别器采用的是 couple-agent 的结构,本质上就是两个独立的判别器,agent 1 判别旋转角度的真实性,agent 2 判断的是拓扑结构的真实性。

针对两个 agent,对应的损失函数如下图所示:

3、实验对比

胡一博团队针对人脸正面化以及旋转任意角度的任务在多种数据集上进行实验验证,其结果表现优异。效果如下:

相关文章:

[1]中科院自动化所赫然:大规模人脸图像编辑理论、方法及应用

[2] 中科院自动化所智能感知与计算研究中心11篇论文被CVPR接收 | CVPR 2018


3、如何给字体添加多样风格?

论文:A Common Framework for Interactive Texture Transfer

报告人:连宙辉,北京大学

论文下载地址:http://www.icst.pku.edu.cn/F/zLian/papers/CVPR18-Men.pdf

研究来源于需求。连宙辉副教授来自北京大学计算机科学技术研究所(该研究所是由)的字形计算技术实验室。传统上,字形设计需要人工对每个字进行手写或者设计,然后输入系统才能够被利用。但是由于中文有大量的汉字,且很多汉字的结构非常复杂,所以这项工作艰难且费时。一种解决方法就是,设计一个特定风格的字,然后通过变换迁移到别的字上。

那么是否可以将任意纹理的图像风格通过变换迁移到一个目标汉字上呢?更广义一点,是否可以将任意纹理风格迁移到任意图像上呢?基于这些思考,连宙辉团队在其论文中提出一种交互式的纹理迁移通用框架。

如上图所示,该通用框架能够:(a)将涂鸦转换为艺术品,(b)编辑装饰模式,(c)生成特殊效果的文本,(d)控制文本中的效果分布图像,(e)交换纹理。

1、方法

纹理迁移的问题其实就是,如何输入原始纹理图像、原始图像的语义图以及目标图像的语义图后,从而输出目标纹理图像。

其中较为关键的问题是,如何将两张语义图进行匹配。例如上图中,对于边缘由于有丰富的语义信息指引,因此可以较为容易地进行匹配;但是对于内部大面积的区域(d、e),同一个点有很多地方可以去匹配,作者选择利用从边缘传过来的信息(纹理一致和结构引导)可以实现很好的匹配效果。

整个流程如上图所示,共分为三大部分 7 个步骤。需要说明的是,基于交互式结构的图像合成是由语义映射和结构信息来指导的,其中用户可以对语义通道进行注释来控制目标图像中风格化纹理的空间分布。在结构提取环节,通过内容感知显着性检测自动提取结构通道,并将其从源样式图像传递到目标。具体而言,传播步骤通过在源图像和目标图像之间的关键轮廓点的配准来获取内部结构对应关系。结合语义和结构信息进行动态指导,可以使转换过程产生具有内容意识和低级细节的高质量纹理。

2、实验结果

3、结论

本文提出了一个结构指导的交互式纹理传递的一般框架。该方法可以自动将样式从给定的源图像迁移到用户控制的目标图像,同时保持结构的完整性和视觉丰富性。更具体地说,作者引入了通过自动提取显著区域和传播结构信息获得的结构指导。通过将结构通道与语义和纹理一致性结合起来,可以实现指导纹理转移。实验结果表明,所提出的框架广泛适用于许多纹理转移挑战。尽管目前大多数模型都倾向于使用基于神经的方法进行样式转换,但本文的结果表明,简单的传统的纹理合成框架仍然可以表现出优异的性能。

4、如何进行更细致的图像到图像翻译?

论文:DA-GAN: Instance-level Image Translation by Deep Attention Generative Adversarial Network

报告人:傅建龙,微软亚洲研究院

论文下载地址:https://arxiv.org/abs/1802.06454

本文是另外一篇将 Attention 机制与 GAN 相结合,以生成更高质量目标的工作。

1、启发

傅建龙在报告中认为,CV 中的图像到图像的翻译任务(Image2Image Translation)是一个比较广泛的概念,即根据 source domain 中的图像生成 target domain 中的对偶图像,同时在翻译过程中约束生成的样本和 source 中的样本有尽量一致的分布。事实上有许多基本的 CV 问题都属于图像到图像的翻译问题,例如白天到黑夜的图像转换、黑白照到彩色照的转换、低像素到高像素的转换、去除水印、图像分割、2D 到 3D、梵高风格化、木炭风格、缺失部分复原等。

更高级的如下图这些:

在这所有的任务中,根据是否是一对一的学习对,将这些任务划分为 pair data 任务和 unpair data 任务。(如下图所示)

其中前者在训练数据集中具有一对一的数据对,x 作为输入,y 用来计算输出的 loss 函数,目前效果最好的网络是 Pix2Pix 网络;而后者则是两个独立的数据集之间的训练,模型应该能够从两个集合中自动地发现集合之间的关联,从而来学习出映射函数,其中目前效果最好的网络是 CycleGAN 模型。

但是以上这些都是基于图像级的特征学习,若想完成更高质量要求的生成任务(例如要求改变图像区域的风格)则较为困难。于是有人便提出了基于 instance-level 的图像到图像的翻译方法——PatchGAN:

如傅建龙所说,做研究就是要找到前人所没有填补的空缺。通过画出上图,可以很明白地看出,对应的也应该有基于 unpaired instance-level 的图像到图像的翻译方法。这正是本文的工作,即能否自动地发现 source domain 和 target domain 的 instance 之间的关联,同时这是一种 unpair 的方法,不需要任何人类标注。

2、模型

既然是基于 instance-level 的方法,那么首先就要问:什么是 instance?

事实上,这是一个比较宽泛的概念,在不同的任务中可以有不同的定义。例如在生成鸟的任务中,鸟本身是一个 instance,鸟的嘴、腿、翅膀、尾巴等也都可以是 instance;如果想要建立更细致的生成模型,也可更加细致地去定义更多种 instance。

介绍了以上的思路后,模型本身的构建就很清晰了。如上图所示,首先通过一个深度 Attention 编码器(DAE)来自动地学习各个 instance,然后将不同的部分分别投射到一个「隐空间」,最后通过 GAN 网络进行生成。

3、实验结果

定量的比较可以看出,DA-GAN 相比于其他方法有较大的提升。

在定性比较方面,有下面三种:

Text to Image

object configuration

pose morphing

从左到右分别为 source bird、target bird 和 DA-GAN 生成的鸟。一个疑问是:鸟腿缺失是因为什么呢?

4、结论

本文提出了一种无监督的图像翻译的方法,即通过更细致化的 instance-level 的 GAN 生成来获得更高质量的翻译图像。通过实验结果可以很明显地看出 DA-GAN 相较于其他网络在性能上的提升。但是需要注意的是,在生成结果中仍然存在一些失败的地方(例如前面提到的「缺失的鸟腿」),这可能由于模型中的 instance 是通过弱监督 Attention 机制学到的,这与完全监督下的学习还是有一定的差距。如何弥补,或许要静等傅建龙团队接下来的工作了。

相关文章:

[1] DA-GAN技术:计算机帮你创造奇妙“新物种”

雷锋网

商汤科技入选 CVPR 2018 的 44 篇论文,都研究什么?

雷锋网 AI 科技评论按:本文由商汤科技独家投稿,AI 科技评论获其授权转载。

全球计算机视觉顶级会议 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即 IEEE 国际计算机视觉与模式识别会议) 即将于六月在美国盐湖城召开,本届大会总共录取来自全球论文 979 篇。CVPR 作为计算机视觉领域级别最高的研究会议,其录取论文代表了计算机视觉领域在 2018 年最新和最高的科技水平以及未来发展潮流。

CVPR 官网显示,今年有超过 3300 篇的大会论文投稿,录取的 979 篇论文,比去年增长了 25%(2017 年论文录取 783 篇)。这些录取的最新科研成果,涵盖了计算机视觉领域各项前沿工作。CVPR 2018 包括 21 场 tutorials、48 场 workshops,并且有来自全球各地超过 115 家企业将入驻今年 CVPR 工业展览。

商汤科技、香港中文大学-商汤科技联合实验室以及其他商汤科技联合实验室共有 44 篇论文被本届 CVPR 大会接收,其中包括口头报告论文 3 篇(录取率仅 62/3300 = 1.88%),亮点报告论文 13 篇,论文录取数量相较于 CVPR 2017 的 23 篇又有大幅度提高,成绩斐然。全球领先的科研成果展示了商汤科技智能视觉领域强大的人才储备、科研底蕴和创新能力。

商汤科技 CVPR 2018 录取论文在以下领域实现突破:大规模分布式训练、人体理解与行人再识别、自动驾驶场景理解与分析、底层视觉算法、视觉与自然语言的综合理解、物体检测、识别与跟踪、深度生成式模型、视频与行为理解等。这些新颖的计算机视觉算法不仅有着丰富的应用场景,使得更多的智能视觉算法能应用于日常生活之中,还为后续研究提供了可贵的经验和方向。

大规模分布式训练

代表性论文:Oral – 深度增强学习自动网络结构设计

本文致力于解决深度神经网络结构的自动设计问题,与一般人工的结构设计不同,本文提出了一种高效算法,通过强化学习来自动设计最优的网络结构。传统的神经网络结构设计通常需要大量专家的知识和试错成本,并且甚至还需要一些灵感,每年仅有几个重要的网络结构被设计出来,因此,人工设计网络结构是一个难度极高的工作。近期的网络结构自动搜索的算法通常需要巨大的计算资源(数百块 GPU,近一个月的训练),并且生产的模型可迁移性不强,难以做到真正的实用化。

本文提出了一种基于强化学习的网络结构自动设计算法,通过「网络块」的设计思想,让搜索空间大大降低,并且使设计的网络具有非常强的可迁移性。同时,本文使用「提前停止」和分布式架构来加速整个网络结构学习过程,达到了百倍于之前算法的速度(32 块 GPU,3 天的训练)。实验表面,其生成的网络结构在 CIFAR 数据集上达到并且超越人类设计的网络结构的精度,并且其结构可以迁移到大规模的 ImageNet 数据上,取得良好的性能。

人体理解与行人再识别

代表性论文:Oral – 基于组一致性约束条件的行人再识别

行人再识别是新一代智能安防系统中的重要组件之一。给定一幅行人图像,行人再识别要求跨不同摄像头,对同一行人基于其视觉外观进行准确匹配和识别。现有深度学习算法通常使用过于局部的约束损失函数进行行人特征学习,因而不能精确的学习行人图像之间的视觉相似度。本文针对该问题提出一种新颖的组一致性约束条件,并通过连续条件随机场对该约束条件进行建模。将该连续条件随机场加入深度神经网络,从而实现该深度模型的端对端训练。实验结果表明该一致性条件在训练与测试中均能够大幅度提升最终视觉特征的鲁棒性与判别性,实现高精度的行人再识别。

自动驾驶场景理解

代表性论文:Spotlight – 极低延迟的视频语义分割

本文关注面向自动驾驶场景的视频实时语义分割问题,虽然近年来图像语义分割取得很大的进展,但是对于面向视频的语义分割任务仍然存在挑战。其主要困难在于:1)视频需要更多的计算量;2)许多实时的应用如自动驾驶需要实现低延迟性。

本文致力于解决这两方面的难题,同时尽可能的保证分割的精度。在视频分割问题中,邻近帧之间的语义标签的变化相对较小,因此不必每帧都使用一个完整的网络来提取语义标签。基于这种认识,本文提出了一个如图所示的语义分割的框架,把整个网络分为高层部分和低层部分,低层部分消耗较少的计算;本文的框架只在关键帧运行完整的网络来提取高层特征进行语义分割,而在其他帧则从上一个关键帧传播特征来进行语义分割。相应的框架由两部分组件构成:1)关键帧调度模块,以及 2)特征跨帧传播模块,其都基于低层特征进行相应的计算,因此相对完整的网络计算量小很多。同时为了减少延迟,在检测到当前帧为关键帧时,使用了一个低延迟的调度策略。本文提出的方法在两个数据集上均验证了我们方法的有效性,取得了较低延迟并保持精确的分割精度。

Spotlight – 基于单视图的立体匹配

面向自动驾驶场景的单目深度估计方法,通常利用一个视角的图像数据作为输入,直接预测图片中每个像素对应的深度值,这就导致了现有方法通常需要大量的带深度信息标注的数据。近期的研究提出了在训练过程引入了几何约束的改进,但是在测试过程仍然缺乏显式的几何约束。本文提出把单目深度估计分解为两个子过程,即视图合成过程以及双目匹配过程,通过这样分解之后,使得所提出的模型既可以在测试阶段显式地引入几何约束又可以极大的减少对带深度标注数据的依赖。实验证明,本文提出的方法仅利用少量的深度数据就可以在 KITTI 数据集上超过之前的所有方法,并首次仅靠单目图像数据就超过了双目匹配算法 Block Matching,进一步推动了单目深度估计技术的落地。

底层视觉算法

代表性论文:Spotlight – 基于深度增强学习的普适图像复原

本文提出了一种新颖的深度学习图像复原方法。大部分已有复原算法仅面向解决某类特定的图像复原问题,因而对各种不同类别的降质图像缺乏普适性。针对该问题,本文提出的 RL-Restore 算法先训练一系列针对不同降质图像的小型神经网络;同时设计一种评价图像复原质量的奖励函数,使用增强学习算法学习如何将这些小型神经网络进行合理组合。针对不同的降质图像,获得不同的复原算法组件的组合,实现对复杂降质图像的有效复原。

视觉与自然语言的综合理解

代表性论文:Spotlight – 面向视觉问题回答的对偶视觉问题生成

针对开放式视觉问答(Open-ended VisualQuestion Answering)中训练数据过少的问题,本文提出了一种「可逆问答网络」。该模型可以通过重组不同模块,使一组模型同时完成「问题回答」和「问题生成」两种互逆的两个任务。该模型通过充分利用视觉问答和视觉问题生成的对偶性,提升模型对于有限训练数据的利用效率。该方法采用两个任务同时训练同一模型,使网络能够对问题和图片之间的联系有更深的理解,从而在问题生成和问题回答两个任务上都取得了更好的精度和效果。

人脸识别与人脸分析

代表性论文:Poster – 超越人脸识别的人脸解离特征空间学习

本文同时解决人脸识别、属性分类和任意人脸生成这三个问题。大多数人脸特征学习的工作通常能够让网络学习得到一个具有极强身份或属性区分度的特征,以应用于人脸识别、属性分类等任务;或者学习一个具有全局信息的特征,以应用于人脸生成和编辑等应用。为什么不能学习到一个完备的特征空间并使得语义信息高度区分化,进而实现一个特征能够完成所有的任务呢?本文提出了一个信息蒸馏与驱逐网络的框架,只使用身份 ID 作为监督信息,学习到了一个同时具有极强信息区分度且包含全局信息的稠密凸特征空间。在 LFW、LFWA 和 CelebA 等数据集上的实验表明,人脸在该特征空间下的投影具有极高的身份、属性识别能力,且该空间内的任意一个点均具有较强的身份和属性语义,并可生成具有该语义的人脸图像。

Poster – 基于边缘感知的人脸关键点定位

本文提出一种基于边缘感知的人脸关键点检测算法,将人脸边缘线所描述的结构信息融入到关键点检测中,极大地提升了算法在大侧脸、夸张表情、遮挡、模糊等极端情况下的检测精度。文章主要解决了两大问题:1. 人脸关键点在各个数据集间歧义性,定义不一致问题。文章通过捕捉对于人脸更通用的边缘线信息,将其作为人脸到关键点的中间媒介,使得不同数据集即使存在关键点差异,仍然可以相互辅助训练。2. 复杂情况下关键点检测精度问题。本文首先通过消息传递结合对抗学习得到高精度的边缘线检测结果,再将边缘线信息多语义层次地融合到关键点检测中,使得算法在复杂情况下的鲁棒性大幅提升。

另外,文章还提出了一个新的人脸关键点检测数据集 Wider Facial Landmarksin-the-wild (WFLW),包含 10,000 张带有 98 点和 6 属性标注的人脸数据,旨在帮助学界更有效的评估关键点算法在各种条件下的鲁棒性。

物体检测、识别与跟踪

代表性论文:Spotlight – 基于孪生候选区域网络的高性能视觉跟踪


本文提出一种基于端到端深度学习框架的高性能单目标跟踪算法。现有的单目标跟踪算法通常较难兼顾性能和速度,仅能在某一指标占优。本文利用孪生(Siamese)网络和区域候选网络(Region Proposal Network),构建了一种高速高精度的单目标跟踪算法。两个子网络通过卷积操作升维,统一在一个端到端的深度神经网络框架里。训练过程中,算法可以利用拥有密集标注(VID)和稀疏标注(YoutubeBB)的数据集进行训练。相较于现有方法,稀疏标注的数据集大大增加了训练数据来源,从而可以对深度神经网络进行更充分的训练;区域候选网络中的坐标回归可以让跟踪框更加准确,并且省去多尺度测试耗费的时间。实验方面,本文提出的跟踪算法能在 160 帧速度下达到 VOT2015 和 VOT2016 数据集上目前的先进水平。

Poster – 快速的端到端多角度文字检测与识别方法


本文首次提出了端到端的多角度文字检测与识别方法。文字检测与识别 (OCR) 是计算机视觉领域的经典问题,过去的做法将文字检测与识别看做两个问题分别解决。本文提出了一个端到端的方法同时进行文字检测与识别,验证了这两个任务相辅相成,共同监督网络训练可以让这两个任务取得更好的精度。由于两个任务共用一个特征提取的网络,速度也是分别进行文字检测与识别的两倍左右。同时本文也提出了 RoIRotate 操作,其扩展了 RoIAlign,可以应用于旋转物体的检测。本文在多个数据集上超过了现有方法。

深度生成式模型

代表性论文:Poster – 基于特征装饰的实时零点风格迁移

目前针对图像风格化的实时应用,大多需要针对特定的风格图来设计特定的风格迁移模型;如果需要实现对于任意风格图的迁移,计算复杂度和迁移效果大多不能得到保证。本文提出一种实时零点图像风格迁移模型,实现对于任意风格图像的多尺度高质量风格化迁移。该方法基于名为风格装饰器的特征迁移网络结构,可以容易地嵌入图像重构网络中来达到多尺度的风格特征迁移。该网络结构使得生成的风格化图像充分表达风格图中的具体纹理模式,同时保留原图中的语义信息。实验表明,该网络对各种类别的风格图都有较高的风格化能力,并且可以有效扩展到多风格迁移和视频风格迁移等应用中。



附录:

商汤科技及商汤科技联合实验室共有 44 篇论文被接收,具体如下:

1.3D Human Pose Estimation in the Wild by Adversarial Learning

Wei Yang, Wanli Ouyang, Xiaolong Wang, Xiaogang Wang

2. Attention-aware Compositional Network for Person Re-Identification

Jing Xu, Rui Zhao, Feng Zhu, Huaming Wang, Wanli Ouyang

3. Avatar-Net: Multi-scale Zero-shot Style Transfer by Feature Decoration

Lu Sheng*, Jing Shao*, Ziyi Lin and Xiaogang Wang (*equal contribution)

4. Beyond Holistic Object Recognition:Enriching Image Understanding with Part States

Cewu Lu, Hao Su, Yonglu Li, Yongyi Lu, Li Yi, Chi-Keung Tang, Leonidas J. Guibas

5. Collaborative and Adversarial Network for Unsupervised domain adaptation

Weichen Zhang, Wanli Ouyang, Dong Xu, Wen Li

6. Context Encoding for Semantic Segmentation

Hang Zhang, Kristin Dana, Jianping Shi, Zhongyue Zhang, Xiaogang Wang, Ambrish Tyagi, Amit Agrawal

7. Deep Cocktail Networks: Multi-source Unsupervised Domain Adaptation with Category Shift

Ruijia  Xu, Ziliang  Chen, Wangmeng  Zuo, Junjie  Yan, Liang  Lin

8. Deep Group-shuffling Random Walk for Person Re-identification

Yantao Shen, Hongsheng Li, Tong Xiao, Shuai Yi, Dapeng Chen, Xiaogang Wang

9. Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks

Jiawei Zhang, Jinshan Pan, Jimmy Ren, Yibing Song, Linchao Bao, Rynson Lau, Ming-Hsuan Yang

10. Eliminating Background-bias for Robust Person Re-identification

Maoqing Tian, Hongsheng Li, Shuai Yi, Xuesen Zhang, Jianping Shi, Junjie Yan, Xiaogang Wang

11. End-to-End Deep Kronecker-Product Matching for Person Re-identification

Yantao Shen, Tong Xiao, Hongsheng Li, Shuai Yi, Xiaogang Wang

12. End-to-end Flow Correlation Tracking with Spatial-temporal Attention

Zheng Zhu, Wei Wu, Wei Zou, Junjie Yan

13. Exploring Disentangled Feature Representation Beyond Face Identification

Yu Liu*, Fangyin Wei*, Jing Shao*, LuSheng, Junjie Yan and Xiaogang Wang (*equal contribution)

14. Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines

Shuqin Xie, Zitian Chen, Chao Xu, Cewu Lu

15. FOTS: Fast Oriented Text Spotting with a Unified Network

Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, Junjie Yan

16. GeoNet: Unsupervised Learning of Dense Depth, Motion Field and Camera Pose

Zhichao Yin, Jianping Shi

17. Group Consistent Similarity Learning via Deep CRFs for Person Re-Identification

Dapeng Chen, Dan Xu, Hongsheng Li, Nicu Sebe, Xiaogang Wang

18. High Performance Visual Tracking with Siamese Region Proposal Network

Bo Li, Wei Wu, Zheng Zhu, Junjie Yan

19. ID-GAN: Learning a Symmetry Three-Player GAN for Identity-Preserving Face Synthesis

Yujun Shen, Ping Luo, Junjie Yan, Xiaogang Wang, Xiaoou Tang

20. Learning a Toolchain for Image Restoration

Ke Yu, Chao Dong, Liang Lin, Chen Change Loy

21. Learning Dual Convolutional Neural Networks for Low-Level Vision

Jinshan Pan, Sifei Liu, Deqing Sun, Jiawei Zhang, Yang Liu, Jimmy Ren, Zechao Li, Jinhui Tang, Huchuan Lu, Yu-Wing Tai, Ming-Hsuan Yang

22. Learning Globally Optimized Object Detector via Policy Gradient

Yongming Rao, Dahua Lin, Jiwen Lu

23. LiteFlowNet: A Lightweight Convolutional Neural Network for Optical Flow Estimation

Tak Wai Hui, Xiaoou Tang, Chen Change Loy

24. Low-Latency Video Semantic Segmentation

Yule Li, Jianping Shi, Dahua Lin

25. Look at Boundary: A Boundary-Aware Face Alignment Algorithm

Wayne Wu, Chen Qian, Shuo Yang, Wang Quan

26. LSTM Pose Machines

Yue Luo, Jimmy Ren, Zhouxia Wang, Wenxiu Sun, Jinshan Pan, Jianbo Liu, Jiahao Pang, Liang  Lin

27. Mask-guided Contrastive Attention Model for Person Re-Identification

Chunfeng Song, Yan Huang, Wanli Ouyang, Liang Wang

28. Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition

Shuyang Sun, Zhanghui Kuang, Lu Sheng, Wanli Ouyang, Wei Zhang

29. Optimizing Video Object Detection via a Scale-Time Lattice

Kai Chen, Jiaqi Wang, Shuo Yang, Xingcheng Zhang, Yuanjun Xiong, Chen Change Loy, Dahua Lin

30. PAD-Net: Multi-Tasks Guided Prediciton-and-Distillation Network for Simultaneous Depth Estimation and Scene Parsing

Dan Xu, Wanli Ouyang, Xiaogang Wang, Nicu Sebe

31. Path Aggregation Network for Instance Segmentation

Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, Jiaya Jia

32. Pose-Robust Face Recognition via Deep Residual Equivariant Mapping

Kaidi Cao, Yu Rong, Cheng Li, Xiaoou Tang, Chen Change Loy

33. Practical Block-wise Neural Network Architecture Generation

Zhao Zhong, Junjie Yan, Wei Wu, Jing Shao, Cheng-lin Liu

34. Recognize Actions by Disentangling Components of Dynamics

Yue Zhao, Yuanjun Xiong, Dahua Lin

35. Recovering Realistic Texture in Image Super-resolution by Spatial Feature Modulation

Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy

36. Single View Stereo Matching

Yue Luo, Jimmy Ren, Mude Lin, Jiahao Pang,Wenxiu Sun, Hongsheng Li, Liang Lin

37. Temporal Hallucinating for Action Recognition with Few Still Images

Lei Zhou, Yali Wang, Yu Qiao

38. Towards Human-Machine Cooperation: Evolving Active Learning with Self-supervised Process for Object Detection

Keze Wang, Xiaopeng Yan, Lei Zhang, Liang Lin

39. Unifying Identification and Context Learning for Person Recognition

Qingqiu Huang, Yu Xiong, Dahua Lin

40. Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination

Zhirong Wu, Yuanjun Xiong, Stella Yu, Dahua Lin

41. Video Person Re-identification with Competitive Snippet-similarity Aggregation and Co-attentive Snippet Embedding

Dapeng Chen, Hongsheng Li, Tong Xiao, Shuai Yi, Xiaogang Wang

42. Visual Question Generation as Dual Task of Visual Question Answering

Yikang Li, Nan Duan, Bolei Zhou, Xiao Chu, Wanli Ouyang, Xiaogang Wang

43. Weakly Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer

Hao-Shu Fang, Guansong Lu, Xiaolin Fang, Jianwen Xie, Yu-Wing Tai, Cewu Lu

44. Zoom and Learn: Generalizing Deep Stereo Matching to Novel Domains

Jiahao Pang, Wenxiu Sun, Chengxi Yang, Jimmy Ren, Ruichao Xiao, Jin Zeng, Liang Lin

雷锋网

CVPR 2018 最前沿:让神经网络学习比较来实现少样本学习

雷锋网 AI 科技评论按:本文作者 Flood Sung,他为雷锋网 AI 科技评论撰写了基于 CVPR 录用论文《Learning to Compare: Relation Network for Few-Shot Learning》的独家解读稿件,未经许可不得转载。

1. 前言

相信每一位研究深度学习的朋友都明白,深度学习能够在这几年取得如此爆炸式的发展,除了算法本身的改进与创新,最关键的因素就是拥有海量的数据和强大的计算资源。那么,我们很自然的会问:没有海量数据怎么办?现实生活中有很多问题并没有那么多的数据可以采集,或者说采集数据所需的成本很高,比如稀有物种的图片,医疗诊断的图片。或者更简单的例子,我们每个人身边都有很多独有的物品。难道这些少样本的东西深度学习就无法处理,无法识别了嘛?不应该呀。原因非常简单,我们人可以很轻松的做到少样本学习,我们看到一个人就能记住他的样貌并在下一次认出对方。既然人能做到,那么深度学习按道理也应该可以实现。因此,少样本学习成为了近年来深度学习领域非常重要的一个前沿研究问题。

在本文中,我们将介绍 CVPR2018 最新录用的一篇少样本学习的 paper:

Learning to Compare: Relation Network for Few-Shot Learning

链接:https://arxiv.org/pdf/1711.06025.pdf

开源代码: https://github.com/floodsung/LearningToCompare_FSL

在这篇 paper 中,我们提出构建一个关系网络(Relation Network)来让其学习如何比较(Learning to Compare),从而实现少样本学习(Few-Shot Learning)。这个方法非常简单通用,但是效果很不错,在少样本学习及零样本学习的几个基准数据集上都取得了相当好的结果。下面,我们就来好好聊聊这篇 paper。

2. 为什么有这个 idea?

一般我们在 paper 中,并不会探讨这个问题,就是这个 idea 是怎么产生的。但是在这篇博文中,我就可以先说说 idea 本身。我们想既然人可以实现少样本学习,那么我们是不是应该先问这样一个问题就是为什么人可以实现少样本学习?这个问题可能会比较宽泛,那么我们把它具体化一下:为什么人可以看到 iPhone X 一眼然后就可以认出它?我们很显然会说:因为 iPhone X 丑陋的齐刘海,因为 iPhone X 背后的双摄像头是竖着的,和其他手机不一样!我们发现,我们大脑可以对 iPhone X 的形象提取关键特征,并且和其他手机做比较,从而使其拥有独特性让我们能够识别。我们再举一个例子:你能够快速的识别网红吗?我不知道其他人能不能,反正我觉得都一个样,都是网红脸,傻傻分不出。我们说到了「分不出」这三个字,因为我们在识别一个人的脸的时候,我们大脑依然是在和其他脸做比较,而网红脸因为太像,以至于我们很难区分,也就很难识别。

所以,我们就发现了,我们人之所以能够识别一个新的东西,在于我们人的视觉系统天生的能够对任意物体提取特征,并进行比较。因为我们能够比较不同物体,所以我们根本无所谓看到的东西是不是以前就见过。这就是我们人具备少样本学习能力的关键原因。那么问题又来了:提取特征很好理解,现在的神经网络比如卷积神经网络也是在学习提取特征,但是这个比较能力又是什么东西呢?思考清楚这个问题是产生这个 idea 的关键。看起来我们人不需要学习先天就拥有视觉比较能力。如果哪天你看到一个人看一个东西却说出「It doesn’t look like anything to me.」,那你一定不是在现实世界,而是西部世界了。所以,为什么人先天拥有视觉比较能力?我不清楚,我只能把它归结为一种元知识 (Meta Knowledge)。

少样本学习一直和元学习(Meta Learning)关系紧密。元学习的目标就是通过学习大量的任务,从而学习到内在的元知识,从而能够快速的处理新的同类任务,这和少样本学习的目标设定是一样的。我们也希望通过很多任务来学习识别物体这种能力,从而面向新的少样本学习任务,我们能够充分利用我们已经学习到的识别能力(也就是元知识),来快速实现对新物体的识别。而在这里,通过前面的分析,我们明白了,我们要研究如何通过元学习的方式来让神经网络学会比较这个元知识能力。而因为任意的知识都可以通过神经网络来表示,因此呢,我们就想:为什么不用一个神经网络来表示这个视觉比较能力呢?然后利用这个网络去做少样本学习?到了这里,我们的 idea 也就呼之欲出了。

图 1 关系网络示意图

3. 简单说说方法论

有了上面的分析,我们得到的模型就非常简单了,可以说完全模拟人识别物体的过程:如上图所示,是一个典型的 5way 1shot 的少样本学习问题,也就是我们要对 5 个新类别的物体进行识别,但是每一类物体我们只给出一个样本。上图中,最左侧的 5 张图片就是我们拥有的训练样本(一般称为 support set)而旁边的一个图片则是我们用来测试的样本(一般称为 testing set)。我们先构造一个嵌入单元(embedding module)来提取每一张图片的特征信息,是什么特征我们不管,然后我们把要测试的图片特征和训练样本的图片特征连起来输入到关系单元(relation module)中做比较,然后我们根据比较的结果(relation score)来判断这个测试图片到底属于哪一个类。这很好理解,比如上图中测试图片是狗,那么它跟训练样本中狗的图片相似度比较高,那么我们就认为这个新的图片是狗。所以,整个识别过程是非常简单,完全模拟人的识别过程的。我们把上图中的嵌入单元和关系单元合起来统称为关系网络(relation network)。

那么怎么来训练这个网络呢?我们有一个拥有大量数据的训练集(training set),我们利用这个训练集来构造出和测试时类似的数据结构,也就是 sample set 和 query set 来模拟测试时的 support set 和 testing set。我们可以使用训练集来生成巨量的模拟任务,从而在 meta 层面上训练整个关系网络。我们把输出的 relation score 看做是一个从 0 到 1 的数值。0 就代表极不相似,而 1 则代表完全相似。因此,我们就非常直接地采用平方差 MSE 作为网络训练的 loss。

只做少样本学习不是这个模型的全部,我们很容易地把它做一些改变,就能直接用于零样本学习。零样本学习和少样本学习不一样的地方在于零样本学习不给样本,而是给出一个代表某一类物体语义的嵌入向量,我们要直接利用这个嵌入向量来对物体做分类。那么,在我们的关系网络中,我们只需要把训练样本(support set)改成这个语义嵌入向量就可以来做零样本学习了。

图 2 少样本学习网络结构

图 3 零样本学习网络结构

4. 具体实验

这里也稍微说一下实验。在少样本学习上,我们使用目前领域内都在使用的 Omniglot 和 MiniImagenet 作为我们的基准数据集,而在零样本学习上,我们则使用广泛采用的 AwA 和 CUB 数据集进行测试。无论在哪个数据集上,我们都取得了 state-of-the-art 或者相当好的结果:

图 4 omniglot 实验结果 

图 5 零样本学习实验结果

从这些实验中,我们可以看到我们模型的有效性。更详细的实验过程请阅读 paper 原文及已开源的代码。

5. 关于关系网络的思考,为什么它能 work?

在少样本学习领域,我们的方法可以认为是一种基于度量(metric-based)的方法,但是我们的方法很不一样的一点,也是创新的一点在于我们完全使用神经网络来学习这种度量方式,并且使用元学习的训练方式。而一般的基于度量的方法都是人为的设计一种度量,比如最简单的欧式距离。显然,人为设计的方式总是有缺陷的,那么我们就想来看看,使用神经网络来学习的度量是不是能比人为设计的好。因此,我们做了个小实验来印证这个想法。这个小实验是一个 2 维数据的比较实验。比如这样两个数据(1,2)和(-2,-1),这两个数据看起来是不相关的,但是它们在某一些状态下可能属于同一个类别。那么这种情况,其实传统的人为设计的度量方式实际上就失效了。我们只能通过神经网络去学习这种度量。所以像下图这样复杂的螺旋曲线关系数据情况,我们通过关系网络(relation network)可以学的不错,而人为度量则完全不行。

图 6 关系网络有效性试验示意图

因此,我们这篇 paper 也是想给大家一个启示,用神经网络进一步去替代一些之前还是人为设计的东西,有希望取得更好的效果!像目前元学习(Meta Learning)在研究的一个方向就是用神经网络学习来生成网络结构,也是一个意思。

6. 小结

在这篇博文中,我们简单的介绍了 CVPR2018 这篇最新少样本学习的 paper,和大家分析了一下 paper idea 的核心思想。对于这个 idea,我们拓展一下就有一个非常重要的问题值得去思考,也就是「其他领域有多少问题其实也是依靠元知识 Meta Knowledge 来驱动的?」如果我们发现了这样元知识的需求,就可以考虑使用类似的方法——元学习(Meta Learning)的方法来实现。

展望一下,元学习方兴未艾,接下来会有越来越多的相关文章出现,进一步推动少样本学习,快速学习,自适应学习,终身学习等等领域的发展。让我们拭目以待!

雷锋网

CVPR 18录用论文:利用量化提升医疗影像分割的准确度

雷锋网 AI 科技评论按:本文作者为圣母大学(University of Notre Dame)博士后徐小维,他为 AI 科技评论撰写了基于 CVPR 录用论文《Quantization of Fully Convolutional Networks for Accurate Biomedical Image Segmentation》的独家解读稿件,未经许可不得转载。

来自美国圣母大学和华中科技大学的研究者们提出了一种利用网络量化提升用于医疗影像分割的深度学习模型精度的优化方法。该方法创新性地将旨在压缩网络模型的量化方法应用到医疗影像分割深度学习模型中,相比于已有的方法,针对当前流行的 Gland 数据集可提升当前 state-of-the-art 的图片分割准确度达 1%-7.5%,同时获得压缩了的深度学习模型。该研究已被 CVPR 2018 接收。

论文下载地址: https://arxiv.org/pdf/1803.04907.pdf

医疗影像在当今医疗诊断中发挥重要作用。其中,旨在获取组织器官以及相关生物结构的影像分割是医疗影像中最重要的步骤之一,是进行疾病诊断、手术规划、治疗方案设计等的有力支持。传统的影像分割主要由病理专家进行手动分割,该过程单调且费时。然而,随着当前医疗影像的进一步普及,医疗影像无论在数量还是在种类上都急剧增加,传统的手动分割无法有效的处理大量多种类医疗影像。自动化医疗影像分割应运而生,但也面临着两大挑战:生物结构本身的多样性,以及医疗影像技术本身缺陷导致的低对比度和噪声等问题。

当前深度神经网络已经在医疗影像分割中展现出远超传统方法的准确度。Unet [1], DCAN [2,3], suggestive annotation [4] 等在多个医疗影像数据集上获得了令人惊喜的准确度提升。这些神经网络或是通过改变神经网络结构 [1], 或是改变训练中的目标函数 [2,3],或是优化选取的训练数据集 [4],来减少神经网络本身的过拟合。与此同时,网络量化被广泛用于对神经网络进行压缩,以减少参数数量和运算量。作者发现在某些情况下 [5, 6],网络量化也可以提升网络的分类精度,具有减少网络过拟合的潜能。因此,针对医疗影像分割问题,作者利用量化减少深度神经网络的过拟合,进而提升其准确度。

该论文的工作是基于已有工作 [4] 完成的。整个训练框架如图 1 所示。整个训练分成两步:提取训练集(QSA)和网络训练(QNT)[4]。针对这两步,作者利用网络量化来减少过拟合。在提取训练集中,通过选取合适的量化方法,提升训练出来的多个网络(FCN)的异化程度,使得选取出来的训练集本身具有更高的代表性(representative)(如图 2 所示)。在网络训练中,作者利用量化,减少过拟合,进一步提升网络准确度。

图 1 量化训练框架

图 2 量化可以获取更高的网络异化,进而获取更具代表性的数据集

作者针对 Gland 数据集 [7] 对该方法进行了大量实验。通过对不同的量化方法进行对比,作者发现合适的量化往往可以获得最佳的准确度,如图 3 所示——不量化会引起过拟合,而量化程度过高会引起欠拟合。如表 1 所示,与已有的工作对比,该工作可以获得最佳的准确度。在六项比较中,该工作获得五项第一,一项第二的优异性能。

图 3 不同量化方法的准确度差异:合适的量化会得到最佳的准确度

表 1 与已有工作的比较

[1] O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In Inernational Conference on Medical Image Computing and Computer-Assisted Intervention, pages 234–241. Springer, 2015.

[2] H. Chen, X. Qi, J.-Z. Cheng, P.-A. Heng, et al. Deep contextual networks for neuronal structure segmentation. In AAAI, pages 1167–1173, 2016. 

[3] H. Chen, X. Qi, L. Yu, and P.-A. Heng. Dcan: Deep contouraware networks for accurate gland segmentation. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, pages 2487–2496, 2016.

[4] L. Yang, Y. Zhang, J. Chen, S. Zhang, and D. Z. Chen. Suggestive annotation: A deep active learning framework for biomedical image segmentation. arXiv preprint arXiv:1706.04737, 2017.

[5] S. Han, H. Mao, and W. J. Dally. Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding. arXiv preprint arXiv:1510.00149, 2015.

[6] A. Zhou, A. Yao, Y. Guo, L. Xu, and Y. Chen. Incremental network quantization: Towards lossless cnns with lowprecision weights. arXiv preprint arXiv:1702.03044, 2017.

[7] K. Sirinukunwattana, J. P. Pluim, H. Chen, X. Qi, P.-A. Heng, Y. B. Guo, L. Y. Wang, B. J. Matuszewski, E. Bruni, U. Sanchez, et al. Gland segmentation in colon histology images: The glas challenge contest. Medical image analysis, 35:489–502, 2017.

[8] Y. Xu, Y. Li, M. Liu, Y. Wang, M. Lai, I. Eric, and C. Chang. Gland instance segmentation by deep multichannel side supervision. In International Conference on Medical Image Computing and Computer-Assisted Intervention, pages 496–504. Springer, 2016. 

[9] Y. Xu, Y. Li, Y. Wang, M. Liu, Y. Fan, M. Lai, and E. Chang. Gland instance segmentation using deep multichannel neural networks. IEEE Transactions on Biomedical Engineering, 2017.

雷锋网

CVPR 18 论文解读:基于空洞卷积神经网络的高密度人群理解方法 | CVPR 2018

雷锋网 AI 科技评论按:本文作者为美国伊利诺伊大学(UIUC)张晓帆,他为 AI 科技评论撰写了基于 CVPR 录用论文《CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes》的独家解读稿件,未经许可不得转载。

论文地址:https://arxiv.org/pdf/1802.10062.pdf

来自北京邮电大学和美国伊利诺伊大学(UIUC)的研究者们提出一种适用于密集人群计数的空洞卷积神经网络模型 CSRNet。该网络模型摆脱以往广泛应用于人群计数的多通道卷积网络方案,在大幅削减网络参数量和网络训练难度的同时,显著提升了人群计数的精度和人群分布密度图的还原度。该研究已被 CVPR 2018 接收。

人群计数和人群密度估计有着重要的安防应用场景。随着城市人口的日益增长,在地铁站,商场,各种节日集会中,超额聚集的人群带来潜在危险,极容易造成踩踏、骚乱等悲剧。因此,人群计数和人群的密度分布估计成为安防领域的热门课题。近年来,人群计数的算法性能在与深度学习的结合下得到了很大的提升。

人群计数的目的是找出特定场景中的人数,而人群密度分布估计需要获取空间密度信息和人数(密度图求和)。人群计数的难点在于,场景的变化跨度大,目标的尺度变化不尽相同,人和人、人和景物之间存在不同程度的遮挡等等。如图 1 所示,三张图均包含了 95 人,但是他们的空间分布完全不同。

图 1 人群计数场景

作者研究发现,被广泛运用在人群计数上的多通道卷积网络(MCNN)存在着结构冗余、参数繁多、训练困难的局限性。此类多通道卷积网络在不同通道上采取大小不等感受域的卷积网络,以适应不同场景(如高、中、低密集程度)的人群计数需要。但研究发现,不同通道学习到的特征重合度很高(图 2),并没有因场景密集程度不同而出现明显差异。多通道网络表现冗余。为作对比,作者采用一个参数更少、更深层、更易训练的单通道卷积网络(A deeper CNN),获得比多通道网络更好的效果(表 1)。

 

图 2 多通道卷积网络中的大、中、小通道在 ShanghaiTech PartA 中的测试表现相似

 表 1 更深的单通道卷积网络使用较少参数却在 ShanghaiTech PartA 中获得更小误差

此外,作者为了避免过度使用降采样而导致密度图的分辨率损失,在网络的后半部分引入了空洞卷积层,利用空洞卷积增大感受域并维持分辨率(图 3),并提出 CSRNet 网络模型(表 2)。CSRNet 后端四组不同的配置在 ShanghaiTech PartA 中性能测试如表 3。

图 3 使用卷积+池化+上采样(上)与空洞卷积(下)输出同样分辨率图像,空洞卷积可保留更多图像细节

 表 2 CSRNet 网络结构,卷积以参数命名为(conv kernel size – channel – dilation rate)

 表 3 CSRNet 的四种后端配置在人群计数中精度对比,其中方案 B 精度最高

由于采用比多通道网络更简单的结构,CSRNet 在训练时可直接采用端到端训练并快速复现实验结果,也可利用迁移学习提高训练效果。得益于简单、规整的网络结构,CSRNet 对硬件实现更加友好,可以高效地部署在物联网设备中。

实验表明,CSRNet 在四个公开人群数据集(ShanghaiTech dataset、the UCF CC 50 dataset、the WorldEXPO'10 dataset、the UCSD dataset)和一个车辆数据集(TRANCOS dataset)上均达到了最高水平的精确度(State-of-the-art Performance),详见表 4 至表 8。

表 4 ShanghaiTech 数据集测试结果

 表 5 UCF CC 50 数据集测试结果

 表 6 WorldExpo' 10 数据集测试结果

表 7 UCSD 数据集测试结果


表 8 TRANCOS 数据集测试结果

雷锋网

中科院自动化所智能感知与计算研究中心11篇论文被CVPR接收 | CVPR 2018

雷锋网 AI 科技评论按:本文作者郭瑞娥,首发于中科院自动化所「智能感知与计算研究中心」微信公众号,AI 科技评论获授权转载。

CVPR 是计算机视觉、模式识别和人工智能领域国际顶级会议,2018 年 6 月 18-22 日将在美国盐湖城召开,届时 AI 科技评论也会在现场带来一线报道。不论你是论文录用作者,还是即将参会的企业机构,欢迎联系 AI 科技评论小编(微信号:aitechreview)报道/合作哟。

智能感知与计算研究中心为中科院自动化所独立建制的科研部门,致力于研究泛在智能感知理论与技术以及与之相伴的海量感知数据的智能分析与处理。智能感知与计算研究中心在今年的 CVPR 2018 上共有 11 篇论文被接收,再次创下历史新高。

论文 1 Dynamic Feature Learning for Partial Face Recognition

Lingxiao He, Haiqing Li, Qi Zhang, Zhenan Sun

在视频监控,移动手机等场景中,部分人脸识别是一个非常重要的任务。然而,很少有方法研究部分人脸块识别。我们提出一种动态特征匹配方法来解决部分人脸识别问题,它结合全卷积网络和稀疏表达分类。首先,利用全卷积网络提取 Gallery 和 Probe 的特征图;其次,利用一个大小滑动窗口把 Gallery 的特征图分解为与 Probe 特征图大小相同的子特征图,进而动态特征字典;最后,利用稀疏表达分类来匹配 Probe 特征图与动态特征字典的相似度。基于动态特征匹配方法,我们提出了滑动损失来优化全卷积网络。该损失减小类内变化,增加了类间变化,从而提高动态特征匹配的性能。相比于其他部分人脸识别方法,我们提出的动态匹配方法取得很好的性能。

动态特征匹配的部分人脸识别框架

论文 2 Deep Spatial Feature Reconstruction for Partial Person Re-identification: Freestyle Approach

Lingxiao He, Jian Liang, Haiqing Li, Zhenan Sun

部分行人再识别是一个非常重要并且具有挑战性的问题。在无约束环境中,行人容易被遮挡,有姿态和视角变化,所以有时候只有部分可见的行人图像可用于识别。然而,很少有研究提出一种可以识别部分行人的方法。我们提出了一种快速且精确的方法来处理部分行人再识别的问题。提出的方法利用全卷积网络抽取与输入图像尺寸相对应的空域特征图,这样输入的图像没有尺寸约束。为了匹配一对不同尺寸大小的行人图像,我们提出了一种不需要行人对齐的方法:深度空域特征重建。特别地,我们借鉴字典学习中重建误差来计算不同的空域特征图的相似度。按照这种匹配方式,我们利用端到端学习方法增大来自于同一个人的图像对的相似度,反之亦然。由此可见,我们方法不需要对齐,对输入图像尺寸没有限制。我们在 Partial REID,Partial iLIDS 和 Market1501 上取得很好的效果。

深度空域特征重建

论文 3 Adversarially Occluded Samples For Improving Generalization of Person Re-identification Models

Houjing Huang, Dangwei Li, ZhangZhang, Kaiqi Huang

行人再识别(ReID)是跨摄像机行人检索任务,由于存在光照变化、视角变化、遮挡等复杂因素,目前的模型往往在训练阶段达到了很高的准确率,但是测试阶段的性能却不尽人意。为了提高模型的泛化性能,我们提出了一种特殊的样本来扩充数据集:对抗式遮挡样本。

整个方法流程如下:(1)按照常用的方法训练一个 ReID 模型;(2)通过网络可视化的方法找出模型在识别训练样本时所关注的区域,对这些区域进行(部分)遮挡就可以产生新的样本,同时我们保持这些样本原有的类别标签;(3)最后,把新的样本加入到原始数据集中,按照之前的方法训练一个新的模型。这种样本不仅模拟了现实中的遮挡情况,而且对于模型来说是困难样本,可以给模型的训练提供动量,从而跳出局部极小点,减少模型的过拟合。实验发现,原始的 ReID 模型识别训练样本时只关注一些局部的身体区域,加入新样本训练后的模型则可以同时关注到一些之前没关注的身体区域,从而提高了模型在测试阶段的鲁棒性。下图是该方法的一个具体实现,其中 ReID 采用 ID 多分类模型,模型可视化方法采用滑动窗口遮挡的方法。

基于对抗式遮挡的数据扩增算法流程图

论文 4 Learning Semantic Concepts and Order for Image and Sentence Matching

Yan Huang, Qi Wu, Liang Wang

图像文本匹配的关键问题在于如何准确度量图像文本之间的跨模态相似度。我们通过数据分析发现:图像文本之所以能够匹配,主要是由于如下两点原因:1)图像文本虽体现不同的模态特性,但他们包含共同的语义概念;2)语义概念的集合并不是无序的,而是按照一定的语义顺序组织起来的。由此,我们提出了一个模型来联合对图像文本所包含的语义概念和语义顺序进行学习。该模型使用了一个多标签区域化的卷积网络来对任意图像预测其所包含的语义概念集合。然后,基于得到的语义概念将其有规律地排列起来,即学习语义顺序。这一过程具体是通过联合图像文本匹配和生成的策略来实现的。此外,还探究了局部语义概念与全局上下文信息之间的互补作用,以及对文本生成的影响。我们在当前主流的图像文本匹配数据库 Flickr30k 和 MSCOCO 上进行了大量实验,验证了我们所提出方法的有效性,并取得了当前最好的跨模态检索结果。

联合图像语义概念和语义顺序学习框架

论文 5 A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping

Debang Li,Huikai Wu,Junge Zhang,Kaiqi Huang

随着当前图像数据量的不断增长,对图像进行自动处理的需求也逐渐变大,而图像裁剪是图像处理中的一个十分重要的步骤。图像自动裁剪技术不仅能够快速的完成对大多数图片的处理,同时还能够辅助专业摄像师找到更好的视角来提升图像的构图质量,其具有十分大的应用价值。由于图像裁剪的数据标注较难获得,而且一般数据量较少,我们提出了一种基于强化学习的弱监督(不需要裁剪框标注)图像自动裁剪算法 A2-RL。之前的弱监督自动裁剪算法大部分使用滑动窗口来获取候选区域,其需要耗费较大的计算资源和时间,为了解决上述问题,我们将强化学习引入到自动裁剪中,使用一个智能体(agent)在输入图像上自适应的调整候选区域的位置和大小。该智能体以图像的全局特征和局部特征作为观测信息,并且根据当前和历史的观测作为依据来决定下一步的动作。在训练过程中,该智能体根据图像质量的评分计算奖励,并使用 A3C 算法进行训练,最终学到较好的候选区域调整策略。在实验过程中,我们的方法在多个标准的裁剪数据集上进行了测试,其不仅在速度上取得了较大的提升,同时在精度上也有明显的提高。我们方法的整体框架图为:

基于强化学习的图像自动裁剪模型架构

论文 6 Discriminative Learning of Latent Features for Zero-Shot Recognition

Yan Li, Junge Zhang, Kaiqi Huang, Jianguo Zhang 

零样本学习(Zero-Shot Learning)通过在视觉和语义两个空间之间学习一个共同的嵌入式空间,能够实现对测试集中的未知类别进行测试。以往的零样本工作,主要集中在嵌入式空间学习过程中,忽略了视觉特征、语义特征在零样本学习中的作用。我们针对传统的零样本学习过程中,特征表达区分度不足的问题,从视觉空间和语义空间两个方面提出了改进方法,在两个空间同时学习到区分度更强的特征表达,进而极大地提升了零样本学习的识别性能。具体来说,1)在视觉空间,我们提出了 zoom net,从原始的图片中,自动挖掘具有区分度的图片区域。2)在语义空间,除了用户定义的属性之外,我们利用 triplet loss,自动地学习具有区分度的「隐式属性」。3)最终,图片空间中的区分性区域挖掘,以及语义空间中的区分性隐属性学习两个模块在一个端到端框架中联合学习,共同促进。

用于零样本学习的隐式判别性特征挖掘框架

论文 7 Pose-Guided Photorealistic Face Rotation

Yibo Hu, Xiang Wu, Bin Yu, Ran He, Zhenan Sun

随着深度学习的发展,人脸识别算法的性能得到了广泛提升,然而大姿态人脸识别问题依然亟待解决。人脸旋转为人脸识别中的大姿态问题提供了一种有效的解决方式。我们提出了一种任意角度的人脸旋转算法 Couple-Agent Pose-Guided Generative Adversarial Network (CAPG-GAN)。CAPG-GAN 通过人脸关键点编码姿态信息指导对抗生成网络进行人脸生成任务。同时使用身份保持损失函数和全变分正则项约束人脸的身份信息和局部纹理信息。最终我们的算法在 Multil-PIE 和 LFW 上均取得了不错的识别率,同时如图所示,CAPG-GAN 可以根据人脸关键编码信息生成任意角度人脸。

不同姿态人脸图像生成结果

论文 8 Multistage Adversarial Losses for Pose-Based Human Image Synthesis

Chenyang Si, Wei Wang, Liang Wang, Tieniu Tan

单张图片的多视角图像合成在计算机视觉中是一个非常重要并且具有挑战性的问题,而且对于人的多视角图像合成在对人体行为理解中具有很重要的应用价值。利用人的多视角合成可以有效地解决在计算机视觉中存在的跨视角问题,例如跨视角行为识别、跨视角行人再识别等等。由于人姿态的多变性,人的多视角图像合成比刚性物体(如车、椅子等等)的多视角合成更具有挑战性。我们提出了多阶段对抗损失函数在基于人体关键点的多视角人体图像合成算法,该算法可以生成高质量多视角人体图像,而且可以保持合成人的姿态在三维空间中保持一致。为了可以生成高质量图像,我们提出从低维度人体结构到图像前景,最后合成背景的多阶段图像生成模型,为了解决均方误差损失函数引起的图像模糊的问题,我们在多阶段使用对抗损失函数。我们的算法如图所示:

基于pose的多阶段对抗学习的人体图像合成网络框架

论文 9 Mask-guided Contrastive Attention Model for Person Re-Identification

Chunfeng Song, Yan Huang, Wanli Ouyang, and Liang Wang

行人再识别问题是一个重要且具有挑战性的经典计算机视觉任务。通常摄像头采集到的行人图像中含有杂乱的背景,并且图像中的行人通常有多种多样的姿态和视角,这些多样性造成的困难在之前的研究中都尚未得到很好的解决。为了解决上述问题,我们引进了二值化的行人分割轮廓图作为额外输入,并与彩色图像合成为四通道的新输入,然后设计了一种基于分割轮廓图的对比注意模型来学习背景无关的行人特征。在此基础上,我们提出了一种区域级别的三元组损失函数,分别来约束来自全图区域、行人身体区域、背景区域的特征,提出的损失函数可以让来自全图区域和行人身体区域的特征在特征空间靠近,并远离背景区域,最终达到去除背景的作用。所提出的方法在三个行人再识别数据集上验证了有效性,取得了当前最好的性能。

二值化分割轮廓与区域级别三元组约束示意图

论文 10 M^3: Multimodal Memory Modelling for Video Captioning

Junbo Wang, Wei Wang, Yan Huang, Liang Wang, Tieniu Tan

视频描述对于理解视觉与语言是十分重要的一环,同时也是很有挑战性的任务。它有很多的实际应用价值,包括人机交互、视频检索、为盲人转述视频等。针对这一问题,我们提出了一个多模态记忆模型用于视频描述,这一模型建立了视觉与文本共享的记忆存储器用来模拟长范围视觉文本依赖性并且进一步指导视频描述中的全局视觉目标的关注。借鉴神经图灵机模型的原理,该模型通过多次读写操作与视频和句子进行交互并附加了一个外部记忆存储器用来存储来自视觉与语言模态的信息。下图展示了用于视频描述的多模态记忆建模的整体框架。

这一框架包含三个关键模块:基于卷积网络的视频编码器,多模态记忆存储器,基于 LSTM 的文本解码器。(1)基于卷积网络的视频编码器首先利用预训练的 2D 或者 3D 卷积网络模型提取关键帧或段的特征,再利用时序注意模型选择与当前单词最相关的视觉表示,并写入到记忆存储器中;(2)基于 LSTM 的文本解码器利用 LSTM 模型对句子的产生进行建模,它预测当前的单词不仅依赖于之前时刻的隐藏表示,而且还有从记忆存储器中读取的信息,同样地,它会向记忆存储器中写入更新的表示。(3)多模态记忆存储器包含一个记忆存储矩阵用来与视频编码器和文本解码器进行交互,例如,从 LSTM 解码器中写入隐藏表示和读取记忆内容用于解码器。每一步写入操作都会更新多模态记忆存储器。最后,我们在两个公开的数据集(MSVD 和 MSR-VTT)上对提出的模型进行了评价。实验结果表明提出的模型在 BLEU 和 METEOR 两个指标上都超过了许多当前最好的结果。

用于视频描述的多模态记忆模型架构

论文 11 Fast End-to-End Trainable Guided Filter

Huikai Wu, Shuai Zheng, Junge Zhang, Kaiqi Huang

我们提出了一个全新的用于联合超分 (Joint Upsampling) 的深度学习模块—引导滤波单元 (Guided Filtering Layer)。此模块将传统的引导滤波 (Image Guided Filtering) 算法建模为一个可以反向传播、与其他模块联合训练的深度学习单元,同时还引入可以自适应学习的引导图 (Guidance Map) 来提高灵活性。通过与原有的卷积神经网络结合,引导滤波单元可以广泛地应用于稠密预测任务 (Dense Prediction Task),并获得更快的速度、更高的精度和更少的内存占用量。试验证明,引导滤波单元可以在众多图像处理任务中取得最好的性能并获得 10 至 100 倍的速度提升。在计算机视觉中的众多稠密匹配任务中,此模块同样可以取得显著的性能提升。代码和论文将公布在 htt

ps://github.com/wuhuikai/DeepGuidedFilter。

使用卷积神经网络和提出的引导滤波单元进行图像到图像变换的结果展示

雷锋网

CVPR 2018 收录论文名单全公布,默默看各路大神公布喜讯

雷锋网 AI 科技评论消息,距离 CVPR 2018 还有四个月,值此新春佳节之际,CVPR 官网挂出了收录论文名单。各位走亲访友的同学们,不要忘了去瞄上一眼。

地址如下:http://cvpr2018.thecvf.com/files/cvpr_2018_final_accept_list.txt

据官方介绍,此次只是公布收录论文名单,论文具体是 oral,spotlight 还是 poster,也马上就会公布。大家记得随时保持关注。

而 Twitter 上各路大神也开始报喜了。

用户 Christopher Kanan 表示,他的实验室和 Adobe Research 关于 DVQA 的论文已经被 CVPR 2018 接收,在论文中,他的博士生 Kushal Kafle 做出了很优秀的反证工作。他们创造了一个新的 DVQA 数据集,能解决 VQA 中面临的一系列问题。

论文地址:https://arxiv.org/abs/1801.08163

用户 D. Khuê Lê-Huu 表示,他们的论文“Tight Continuous Relaxation of MAP Inference: A Nonconvex Perspective”已经被 CVPR 2018 接收,感谢 Nikos Paragios 教授,目前他已经将论文的代码公开,PDF 也很快就会上传。

地址如下:https://khue.fr/publication/norelax/

用户 Rushil 表示,他们关于 CT 重建的论文也被接收,他表示,他们的方法能显著改善重建质量。

地址如下:https://arxiv.org/pdf/1711.10388.pdf

同一个世界,同一个 CVPR。

日本友人 Hiroharu Kato 也在推特上公布喜讯,他们团队的论文“Neural 3D Mesh Renderer”被 CVPR 2018 接收。在论文中,他们针对神经网络提出了一个可微的网格渲染器,可以应用于单图像 3D 重建、2D -3D 风格转换和 3D DeepDream。目前代码也已经公开。

地址如下:http://hiroharu-kato.com/projects_en/neural_renderer.html

除了这些默默公布喜讯的大神们,少不了对论文接收数目的分析。

用户 Abhishek Das 将近两年来被接收的 CVPR 和 ICCV 论文 ID 做了对比:

比起 2017 年 CVPR 和 ICCV 论文的序号越往后,接收率越低,今年 CVPR 论文序号与接收率看起来比较平均。

而截至发稿,雷锋网 AI 科技评论还未看到各大研究院公布接收论文名单。届时,雷锋网 AI 科技评论也会第一时间关注。

雷锋网

CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)的介绍

雷锋网 AI 科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续。下文是Momenta高级研究员王晋玮对此次大会收录的 Xception:Deep Learning with Depthwise Separable Convolutions 一文进行的解读。

Inception模块是一大类在ImageNet上取得顶尖结果的模型的基本模块,例如GoogLeNet、Inception V2/V3和Inception-ResNet。有别于VGG等传统的网络通过堆叠简单的3*3卷积实现特征提取,Inception模块通过组合1*1,3*3,5*5和pooling等结构,用更少的参数和更少的计算开销可以学习到更丰富的特征表示。

通常,在一组特征图上进行卷积需要三维的卷积核,也即卷积核需要同时学习空间上的相关性和通道间的相关性。将这两种相关性显式地分离开来,是Inception模块的思想之一:Inception模块首先使用1*1的卷积核将特征图的各个通道映射到一个新的空间,在这一过程中学习通道间的相关性;再通过常规的3*3或5*5的卷积核进行卷积,以同时学习空间上的相关性和通道间的相关性。

但此时,通道间的相关性和空间相关性仍旧没有完全分离,也即3*3或5*5的卷积核仍然是多通道输入的,那么是否可以假设它们可以被完全分离?显然,当所有3*3或5*5的卷积都作用在只有一个通道的特征图上时,通道间的相关性和空间上的相关性即达到了完全分离的效果。

若将Inception模块简化,仅保留包含3*3的卷积的分支:

再将所有1*1的卷积进行拼接:

进一步增多3*3的卷积的分支的数量,使它与1*1的卷积的输出通道数相等:

此时每个3*3的卷积即作用于仅包含一个通道的特征图上,作者称之为“极致的Inception(Extream Inception)”模块,这就是Xception的基本模块。事实上,调节每个3*3的卷积作用的特征图的通道数,即调节3*3的卷积的分支的数量与1*1的卷积的输出通道数的比例,可以实现一系列处于传统Inception模块和“极致的Inception”模块之间的状态。

运用“极致的Inception”模块,作者搭建了Xception网络,它由一系列SeparableConv(即“极致的Inception”)、类似ResNet中的残差连接形式和一些其他常规的操作组成:

作者通过TensorFlow实现了Xception,并使用60块NVIDIA K80分别在ImageNet和JFT(Google内部的图像分类数据集,包含17000类共3.5亿幅图像)上进行训练,并分别在ImageNet和FastEval14k上进行测试。在ImageNet上,Xception的准确率相比Inception V3有一定的提升,并比ResNet-152或VGG-16有较多提升(单个模型,单个crop):

在JFT/FastEval14k上,Xception取得了比ImageNet上相比于Inception V3更多的准确率提升:

同时,和Inception V3相比,Xception的参数量有所下降,而训练时的迭代速度也没有明显变慢:

另外,在ImageNet和JFT上的训练过程都显示,Xception在最终准确率更高的同时,收敛过程也比Inception V3更快:

在Xception中加入的类似ResNet的残差连接机制也显著加快了Xception的收敛过程并获得了显著更高的准确率:

值得注意的是,在“极致的Inception”模块中,用于学习通道间相关性的1*1的卷积和用于学习空间相关性的3*3的卷积之间,不加入任何非线性单元相比于加入ReLU或ELU激活函数将会带来更快的收敛过程和更高的准确率:

这篇文章中提及的Depthwise Convolution操作,即group数、输入通道数和输出通道数相等的卷积层,在最近一年内被多篇CNN模型结构设计方面的工作所使用,包括Factorized Convolutional Neural Networks,Xception,MobileNet和ShuffleNet等,以及ResNeXt一文中使用的大量分group卷积操作也与之有相似之处。它们有的在ImageNet上取得了非常好的结果,有的大幅降低了模型的理论计算量但损失较少的准确度。本文作者从空间相关性和通道间相关性的角度解释Depthwise Convolution,认为这是将学习空间相关性和学习通道间相关性的任务完全分离的实现方式。

事实上,这一操作也可以从低秩角度理解,即将每个输入通道上可学习的卷积参数的秩限制为1。不过潜在的问题是,虽然Depthwise Convolution可以带来准确率的提升或是理论计算量的大幅下降,但由于其计算过程较为零散,现有的卷积神经网络实现中它的效率都不够高,例如本文中Xception的理论计算量是远小于Inception V3的,但其训练时的迭代速度反而更慢一些。期待后续会出现更加高效的Depthwise Convolution实现。

雷锋网

CVPR 2017精彩论文解读:综合使用多形态核磁共振数据的3D生物医学图像分割方法 | 分享总结

雷锋网 AI 科技评论按:计算机视觉盛会 CVPR 2017已经结束了,雷锋网 AI 科技评论带来的多篇大会现场演讲及收录论文的报道相信也让读者们对今年的 CVPR 有了一些直观的感受。

论文的故事还在继续

相对于 CVPR 2017收录的共783篇论文,即便雷锋网(公众号:雷锋网) AI 科技评论近期挑选报道的获奖论文、业界大公司论文等等是具有一定特色和代表性的,也仍然只是沧海一粟,其余的收录论文中仍有很大的价值等待我们去挖掘,生物医学图像、3D视觉、运动追踪、场景理解、视频分析等方面都有许多新颖的研究成果。

所以我们继续邀请了宜远智能的刘凯博士对生物医学图像方面的多篇论文进行解读,延续之前最佳论文直播讲解活动,此次是第2篇。

刘凯博士是宜远智能的总裁兼联合创始人,有着香港浸会大学的博士学位,曾任联想(香港)主管研究员、腾讯高级工程师。半个月前宜远智能的团队刚刚在阿里举办的天池 AI 医疗大赛上从全球2887支参赛队伍中脱颖而出取得了第二名的优异成绩。

在 8 月 1 日的直播分享中,刘凯博士为大家解读了「Joint Sequence Learning and Cross-Modality Convolution for 3D Biomedical Segmentation」(用于三维生物医学分割的合并序列学习和多形态卷积)这篇论文,它主要解决了一个三维生物医学图像分割中重要问题:如何综合使用多种形态的 MRI 数据进行区域分割。以下为当天分享的内容总结。

图文分享总结

刘凯博士:大家好,我是深圳市宜远智能科技有限公司的刘凯,我们的官网是 yiyuan.ai。这里也有我的微博ID,我经常会发一些跟人工智能相关的资料和文章,大家可以关注一下。今天讲的也是关于生物医学图像的应用,是结合序列学习和交叉模态卷积的3D生物医学图像分割。其实在医学图像方面,分割,英文是segmentation,是非常重要的工具或者应用。 

我先讲一下这篇文章的主要内容,它讲的是对核磁共振图像中的脑部肿瘤部位进行切割的例子。右边的图给出来的就是什么叫“对肿瘤部位进行切割”。我们通过MRI拍出来图片,如果有一些跟正常的大脑皮层细胞不太一样的部位,这些部位就很有可能是有脑部肿瘤,所以要把它切出来,切出来之后再做相应的研究。比如这三个例子可以看到大脑中有一些病变的位置,要达到的就是最右边一列的样子,把它们切出来。这个工作其实不算太容易,主要有几个方面的原因。

首先比较难定位到哪些是肿瘤部位,因为肿瘤部位的形状千奇百怪,没有固定的形状,不像人脸识别的时候,每个人的五官都差不多,位置区别也不会很大。比如说神经胶质瘤和胶质母细胞瘤的形状两种就就很不同,就是不同的肿瘤形状也不一样。然后肿瘤的分布很广泛,可能分布在大脑的任何区域,那跟人脸也不一样了,就跟刚才我说一样。

那怎么去实现、怎么去解决这些难点呢,这篇文章提出来一个思路就是交叉形态卷积的方法做一个 encoder-decoder 的网络结构,然后同时用LSTM对2D的切片序列建模。

这里有个概念,因为MRI也是跟CT一样断层扫描的过程,就是它一层一层,一层扫出来的就是一个2D的图片,然后多层累计起来就是3D的,但是其实切割是要切割出3D的脑部肿瘤位置,这样就需要把2D的变成3D的,把2D的切片之间的关系通过LSTM描述出来,最后把多模态卷积和LSTM网络结合在一起,达到3D切割。

刚才提到多模态的概念,就是因为这个是MRI特有的特征,因为CT里面并没有。这里有四个模态,就是通过四种方式扫描脑部得到MRI数据,这是这里列出来的四个的名字,我们先不用管它这四个具体是什么意思,只是知道它有四种模态就行了,这四种模态对最终切割的结果是有直接的作用的。现在大多数的3D图像切割方法只是用了一个模态,或者把多个模态分别来做,然后再堆积起来。

这个方法的framework大概是这样的,从左到右看。

  • 首先每一个脑部的MRI数据,他都是通过四种模态切出来的,这里用四种不同的颜色来表示,相当于每一个slice就是我说的那个2D的图片。

  • 切完之后他会把四个模态,就是到图b这个阶段了,四个模态交叉在一起做一个multi-modal的encoder,这个encoder就是用一个神经网络来实现的。

  • 四个模态encode到一起之后,在这一步就用神经网络把四个模态下的脑部切割出来了,这是2D的情况下。

  • 然后再加上convolution LSTM把2D的切割、2D和2D之间的dependency描述出来之后就形成了3D的切割,然后再做一下decoder,展现成最后这种形式。在最中间有一个切割出来的东西,其他没被切割到的background。

这就是一个大体的流程,然后对具体对每一个细节的过程,我再详细介绍一下。

第一个模块就是multi-modal的encoder,这里的网络结构最主要的几个方面是用四个卷积核,通过batch-normalization,然后加一个非线性变换,在后面有四个最大池化层。这就是先简单介绍一下,如果要详细了解这个网络结构是怎么设计的,可以去读一下这篇论文。

另外一个嗯比较重要的部分就是多模态交叉卷积。四个模态的数据进入到这个卷积网络之后,他就会把每一个模态下面的cross在一起,然后通过一个三维的卷积,卷积的大小里有个C×4,就是因为他每个channel里面有 c 个slice,就是说它是一个立体结构了,一个长宽是H、W,高是C的这种。四个模态弄到一起就是C×4×H×W,有大小。

然后在这里,是用4×1×1的一个卷积核,做卷积之后得到每一层的切割出来的特征。切割出来之后,然后就进入了后面的convolution LSTM。

这个convolution LSTM跟普通的LSTM有一个区别,就是把原来的矩阵相乘替换为一个卷积操作,就是普通的乘法变成卷积层,这样它就能够在把之前状态的空间信息保留着。其实它的目的就是,卷积LSTM会描述一个2D切割边缘的趋势,比如说这一张中切片它的形态是这样的,然后到下一张它会有一个轻微的变化,要把这种变化描述出来。

因为刚开始有一个图像的encoder,还是要把它解析出来。最后就有一个soft-max的分类,也是一个两分类的,就是每一个像素是前景还是背景的概率。是前景的话,就是我们要切割出来的部位;如果是背景的话就不是我们感兴趣的地方。

它的实验部分做了两个,第一个跟医学没有关系,这个通用的场景就不讲了。我讲一下跟医学相关的那个,他有一个公开的脑部MRI的数据,就叫BRATS-2015。

他切的是神经胶质瘤这个疾病,它的严重程度分为五种,0 就是非肿留,1 是脑细胞坏死,2 是水肿,3 是非增强性肿瘤,4 是增强性肿瘤,数字从低到高,它严重程度会越来越高。临床上是从三种不同的方面去评价切分的效果:

  • 第一种,完全把四种严重程度的病都切割切割出来,相当于区分肿瘤和非肿瘤;

  • 第二种,部分切割,只关注 1、3、4 这三种。2 的水肿,其实也是比较容易混淆的,就是它不是真正的肿瘤

  • 第三种,只关注增强型的肿瘤,就是最严重的那种

最右边是一个图例,看这几种方法哪一个切的好一些。第二列是就是ground truth,第三列是U-Net,是一个提的比较早、比较通用的一个benchmark的方法,来做数据切割;然后第四列的CMC,cross-modality convolution,这个也是这篇文章提出来的;然后CMC+convolution LSTM,就是描述了切片与切片之间的dependency的算法。可以看出来,最后一个跟ground truth是比较接近的。

这里有从三个方面看的评价结果,三个指标。其实都是算它切割得跟ground truth重合的部分的比例,第一种“Dice”就是它的 overlap 部分,除以他们两个面积交集和并集的一个平均,这里的P就是predict出来的区域,然后T是ground truth的区域。PPV是positive predicted value,那是他的交集部分除以预测的区域;sensitivity就是交集的面积除以ground truth区域。这里也是跟U-Net比较了一下。

我下面补充一下这个U-Net的概念,如果没有医学图像切割的一些知识背景的话,可能不太理解它。其实U-Net就是一个网络结构,参考文献在最下面。这种网络结构,就是画出来长得字母U,然后所以叫yU-Net。

它之所以长成这样,是因为这个图像进来,最左边可能大家看的不是很清楚,图像里其实是一个一个的细胞,它们都连在一起,但是边缘是有一些线割开的。网络的目标是把这些细胞一个一个地切开,就像最右边的这种情况。网络刚开始的时候用的卷积就先是3×3的卷积,然后加上ReLu这个非线性变换,然后一步一步做下去。其实这个网络结构还是挺深的,如果有兴趣可以去看一下这篇文章。其实这个算法对大物体小物体的切割都是做得还不错的,就是因为这种U结构的,先对大物体切割,然后再去对小物体切割。

这里面还有一些trick,就是在BRATS-2015这个数据上来,因为这个数据量其实不大,好像正例一共只有60多个,负例两百多个。这里也出现了一个数据不均衡的问题,它是用median frequency平衡法,这个很简单,这个算式里有一个除法,就是分子式median frequency,就是每一个类的平均frequency,除以这一类总的出现的次数。如果出现次数越多,那它这个权重就会越小,就是赋了一个比较小的权重,就在 loss 函数里对这一类的数据设定了一个权重,相当于下采样的过程。

在这个学习过程中使用了two-stage training,第一个阶段是只采用了包含肿瘤的切片,然后用median frequency减少大类的权重。第二阶段是降低学习率,然后把median frequency这种限制去掉,它的分布就是接近你的真实的分布,因为如果使用median frequency,它的分布是会变的,但是真实数据中那个大类的确实会存在,还是要去描述这个问题,先保证了这个模型第一部分不收敛到大类这个问题之后,然后第二个阶段去再去慢慢的学习真实的分布。

在第一阶段的时候避免采样到空的序列,就是先去采样了有肿瘤问题的,然后再在训练LSTM的时候也用了正交初始化的方法处理梯度消失的问题。这种方法其实都是可以用的,不一定非得这个问题上去用。

我读到最后就发现一个不太好的一个地方,就是他在前面后面都提到了这个KU-Net,它说了跟它的方法模型是最相关的,其实这个KU-Net就是用U-Net+RNN,他用RNN也是去描述2D切片之间的dependency。

这篇论文里方法的不同就是,它用的交叉模态的方法去代替U-Net的那一部分,然后用LSTM去代替RNN那一部分。从直观上来讲应该会比这个KU-Net效果要好,但是他说因为没有公开代码不进行实验对比,我觉得这个理由不是特别充分。其实写文章的时候既然他都给了U-Net的比较了,然后这种跟他更相关的、而且思路上也挺像的,应该更要比较一下才对。

问答环节

(先上一次论文讲解中的问题开始)

Q:Sequntial learning的时候有没有用move-and-average,就是有没有移动平移法

A:这个那篇文章里面并没有讲,但是我觉得这个移动平均法在sequntial的学习的时候还是可以用的,就是相当于你在不同的步骤的预测值都做一个平均,还是有一定的推广性的。

Q:关于医学图像数据不平衡的问题

A:其实不平衡的问题,解决方法有好多种,最简单的就是上采样和下采样。如果那些大类的数据特别多,做一下下采样,然后小类的做一下上采样。这个比较简单,然后我在实际问题中有一些经验,其实不是这一类多就一定要下采样,这一类少就一定要上采样,其实要看它具体的分布。

有的时候,比如说我们在做肺结节检测的这个过程中,通过肺CT或者X光去看那个肺部有一些会癌变的结节,去找这些病变的点。其实在这里面小结节会比较多,大结节会比较少。在这种例子里,大家直观的很可能觉得要下采样小结节,那实际上并不是的,我们这反而是上采用了上采样的小结节,就是把它的数据要增多。因为小结节比较难分,它其实很小,跟background非常像,然后就容易被忽略掉,然后大结节就很明显,即使只有少量的数据,它也能分出来的。

所以这个跟实际的应用有关系,一般情况下做模型之前一个很大的步骤是要去处理数据,有的时候一些trick是从数据得到灵感,就应该去怎么去实现。包括数据增强也好,怎么解决数据偏移也好。这是预处理的部分。

然后在实际训练中解决数据不平衡的问题可以通过一个叫hard negative mining的方式,就比如刚开始的数据不平衡,有的倾向于分到大类那一部分。而且你这个模型在分的时候,前期会有一些分错的,分错了就说明这个模型分的效果还不太好。比如说把小类的分到大类里面去了,明显是分错了,然后就把这些分错的小类的找出来,做一下增强,比如说做两倍的增强,然后再放到模型里面、再去学,这样持续下去,就会有针对性的把小的数据去增强,慢慢把数据变平衡了。这个思路其实是跟刚才的数据预处理是一样的,但是更灵活一些,因为在训练之前,直接把小的类做增强,这种是比较主观的,实际上不一定小类的就难分,最好先去模型试一下,看哪些比较难分,然后就专注于这种数据去做数据增强。其实上一篇论文讲解直播的时候,论文里面也提到这个思路。

然后数据增强的时候其实也挺有意思的,上一篇论文里面提到要根据泛化能力比较强的做增强,而不是统一形式的增强。我们在实际在做的时候,也还是以肺结节为例子,我们在做hard negative mining的时候,因为在肺结节检测里面少,就是发现肺结节在跟常规思路的机器学习方式有一些相反的现象。其实正例跟负例相比,本身是偏少的,因为他那个肺里面有很多部位结节是很少的。但是实际模型去训练,然后训练的时候就会发现好多并不是结节的预测成结节了。这个需要hard negative mining,就是要把negative的sample要增强一些。原来我们心想的通常情况下是应该把少的那一部分增强,那肺结节检测是实际上是相反的。在脑部切割的时候也会有这个问题。

然后最近关于一个segmentation的一个新的方法,目前还没有用到在segmentation里面,我只是有一个想法,提出目标检测Fast-RCNN这一系列的何恺明发了一篇文章,是Fast-RCNN的延续,叫做Mask-RCNN,就不光是把那个目标能检测出来了,还能把目标的轮廓给画出来。这样的话就非常像这里,比如说把病变的位置detect出来,其实是在这个地方画了一个rectangle,这是找出它的位置了。如果我们要把病变区域切出来的,就要沿着它的轮廓,把它做一个mask。我觉得这个方法是可以试一下的,就相当于把目标检测和segmentation结合在一起了,所以还是一个挺好的思路。

(等待问题过程中顺便插播一则公司介绍)

我们宜远智能位于深圳,也是一个初创公司,主要是做人工智能在医学图像处理上的应用,然后做一些基于医学图像的辅助诊断,大家有兴趣的话可以去我们官网看一下。我们现在也在招人,如果有兴趣的话可以在微博里面艾特我或者发邮件给我,邮箱地址是 kennethkliu@foxmail.com。加我的微信也可以,但是微信的话我也不会发太多东西。微信号是 kenneth_liukai。

Q:这个问题有人问,我重复一下。也是数据不平衡的问题,当positive和negative不平衡的时候可以做hard negative mining。那么假如第一次分类有部分数据分错了,那么增强的权重是重采样权重还是梯度的权重?

A:这个是两种都可以,我们实际中一般是数据重采样。如果增加梯度的权重,其实不知道是针对哪一种。只是说这个权重的话,就把数据重新放进去。增加权重也可以,但是你增加这个权重的时候,学的时候就不只针对分错的那些了,会对所有的数据都增加了权重。那么还是重采样来得更直接一些,就是分错的那个数据再重新放进去,或者是加倍重新放进去,再去训练,这个都是可以的。

其实在图像上面做数据增强,不光是重采样,还有一些时候为了增加它的泛化性,会做一些偏移、切割、平移这种操作,也是很有效果的。

Q:除了重采样,还有其他办法解决数据不平衡的问题吗?

A:重采样跟数据不平衡,其实是同一个思路。因为数据不平衡,你为了能达到平衡,那就是要打乱原来的数据分布了。除非这个模型对数据不平衡的状况不敏感,就是说即使数据不平衡,也能学出来,大类就大类的学,小类就小类的学。这种就是要考验模型的能力的,有些模型即使类别比较小的也是能够学出来的,要看这个模型的区分能力了。

Q:如果数据图像label有时标错的比较厉害,标错的比例甚至达到1/3,有没有什么数据清洗的办法?

A:对这个这个问题非常好,因为在医学图像里面这个问题特别严重。

其实医学标注数据是有很强的背景知识要求,一般都是要比较高水平的医生标的才会比较准确。

对普通的医生来说,比如说有一些结节,或者一些脑部的MRI上病变的位置,其实在那里,但他就看不到,因为他知识水平有限,他就没见过这种东西。我们也曾经试过要用好几个医生然后去标,水平不一样,指标的差异还挺大的,跟ground truth差距就更大了。

当然了这个ground truth也不是标准的ground truth,只是三个专家级的医生标的共同的结果。这种方法可以这么来,就是说你的模型也可以去标一下。如果这个模型是完全基于现在这种“脏”数据学出来的,那么它真的是没办法能够学得好,那它就是去拟和这个“脏”数据了。如果有另外一个好的模型,就可以transfer过来,它去把这个数据标一遍,跟达到1/3标错的那个数据一起,相当于两个专家会诊一样。它会有一个统计分布,这种情况下能够一定程度上把那些“脏”数据给剔除掉。这是一种思路。

另外的话,有一些如果他标错了,就会出现同样的图像、非常相近的图像,得到了不同的label。这种就是标注相冲突的,这也是一个问题。我们就可以拿一个ImageNet pre-train的model去看两个图像的差异。假如说真的差异很小,然后label标注的截然相反,就可以做一定形式的过滤。

这个问题我不知道回答的好不好,我就是以我的经验来说。这其实是一个开放性的问题,可能有很多的方法去实现。其实做机器学习,ground truth就相当于一个先知,告诉你哪些是真的标注数据,那才是真正的标注数据。那实际上很多都是人标的,人的知识水平就限制了标注质量的好与差。

雷锋网 AI 科技评论整理。感谢刘凯老师带来的分享。

雷锋网