标签归档:2018

CVPR 2018 中国论文分享会之「视觉与语言」

雷锋网 AI 科技评论按:视觉与语言的结合,相较于分割、检测来讲是比较新的研究领域,但或许正是因为如此,在这个领域还有很多有待探索的地方。本文为 2018 年 5 月 11 日在微软亚洲研究院进行的 CVPR 2018 中国论文宣讲研讨会中第四个 Session——「Vision and Language」环节的四场论文报告。

在第一个报告中,微软亚洲研究院的段楠博士介绍了他们将 VQA(视觉问答)和 VQG(视觉问题生成)两项任务结合成一个统一模型 iQAN 的工作。由于 VAQ 与 VQG 在某种程度上具有同构的结构和相反的输入输出,因此两者可以相互监督,以进一步同时提升两个任务的表现。

第二个报告由来自中科院自动化所黄岩介绍他们在图文匹配方面的工作。不同与其他方法直接提取图像和句子的特征然后进行相似性比较,他们认为(1)图片比语句包含更多信息;(2)全局图像特征并不一定好,于是他们提出了先对图片进行语义概念提取,再将这些语义概念进行排序,之后再进行图文匹配的比较。

来自西北工业大学的王鹏教授在第三个报告中介绍了他们在 Visual Dialog 生成方面的工作,他们提出了一种基于对抗学习的看图生成对话的方法,这种方法可以在保证问答信息的真实性的情况下,维持对话的连续性。

在第四个报告中,来自华南理工大学的谭明奎教授介绍了他们在 Visual Grounding 任务中的工作,也即给定图片和描述性语句,从图中找出最相关的物体或区域。他们将这个问题分解为三个子 attetion 问题,并在提取其中一中数据的特征时,其他两个作为辅助信息来提升其提取质量。

雷锋网注:

[1]
CVPR 2018
中国论文宣讲研讨会由微软亚洲研究院、清华大学媒体与网络技术教育部-微软重点实验室、商汤科技、中国计算机学会计算机视觉专委会、中国图象图形学会视觉大数据专委会合作举办,数十位
CVPR 2018 收录论文的作者在此论坛中分享其最新研究和技术观点。研讨会共包含了 6 个
session(共 22 个报告),1 个论坛,以及 20 多个 posters,AI 科技评论将为您详细报道。

[2] CVPR 2018 将于 6 月 18 – 22 日在美国盐湖城召开。据 CVPR 官网显示,今年大会有超过 3300 篇论文投稿,其中录取 979 篇;相比去年 783 篇论文,今年增长了近 25%。

更多报道请参看雷锋网:

Session 1:GAN and Synthesis

Session 2: Deep Learning

Session 3: Person Re-Identification and Tracking

Session 4: Vision and Language

Session 5: Segmentation, Detection

Session 6: Human, Face and 3D Shape


一、融合VQA和VQG

论文:Visual Question Generation as Dual Task of Visual Question Answering

报告人:段楠 – 微软亚洲研究院

论文下载地址:https://arxiv.org/abs/1709.07192

所谓 visual question answering (VQA),即输入 images 和 open-ended questions,生成相关的 answer;而所谓 visual question generation (VQG),即输入 images 和 answers,能够生成相关的 questions。

近来的 VQA 和 VQG 都是两个比较热门的研究课题,但是基本上都是独立的研究。段楠认为这两项研究本质上具有同构的结构,即编码-融合-解码通道,不同之处只是 Q 和 A 的位置。因此他们提出将这两个任务融合进同一个端到端的框架 Invertible Question Answering Network (iQAN) 中,利用它们之间的相互关系来共同促进两者的表现。

针对 VQA 部分,他们选用了目前常用的模型 MUTAN VQA,如下图所示:

MUTAN VQA 本质上是一个双线性融合模型。考虑到 VQG 与 VQA 同构,因此他们对 MUTAN 稍加改造(如下图将 Q、A 位置互换)得到对偶的 MUTAN 形式:

通过两个模块中 q 与 Q,a 与 A 的相互监督来提升 VQA 和 VQG 的表现。基于这样的思考,他们构建了端到端的 iQAN 框架如下:

这里首先是使用 MUTAN 和 Dual MUTAN 的框架生成相应的 VQA loss 和 VQG loss。其次如刚才提到,由 q 与 Q,a 与 A 的相互监督得到 dual regularizer 的 loss。另外,image 即作为 VQA 的输入,也作为 VQG 的输入,因此它们在参数上是共享的,因此他们又做了一个 embedding sharing 的部分。

部分实验结果如下:

段楠提到,在这篇文章中他们使用的主要是 MUTAN 的框架,而事实上可以很容易替换成别的框架,对比实验如下,分别使用了 iBWIMG、MLB、MUTAN 和 MUTAN+sharing LSTM:

这里是一个注意力热图结果:

二、图文匹配

论文:Learning Semantic Concepts and Order for Image and Sentence Matching

报告人:黄岩 – 中科院自动化所

论文下载地址:https://arxiv.org/abs/1712.02036

一张图片包含信息丰富多彩,而如果单单用一个句子来描述就会漏掉许多信息。这或许也是当前图像与文本匹配任务当中的一个问题。黄岩等人针对此问题,提出了学习图像语义概念和顺序,然后再进行图像/文本匹配的思路。

如上图所示,他们希望能先提取出图像中所包含的基本概念,例如 cheetah、gazelle、grass、green、chasing 等,包括各种事物、属性、关系等;然后学习出这些语义概念的顺序,如 cheetah chasing gazelle grass,显然这里不同的语义顺序也将导致不同的语义意义。基于这些语义概念和顺序在进行图片与文本的匹配。

整体来说,即用多区域、多标签的 CNN 来进行概念预测,用全局上下文模块以及语句生成来进行顺序学习。模型框架如下图所示:

a)针对句子用 LSTM 学习其特性;(b)使用多区域、多标签的 CNN 从图中进行语义概念提取;(c)使用 VGGNet 提取上下文信息;(d)利用提取出的语义概念和上下文的信息,例如空间位置等,通过 gated fusion unit 对语义进行排序;(e)此外,他们还发现事实上语句本身也包含着「顺序」的信息,因此他们利用生成的语句作为监督来学习语义顺序,进一步提高语义顺序的准确性。最后通过学习出的语义概念和顺序进行相似性打分,判断图像与句子是否匹配。

其实验结果与当前的一些 state-of-art 方法对比如下:

可以看出,在两个数据集中该方法的表现相比其他方法都有显著的提升。下面是一个实例:

ctx = context,cnp = concept,gen = generation。其中 groundtruth 匹配语句用红色标注;与 groundtruth 有相同意思的句子以下划线标注

三、看图写对话

论文:Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning

报告人:王鹏 – 西北工业大学

论文下载地址:https://arxiv.org/abs/1711.07613

所谓 Visual Dialog Generation,简单来讲,即以一张图片和对话历史为条件来回答相关问题。相比于 NLP 领域的对话,其不同之处在于输入中除了 dialog history 和 question 外,还有一个图片信息;而相比于 Visual Answer 则多了 dialog history。如下图所示:

一个很自然的想法就是仍然使用 Visual Answer 中的方案,将 dialog history 中的每一对对话视作图片中的一个 fact 去提取和生成。这种方法有一个缺点,及 Visual Answer 任务的重点是针对问题给出一个尽可能对的答案。但是对于 dialog 任务来讲,除了回答正确外,还需要维持对话的有序进行。在对话中一个好的回答是,除了回答问题外,还要提供更多的信息,以便提问者能够根据这信息继续问下去。

基于这样的想法,王鹏等人提出了基于对抗学习的方式来生成 Visual Dialog。具体来讲,他们使用了较为传统的 dialog
generator,即针对 image、question 和 dialog history 分别使用 CNN 和 LSTM
对其进行编码,随后经过 co-attention 模型对每个 local representation 给出一个权重,然后将 local
feature 做一个带权求和从而得到 attented feature,将该 feature 经过 LSTM 解码即可得到一个相应的
Answer。

在这个模型中关键的一点是他们在模型的后面加入一个鉴别器,通过它来区分输入的答案是人产生的还是机器产生的。这里输入的不仅有相应的 question 和 Answer,还有 attention 的 output,以便让鉴别器在一定的环境下分析 Q、A 是否合理。鉴别器产生的概率将作为生成器的 reward,以对生成器的参数进行更新。

这里需要重点提一下生成器中的 Co-attention 模型,这是一个序列 Co-attention 模型,他们也曾将这个模型用在 CVPR 2017 中的一篇文章中。如下图所示:

首先对 Question 做一个 attention,然后将结果作为 guidance 在 Image 上做 attention,从而得到 image 的feature;时候再把这两个的结果作为 guidance 在 history dialog 上做 attention,得到 history dialog 的 feature;如此往复,不断把结果提高。最终将输出 feature 作为整个模型的表示。

其算法如下所示:

其实验结果显示比其他方法有很大提升:

一个实例如下:

可以看出其生成对话的长度,相比其他方法要更长(这某种程度上也意味着包含更多的信息)。


四、如何找到竹筐里的熊猫?

论文:Visual grounding via accumulated attention

报告人:谭明奎 - 华南理工大学

论文下载地址:暂无

Visual Grounding 任务是指:当给定一张图片以及一句描述性句子,从图片中找出最相关的对象或区域。形象来说,如下图:

Visual Grounding 任务即从图中找出「在竹筐中的熊猫」(注意:而不是在地上的熊猫)。

据谭明奎教授介绍这篇文章的工作是由华南理工大学的一名本科生完成。在文章中,作者针对此任务,提出了 Accumulate Attention 方法,将 Visual Grounding 转化为三个子问题,即 1)定位查询文本中的关键单词;2)定位图片中的相关区域;3)寻找目标物体。

作者针对这三个子问题分别设计了三种 Attention 模块,分别从文本、图像以及候选物体三种数据中提取特征。

首先针对文本、图像以及物体,他们分别使用 Hierarchical LSTM、VGG-16 以及 Faster-RCNN 来提取特征,然后使用 attention 机制计算出每个三种数据特征向量每个元素的权重。

作者在提取一种特征的过程中,将另外两种数据的特征作为辅助信息来提高特征提取的质量。Accumulate Attention 方法按照循环的方式不断对这三种数据进行特征提取,使得特征的质量不断提高,分配在目标相关的数据上的 attention 权重不断加大,而分配在无关的噪声数据上的 attention 权重则不断减小。

其实验表明 Accumulate Attention 方法在 ReferCOCO、ReferCOCO+、ReferCOCOg 等数据集上均取得较好的效果。(其中的 r1、r2、r3、r4 分别代表循环轮数。)

雷锋网

一窥 ACL 2018 最佳论文

雷锋网 AI 科技评论按:随着定于 7 月 15 日的开会日期逐渐临近,自然语言处理顶会 ACL 2018 继公开了接收论文名单之后,今天也公布了包含 3 篇长论文 与 2 篇短论文的最佳论文获奖名单。

其实 ACL 2018 的流程设计与去年有所不同。ACL 2017 会前首先公布了 22 篇 outstanding 论文(可以看作最佳论文的预选论文),其中长论文 15 篇、短论文 7 篇;接着正会开始后这 22 篇论文分在四个不同的论文报告 session 中演讲,然后在最后一天的颁奖典礼上公布了最终的最佳论文奖得主。当时在 ACL 2017 做现场报道的我们雷锋网记者岑大师听了论文报告之后就对最佳论文得主做了自己的预测,果然猜中。(可惜今年就没有必要猜啦)

说回 ACL 2018,ACL 2018 组委会于 6 月 10 日直接在官网发出公告,公布了今年 5 篇最佳论文的评选结果。不过截止发稿时只有其中 2 篇论文的内容是公开的,另外 3 篇论文的介绍请等待雷锋网 AI 科技评论后续报道。

最佳论文 – 长论文(3 篇)

Finding syntax in human encephalography with beam search

  • 用束搜索在人脑成像中寻找句法

  • (论文内容尚未公开)

  • 作者之一的 Jonathan Brennan 来自密歇根大学文学、科学与艺术学院计算神经语言学实验室

Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

  • 学习如何问好的问题:通过完全信息下的期待值为追问问题排序

  • 论文摘要:在沟通中,提问是一大基本要素:如果机器不知道如何问问题,那它们也就无法高效地与人类合作。在这项研究中,作者们构建了一个神经网络用于给追问的问题做排名。作者们模型设计的启发来源于完全信息情况下的期待值:一个可以期待获得有用的答案的问题就是一个好问题。作者们根据 StackExchange 上抓取的数据研究了这个问题;StackExchange 是一个内容丰富的在线咨询平台,其中有人发帖咨询以后,别的用户会在下面追问起到解释澄清作用的问题,以便更好地了解状况、帮助到发帖人。论文作者们创建了一个由这样的追问问题组成的数据集,其中包含了 StackExchange 上 askubuntu、unix、superuser 这三个领域的约 77k 组发帖+追问问题+问题的回答。作者们在其中的 500 组样本上评估了自己的模型,相比其他基准模型有显著的提高;同时他们也与人类专家的判断进行了对比。

  • 论文地址:https://arxiv.org/abs/1805.04655

  • 论文作者来自马里兰大学与微软研究院

Let's do it "again": A First Computational Approach to Detecting Adverbial Presupposition Triggers

  • 让我们「再」做一次:首个检测假定状态触发副词的计算性方法

  • 论文摘要:这篇论文中,作者们介绍了一种新的研究课题——预测副词词性的假定状态触发语(adverbial presupposition triggers),比如「also」和「again」。完成这样的任务需要在对话上下文里寻找重复出现的或者相似的内容;这项任务的研究成果则可以在文本总结或者对话系统这样的自然语言生成任务中起到帮助。作者们为这项任务创造了两个新的数据集,分别由 Penn Treebank 和 AnnotatedEnglish Gigaword 生成,而且也专为这项任务设计了一种新的注意力机制。作者们设计的注意力机制无需额外的可训练网络参数就可以增强基准 RNN 模型的表现,这最小化了这一注意力机制带来的额外计算开销。作者们在文中表明,他们的模型相比多个基准模型都有统计显著的更高表现,其中包括基于 LSTM 的语言模型。

  • 论文地址:https://www.cs.mcgill.ca/~jkabba/acl2018paper.pdf

  • 这篇论文来自加拿大麦克吉尔大学(McGill University)与蒙特利尔算法学习人工智能实验室(MILA)

最佳论文 – 短论文(2 篇)

Know What You Don't Know: Unanswerable Questions for SQuAD

'Lighter' Can Still Be Dark: Modeling Comparative Color Descriptions

  • “打火机”也可能是黑暗的:建模比较性的颜色描述

  • (论文内容尚未公开)

  • 这篇论文来自哥伦比亚大学

最佳论文公告参见 https://acl2018.org/2018/06/10/best-papers/

更多 ACL 2018 及其他重要学术会议报道,请继续关注雷锋网 AI 科技评论。

雷锋网

机器感知、三维点云如何与深度学习擦出火花?| ICRA 2018

雷锋网 AI 科技评论按:ICRA 2018 正于近期在澳大利亚布里斯班举行。ICRA 全称为「IEEE International Conference on Robotics and Automation」(机器人与自动化会议),是机器人技术领域最有影响力的国际学术会议之一。雷锋网 AI 科技评论在去年曾赴新加坡参加 ICRA 2017,并带回融合产业与学术的专题丰富报道。详情可了解去年的 ICRA 2017 大会专题内容:https://www.leiphone.com/special/289/201705/592e37165105d.html

根据学术会议惯例,Workshops & Tutorials 将在大会正会前后召开。作为能够给予与会者宏观启迪及学术纵览体验的一项重要议程,持续一整天的 Workshops & Tutorials 自然早早吸引了不少学者前来注册参会。

今年 ICRA 2018 共有 1 个全天 Tutorials 及 22 个全天 Workshops;此外还有 3 个半天 Tutorials 及 9 个全天 Workshops。雷锋网 AI 科技评论从议程进行不完全统计,机器感知与控制仍然是 ICRA 2018 的关注重点。所有的 Workshops & Tutorials 中有近一半是围绕两个议程的讨论,而基于现实问题的应用探讨(包括道德伦理)也有 5 个相关议题。此外,仿生机器人、人机交互、自主系统构建等话题也是比较热门的关注方向。

雷锋网 AI 科技评论选取了其中几个研讨内容做简单分享,更详细的研讨内容可参考大会官网中关于 Workshops & Tutorials 的介绍:http://icra2018.org/accepted-workshops-tutorials/

由谷歌大脑两位女研究员 Anelia Angelova 和 Jana Kosecka 组织的 Tutorial「Deep Learning for Robotics Perception」从当前非常流行的一些深度学习网络入手,分享和探讨了机器如何借助机器学习更好感知周围的世界,并根据实际任务做出更加精准的反应。

值得一提的是,现场还配备了手语翻译人员,可以说是非常人性化了。

目前机器人需要处理多种感应模式,包括「是什么?在哪里?怎么样?」等问题,这就涉及到非常多的问题,比如三维重建,视觉测距、对象分类、人类/物体的姿态估计、语义分割、匹配,识别和本地化等。也就是说,机器人需要在这个过程中学会如何主动感知和控制。因此,深度学习的流行也为探索这一问题提供了一种值得借鉴和学习的方法。

最开始,机器人研究者采用神经网络的初衷是为了进行分类特征提取,但目前随着深度学习的广泛应用,数据驱动模式能够构建强大的端到端训练方法,如今已经可以拓展到更多的感知模式和视频检测上,并进一步构建神经网络架构工程在无监督或自我监督的训练方式中。

在 Tutorial 里,Angelova 先介绍了从视觉领域角度上,机器人在感知领域是如何做探索的。从视觉角度来看,分类与检测是目前机器人学最主要的两个相关问题。

  • 从分类入手,以 AlexNet、Inception、ResNet、DenseNet 等为代表的深度神经网络,在机器人领域又可分为物体分类及场景识别两种任务;

  • 从检测入手,R-CNN、Fast R-CNN、Faster R-CNN 为代表的深度神经网络走的是「Two-stage approaches」,即 Bounding box + classification 的方法;而以 YOLO、SSD、Retinanet 为代表的网络,采用的是「Single-stage approaches」,即 Direct「regression」to locations and classification 的方法。

基于深度神经网络的准确性及可行性,我们需要肯定深度神经网络对于机器人在感知上的探索。目前已知的一些网络体系架构也在快速发展,通过引入架构,标准的计算机视觉算法能够比较顺畅地应用于机器人技术上。

随后,基于姿态估计和匹配、场景分割和密集预测、抓取及从视频中学习等四个方面,两位科学家展示了一些具体的研究成果及应用场景。

在三维点云及即时检测、多任务检测上,深度学习对机器人的研究也有着不少先进成果。Binh-Son Hua1、Duc Thanh Nguyen、Lap-Fai Yu、Sai-Kit Yeung1 及 Daniela Rus 组织了一个名为「Creating Annotated Scene Meshes for Training and Testing Robot Systems」的 Workshop,针对 3D 场景重建和标注的相关进展进行了介绍和探讨。与较为容易获取且数据量庞大的 2D 图像数据集相比,从现实世界中捕获,重建和注释 3D 场景并非一件容易的事情。

受限于点云本身的无序性,不同设备在不同位置扫描物体所获得的数据不尽相同,数据难以通过端到端方法来处理;点云本身也面临数据缺失的问题,比如被扫描模型往往会被遮挡。

针对无序点云数据的深度学习方法研究,目前进展还相对缓慢。在 CVPR 2017 上,斯坦福大学提出的 PointNet 是第一种直接处理无序点云数据的深度神经网络。团队通过在每个点训练一个 MLP,把每个点投到一个 1024 维空间上,并采用了 Max Pooling 层做为主要的对称函数,比较好地解决了顺序问题。随后斯坦福大学在 NIPS 2017 上的 Pointnet++,对 PointNet 做出了更多改进。

在本次 Workshop 中,学者们还探讨了数据捕获,实时和离线重建,自动和交互式注释,质量控制和基准测量指标等目前的热点问题。

组织者之一的 Daniela Rus 是 MIT 的 CSAIL 主任,在 2016 年的 CCF-GAIR 大会上,Daniela Rus 教授曾经作为大会嘉宾受邀做主题演讲。她曾表示,虽然深度学习已经取得了非常显著的成果,但研究者还面临深度学习的三个挑战。首先是深度学习需要大量的训练数据;其次是深度学习并非永远不会犯错;再者是它的可解释性。

不论是机器感知,或是以三维点云为代表的技术,在利用深度学习探索的过程中,必然还是会遇到同样的问题。而在深度学习与机器人学的结合中,人与机器人的相互协作与共同进步,也将成为每一年 ICRA 孜孜不倦的目标。「人类和机器人各有擅长的事情,我相信未来会是一个人与机器共同协作,互补对方短板的社会,我们也需要努力去创造这种社会。」

雷锋网

CVPR 2018 中国论文分享会之 「GAN 与合成」

雷锋网 AI 科技评论按:2018 年 5 月 11 日,由微软亚洲研究院、清华大学媒体与网络技术教育部-微软重点实验室、商汤科技、中国计算机学会计算机视觉专委会、中国图象图形学会视觉大数据专委会合作举办了 CVPR 2018 中国论文宣讲研讨会,数十位 CVPR 2018 收录论文的作者在此论坛中分享其最新研究和技术观点。研讨会共包含了 6 个 session(共 22 个报告),1 个论坛,以及 20 多个 posters,AI 科技评论将为您详细报道。

雷锋网注:全球计算机视觉顶级会议 IEEE CVPR 2018 将于 6 月 18 – 22 日在美国盐湖城召开。据 CVPR 官网显示,今年大会有超过 3300 篇论文投稿,其中录取 979 篇;相比去年 783 篇论文,今年增长了近 25%。

更多报道请参看雷锋网更多报道:

Session 1:GAN and Synthesis

Session 2: Deep Learning

Session 3: Person Re-Identification and Tracking

Session 4: Vision and Language

Session 5: Segmentation, Detection

Session 6: Human, Face and 3D Shape

本文为 Session 1,报告论文主要以使用 GAN 方法和生成方法为主,共有四场论文报道。

在第一个报告中,北京大学刘家瑛副教授介绍他们团队使用 Attentive GAN 从单幅图像中去除雨滴的工作;第二个报告由来自中科院自动化所的胡一博博士介绍他们通过 CAPG-GAN 算法实现人脸旋转任意角度的工作;随后是由北京大学连宙辉副教授介绍了他们提出的交互式纹理变换的通用框架;最后由来自微软亚洲研究院的傅建龙研究员介绍了他们提出的基于instance-level的 DA-GAN(深度注意生成对抗网络),该网络在图像到图像翻译中能够实现更精细的生成结果。

1、如何从单张图片中去除雨滴?

论文:Attentive Generative Adversarial Network for Raindrop Removal from A Single Image

报告人:刘家瑛,北京大学

论文下载地址:https://arxiv.org/abs/1711.10098

去除图片中的雨痕,一般有四种情景,如下图所示,分别为:落下的雨滴(Rain Drop 1),落在镜头上的雨滴(Rain Drop 2),雨线(Rain Streak),以及雨雾(Mist)。

刘家瑛团队在去年 CVPR 中曾发表过一篇关于去除雨痕的文章《Deep Joint Rain Detection and Removal From A Singal Image》,在这篇论文中他们主要研究如何去除图片中的雨线。但在无人驾驶或相关研究中,更具挑战性的一个任务是如何去除落在玻璃或者镜头上的雨滴。刘家瑛在本次分享会上介绍了她所指导的北大大二学生 Rui Qian 所做的该方面工作,也即去除单张图片上随机散布的雨滴(Rain Drop 2)。

在此之前仅有的一篇类似研究,是由 David Eigen 等人发表在 ICCV 2013 的一篇文章,在这篇文章中由于作者只使用了 3 层卷积网络,所以只能处理很少的 case,同时能够处理的图片上的雨滴也非常小,基本上可以视为灰尘。

在刘家瑛所分享的这篇文章中,其思路仍然延续去年文章的方法,即生成数据集,然后用生成的数据集来训练模型。

1、数据集生成

数据集的生成方式是,本文作者 Rui Qian 使用单反+一个 3 毫米厚的玻璃片(或者直接把水喷在镜头上)收集了 1000 多对(有雨和无雨)在不同户外环境、不同背景、不同尺寸和形状的雨滴图像,以模拟真实环境中雨滴的多样性。使用一个数学公式来表达带有雨滴图像的话,如图中公式所示:

2、模型框架

在该论文中作者选择使用 GAN 的方法,整个模型的框架如下图所示:

共包含三个部分,分别为:Generator(Attention-recurrent Network),Context Autoencoder 和 Dicriminator Network。

第一部分主要的工作是做检测(即检测雨滴在图片中的位置),然后生成 attention map。首先使用 Residual block 从雨滴图片中抽取 feature,渐进式地使用 Convs 来检测 attentive 的区域。训练数据集中图片都是成对的,所以可以很容易计算出相应的 mask(M),由此可以构建出 Loss 函数;由于不同的 attention 网络刻画 feature 的准确度不同,所以给每个 loss 一个指数的衰减。相应的 loss 函数如下:

随后将 attention map 和雨滴图像一起送给 autoencoder,生成去雨滴图像。autoencoder 的结构用了 16 个 Conv 和 Relu。为了避免网络本身造成的 blur,作者使用了 skip connection,因为在低级层次这会带来很好的效果。在构建 loss 方面,除了多尺度的考虑,还加上了一个高精度的 loss,即:Multi-scale loss + perceptual loss。

最后一个是 discriminator。这个步骤有两种方式,一种是只使用 autoencoder 生成的无雨滴图像,进行判断;另一种则是加入 attention map 作为指导。如图所示:

3、实验结果

作者使用两个数据集(PSNR 和 SSIM)进行了验证,其中 PSNR 是他们自己收集的数据集。作者选用 Eigen 等人 2013 年发表的工作以及 Pix2Pix 的方法作为对比。结果如下:

其中 A 表示只有 Autoencoder,A+D 表示 Autoencoder+Discriminator,A+AD 表示 Autoencoder + Attention Discriminator,AA + AD 表示 Attention Autoencoder + Attention Discriminator。

实际去雨效果如图所示:


2、如何旋转图像中的人脸?

论文:Pose-Guided Photorealistic Face Rotation

报告人:胡一博,中科院自动化所

论文下载地址:暂无

对于如何将图像中的人脸旋转任意角度,例如从一张正脸图像生成侧脸图像,或反之从侧脸恢复其正脸图像,无论是学术界还是工业界都给予了很大的关注,因为这可以用于人脸编辑、姿态变换、数据增强、表示学习等当中。

视角旋转有 x、y、z 三个方向,目前研究中主要考虑左右偏转。如果从单张图像进行旋转的话,这其实是一种「无中生有」、一对多的病态问题。因此目前人脸旋转存在真实性不高、分辨率较低、身份信息保持较差的问题。

胡一博在介绍他们的工作之前,简单介绍了人脸旋转研究的历程,如下图所示:


1、启发

从 2015 年的 CVPR 论文开始,人脸识别逐渐引起广泛的关注。目前人脸识别主要分成两个部分,一个是人脸正面化,一个是水平方向的任意角度旋转。之所以将人脸正面化作为一个单独的部分,是因为人脸正面化的过程中可以引入「对称性」的强约束,从而降低一对多问题的困难。

其中的 TP-GAN 是人脸正面化中一个里程碑式的工作,这种方法出现之后使得人脸转正能够达到以假乱真的效果。TP-GAN 之所以能够这么有效是因为,它通过一条全局通路和 4 个局部通路(分别对应人的五官),最终让局部和全局的通路进行融合。但是这种方法有两点不足:1)它受限于最慢通路的约束存在一定的性能瓶颈;2)只适用于人脸正面化的问题中,而不能应用于更广泛的人脸旋转中。针对这两个问题,胡一博认为我们需要提升其网咯性能以及实现任意姿态的人脸旋转。

另一方面,全局优先拓扑感知理论指出生物视觉系统对全局拓扑结构非常敏感。人脸五官包含着很丰富的全局拓扑信息,因此以人脸全局拓扑信息作为一个条件指导整个人脸的过程。

2、模型

基于上面两方面的启发,胡一博等人提出了 CAPG-GAN 的方法,该方法能够进行二维空间中任意角度的人脸旋转。选择人脸全局拓扑信息作为条件有两个优势,首先它可以提供人脸的结构信息促使生成的图像更加的逼真,其次在判别器中它可以作为先验知识,可以提高判别器对于人脸结构的判别性,进而促使生成器生成分辨率较高的图像。CAPG-GAN 的结构图如下:

输入包括原始图像 I^a,原始图像的五个关键点 P^a,以及目标姿态的关键点 P^b,通过生成器 G 输出目标图像。判别器采用的是 couple-agent 的结构,本质上就是两个独立的判别器,agent 1 判别旋转角度的真实性,agent 2 判断的是拓扑结构的真实性。

针对两个 agent,对应的损失函数如下图所示:

3、实验对比

胡一博团队针对人脸正面化以及旋转任意角度的任务在多种数据集上进行实验验证,其结果表现优异。效果如下:

相关文章:

[1]中科院自动化所赫然:大规模人脸图像编辑理论、方法及应用

[2] 中科院自动化所智能感知与计算研究中心11篇论文被CVPR接收 | CVPR 2018


3、如何给字体添加多样风格?

论文:A Common Framework for Interactive Texture Transfer

报告人:连宙辉,北京大学

论文下载地址:http://www.icst.pku.edu.cn/F/zLian/papers/CVPR18-Men.pdf

研究来源于需求。连宙辉副教授来自北京大学计算机科学技术研究所(该研究所是由)的字形计算技术实验室。传统上,字形设计需要人工对每个字进行手写或者设计,然后输入系统才能够被利用。但是由于中文有大量的汉字,且很多汉字的结构非常复杂,所以这项工作艰难且费时。一种解决方法就是,设计一个特定风格的字,然后通过变换迁移到别的字上。

那么是否可以将任意纹理的图像风格通过变换迁移到一个目标汉字上呢?更广义一点,是否可以将任意纹理风格迁移到任意图像上呢?基于这些思考,连宙辉团队在其论文中提出一种交互式的纹理迁移通用框架。

如上图所示,该通用框架能够:(a)将涂鸦转换为艺术品,(b)编辑装饰模式,(c)生成特殊效果的文本,(d)控制文本中的效果分布图像,(e)交换纹理。

1、方法

纹理迁移的问题其实就是,如何输入原始纹理图像、原始图像的语义图以及目标图像的语义图后,从而输出目标纹理图像。

其中较为关键的问题是,如何将两张语义图进行匹配。例如上图中,对于边缘由于有丰富的语义信息指引,因此可以较为容易地进行匹配;但是对于内部大面积的区域(d、e),同一个点有很多地方可以去匹配,作者选择利用从边缘传过来的信息(纹理一致和结构引导)可以实现很好的匹配效果。

整个流程如上图所示,共分为三大部分 7 个步骤。需要说明的是,基于交互式结构的图像合成是由语义映射和结构信息来指导的,其中用户可以对语义通道进行注释来控制目标图像中风格化纹理的空间分布。在结构提取环节,通过内容感知显着性检测自动提取结构通道,并将其从源样式图像传递到目标。具体而言,传播步骤通过在源图像和目标图像之间的关键轮廓点的配准来获取内部结构对应关系。结合语义和结构信息进行动态指导,可以使转换过程产生具有内容意识和低级细节的高质量纹理。

2、实验结果

3、结论

本文提出了一个结构指导的交互式纹理传递的一般框架。该方法可以自动将样式从给定的源图像迁移到用户控制的目标图像,同时保持结构的完整性和视觉丰富性。更具体地说,作者引入了通过自动提取显著区域和传播结构信息获得的结构指导。通过将结构通道与语义和纹理一致性结合起来,可以实现指导纹理转移。实验结果表明,所提出的框架广泛适用于许多纹理转移挑战。尽管目前大多数模型都倾向于使用基于神经的方法进行样式转换,但本文的结果表明,简单的传统的纹理合成框架仍然可以表现出优异的性能。

4、如何进行更细致的图像到图像翻译?

论文:DA-GAN: Instance-level Image Translation by Deep Attention Generative Adversarial Network

报告人:傅建龙,微软亚洲研究院

论文下载地址:https://arxiv.org/abs/1802.06454

本文是另外一篇将 Attention 机制与 GAN 相结合,以生成更高质量目标的工作。

1、启发

傅建龙在报告中认为,CV 中的图像到图像的翻译任务(Image2Image Translation)是一个比较广泛的概念,即根据 source domain 中的图像生成 target domain 中的对偶图像,同时在翻译过程中约束生成的样本和 source 中的样本有尽量一致的分布。事实上有许多基本的 CV 问题都属于图像到图像的翻译问题,例如白天到黑夜的图像转换、黑白照到彩色照的转换、低像素到高像素的转换、去除水印、图像分割、2D 到 3D、梵高风格化、木炭风格、缺失部分复原等。

更高级的如下图这些:

在这所有的任务中,根据是否是一对一的学习对,将这些任务划分为 pair data 任务和 unpair data 任务。(如下图所示)

其中前者在训练数据集中具有一对一的数据对,x 作为输入,y 用来计算输出的 loss 函数,目前效果最好的网络是 Pix2Pix 网络;而后者则是两个独立的数据集之间的训练,模型应该能够从两个集合中自动地发现集合之间的关联,从而来学习出映射函数,其中目前效果最好的网络是 CycleGAN 模型。

但是以上这些都是基于图像级的特征学习,若想完成更高质量要求的生成任务(例如要求改变图像区域的风格)则较为困难。于是有人便提出了基于 instance-level 的图像到图像的翻译方法——PatchGAN:

如傅建龙所说,做研究就是要找到前人所没有填补的空缺。通过画出上图,可以很明白地看出,对应的也应该有基于 unpaired instance-level 的图像到图像的翻译方法。这正是本文的工作,即能否自动地发现 source domain 和 target domain 的 instance 之间的关联,同时这是一种 unpair 的方法,不需要任何人类标注。

2、模型

既然是基于 instance-level 的方法,那么首先就要问:什么是 instance?

事实上,这是一个比较宽泛的概念,在不同的任务中可以有不同的定义。例如在生成鸟的任务中,鸟本身是一个 instance,鸟的嘴、腿、翅膀、尾巴等也都可以是 instance;如果想要建立更细致的生成模型,也可更加细致地去定义更多种 instance。

介绍了以上的思路后,模型本身的构建就很清晰了。如上图所示,首先通过一个深度 Attention 编码器(DAE)来自动地学习各个 instance,然后将不同的部分分别投射到一个「隐空间」,最后通过 GAN 网络进行生成。

3、实验结果

定量的比较可以看出,DA-GAN 相比于其他方法有较大的提升。

在定性比较方面,有下面三种:

Text to Image

object configuration

pose morphing

从左到右分别为 source bird、target bird 和 DA-GAN 生成的鸟。一个疑问是:鸟腿缺失是因为什么呢?

4、结论

本文提出了一种无监督的图像翻译的方法,即通过更细致化的 instance-level 的 GAN 生成来获得更高质量的翻译图像。通过实验结果可以很明显地看出 DA-GAN 相较于其他网络在性能上的提升。但是需要注意的是,在生成结果中仍然存在一些失败的地方(例如前面提到的「缺失的鸟腿」),这可能由于模型中的 instance 是通过弱监督 Attention 机制学到的,这与完全监督下的学习还是有一定的差距。如何弥补,或许要静等傅建龙团队接下来的工作了。

相关文章:

[1] DA-GAN技术:计算机帮你创造奇妙“新物种”

雷锋网

ICRA 2018 十二大奖项名单及评选标准全汇总

雷锋网 AI 科技评论按:国际机器人与自动化会议(ICRA)是 IEEE 机器人与自动化学会(IEEE Robotics and Automation Society)的旗舰会议,同时也是机器人研究者展示他们工作的重要论坛。ICRA 2018 于近期在布里斯班举行,雷锋网 AI 科技评论也于澳大利亚现场带来更多精彩报道。

奖项自然是每个学术会议的重头戏,ICRA 也不例外。以下这一份列表详细列出了 ICRA 即将颁布的十二个奖项,雷锋网整理如下:

1、IEEE ICRA 最佳会议论文奖(始于 1993 年)

简介:选出年度 IEEE 机器人与自动化国际会议(ICRA)中最杰出的论文

评审依据:技术得分,原创性,领域内潜在影响力,书面表达清晰以及口头或其他演示的质量。

2、IEEE ICRA 最佳学生论文奖(始于 1988 年)

简介:选出年度 IEEE 机器人与自动化国际会议(ICRA)上主要由学生撰写的最优秀论文。

评审依据:技术得分,原创性,业界潜在影响力,应用的实际意义,书面陈述清晰以及会议口头陈述的质量。

3、IEEE ICRA 自动化最佳论文奖(始于 1997 年)

简介:为鼓励自动化领域的研究,IEEE 机器人与自动化国际会议(ICRA)每年都会选出系统上最佳自动化论文,这些论文的系统可长时间的在可预测环境中自主运行,或明确构建此类环境。

评审依据:要考虑的因素包括与自动化相关的原创性、深度、质量、展示效果和重要性,强调效率、生产力、质量和可靠性,侧重于在可预测的环境中长时间自主运行的系统或明确构建这样的环境。

4、IEEE ICRA 认知机器人最佳论文奖(由 KROS 赞助)(始于 2010 年)

简介:该奖项旨在促进跨领域技术系统认知和工业、家庭应用和日常生活中认知机器人的发展。每年在 IEEE 国际机器人与自动化大会(ICRA)会议上将颁发相应奖项。

评审依据:需要考虑的因素包括认知行为和认知能力的重要性,跨学科工作、创造力、技术水平、原创性,工业和家庭应用中的潜在影响以及演示的清晰度。

5、IEEE ICRA 人机交互最佳论文奖(HRI)(由 ABB 赞助)(始于 2015 年)

简介:该奖项旨在选出在 IEEE 机器人与自动化国际会议(ICRA)上发表的关于人机交互的最佳论文。

评审依据:评审委员会由 ICRA 奖委员会任命,委员会成员具有人机交互领域的专业知识。论文是根据技术水平、原创性、相关性以及人机交互领域的潜在影响力,书面表达的清晰度以及会议演示文稿的质量来判断的。

6、IEEE ICRA 机器人操作最佳论文奖(由 Ben Wegbreit 赞助)(始于 2000 年)

简介:在机器人与自动化国际会议(ICRA)上发表的有关机器人操作的最佳论文。

评审依据:技术水平,原创性,对该领域的潜在影响,书面文件的清晰度以及口头或其他演示的质量。

7、IEEE ICRA 医疗机器人最佳论文奖(由 Intuitive Surgical 赞助)(始于 2009 年)

简介:该奖项将表彰医疗机器人、计算机介入辅助设备和系统领域的杰出工作。相关主题可能包括新设备和机器人系统的设计和开发,以及与导航和成像技术的一体化以提高临床效能。

评审依据:评选委员会将由具有医疗机器人领域专业知识的会员组成的委员会任命。

8、IEEE ICRA 多机器人系统最佳论文奖(由亚马逊机器人公司赞助)(始于 2017 年)

简介:该奖项选出在 IEEE 机器人与自动化国际会议(ICRA)上发表的关于多机器人系统的最佳论文。

评审依据:ICRA 奖委员会将委任一个评选委员会,委员会成员具有多机器人系统领域的专业知识。论文评判依据是技术水平,原创性,相关性以及对人机交互领域的潜在影响,书面文件的清晰度以及会议演示文稿的质量。

9、IEEE ICRA 服务型机器人最佳论文奖(由 KUKA 赞助)(2008 年)

简介:为促进机器人科学研究与服务机器人应用领域(专业和国内)的产业研发进展。

评审依据:需要考虑的因素有:新应用的重要性,技术水平,原创性,对该领域的潜在影响以及演示的清晰度。

10、IEEE ICRA 机器人视觉最佳论文奖(由 Ben Wegbreit 赞助)(始于 2000 年)

简介:选出在机器人和自动化国际会议上发表的与视觉相关的最佳论文。

判断依据:技术水平,原创性,对该领域的潜在影响,书面文件的清晰度以及口头或其他演示的质量。

11、IEEE ICRA 无人机优秀论文奖(由 DST 集团赞助)(始于 2018 年)

简介:该奖项旨在表彰在 ICRA 上发表的关于无人机的最佳论文。

评审依据:评审委员会由 ICRA 奖项委员会任命,其成员在无人机领域拥有相应的专业知识。论文是根据技术水平,原创性,相关性以及对人机交互领域的潜在影响,书面文件的清晰度以及会议演示文稿的质量来评审的。

12、IEEE ICRA 2018 年度最具影响力论文奖,从1988/1998/2008年的论文中评选。

以下为奖项 final lists:

雷锋网将在会议期间密切关注奖项动态,敬请期待。

雷锋网

谷歌 Open Images Challenge 2018 大赛正在进行中,为你送上更多信息

雷锋网 AI 研习社按,上个月月底,Google 在官方 Blog 上发文称将开放 Open Images V4 数据库,并基于这一数据集举办 ECCV 2018 公开图像挑战赛(Open Images Challenge 2018)。详细信息参见雷锋网此前报道:谷歌发布 Open Images V4数据集,190万张图片开启公开图像挑战赛

接下来,雷锋网 AI 研习社将为大家带来关于该比赛的更多信息。

时间节点:

2018.04.30 发布带有边界框注释的对象检测分赛训练集

2018.05.10 发布带有注释的视觉关系检测分赛训练集

2018.05.31 发布评估度量规范

2018.07.01 在 Kaggle 上发布测试集(10 万张图片)

2018.09.01 提交截止日期

比赛分为两个赛道:

  • 对象类别检测:预测出所有实例(500 个类别)的精确边框

  • 视觉关系检测:预测出物体间的特殊关系,例如「正在弹吉他的女人」

Google 希望这个大型训练数据集将助力研究出更绝妙的模型——可以做到比目前顶尖模型的效果还要好。此外,数据集中包含 500 个对象类,将能够更精确地评估不同检测器在哪种情况下工作得最好。另外,这个数据集中包含许多带有注释的对象,我们可以用来进行视觉关系检测,这是一个热度日益增长的话题,社群也在逐渐壮大。

训练集地址如下:https://storage.googleapis.com/openimages/web/challenge_visualizer/index.html

两个分赛道的详细介绍如下:

对象类别检测:

对象类别检测分赛覆盖了 Open Images V4 中带有边界框注释的 600 个类中的 500 类。主办方移除了一些范围很广的类(例如「衣服」)和一些罕见类(例如「裁纸器」)。

评价指标是 mAP。正图像级标签指示图像中存在特定的对象类,负图像级标签则指示图像中不存在某些类。在评价时排除了其他未被标注的类。对于图像中的每一个正图像级标签,我们已经详尽地注释了图像中对象类的每个实例。这使我们能够准确地测量召回率。大家可以点击链接看到关于该数据集的详细信息。

图一:对象类别检测分赛训练集

视觉关系检测:

视觉关系检测分赛需要检测两个对象的关系。这包括了人与物体的关系 (例如:「弹吉他的女人」,「拿着麦克风的男人」) 和物体与物体间的关系 (例如:「桌子上的啤酒」、「车内的狗」。每种关系连接了不同物体。此外,这一比赛还考虑了物体属性 (例如:「手提包由皮革制成」,「凳子是木制的」)。

在标注中,关系与对象形成一个三词短句。(例如「桌上的啤酒,beer on table」)。属性实际上也与前者类似,例如:「桌子是木制的,table is wooden」。标注是基于图像级标签和 Open Images V4 的边界框标注。我们最初选择了 467 个短句,并在 Open Images V4 训练集上进行了标注。视觉关系检测分赛的训练集最终由 Open Images V4 标注训练集中的 329 个至少有一个实例的短句组成,包含 62 个不同的对象类。

图 2:训练集的关系、类和属性

更多信息,参见 https://storage.googleapis.com/openimages/web/challenge.html

雷锋网

百度两论文被 ACL 2018 录用,阅读理解新进展一览 | ACL 2018

雷锋网 AI 科技评论按:国际自然语言处理顶会 ACL 还有数月即将召开。本届会议共计有 1551 篇论文进入审查阶段(1021 长篇,530 篇短篇),录用率约为 20%。

雷锋网 AI 科技评论也一直密切关注国内外企业研究院的论文录用动态。其中,百度自然语言处理部共有两篇论文被 ACL 2018 录用,此外 DuReader 数据集及相应改进评测方法论文被 ACL 2018 阅读理解研讨会 workshop 录用。

百度自然语言处理部此前因为在微软 MARCO 阅读理解数据集上获得第一,在雷锋网学术频道「AI 科技评论」旗下数据库项目「AI 影响因子」中有不俗表现;而凭借 ACL 2018 的论文录用情况,在本月众多国内企业研究院中有巨大进步。

被 ACL 2018 收录的两篇论文从某种程度上代表了百度最新的阅读理解技术进展:多文档校验模型 V-NET 及多文档校验的强化学习训练机制。两项工作均为围绕实际应用需求,在搜索引擎多文档场景下的阅读理解技术创新工作。

据了解,在搜索引擎返回多文档的场景下,由于引入了更多的和问题相关的文档,存在更多的歧义,最终可能导致阅读理解模型定位错误的答案。而人在这种情况下通常会采取「找到多个候选->校验相关答案->选出最终答案」的策略来找出置信度最高的答案。基于这种观察,百度自然语言处理团队提出了两种不同角度探索多文档校验的方案以提升阅读理解技术的最终效果。其中第一个工作将多文档校验的模块联合建模在统一的神经网络框架下(V-NET)也是第一个端到端建模的多文档阅读理解模型,而第二个工作则利用强化学习的方法对串行的多文档阅读理解模块进行联合训练。

在论文《Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification》中,百度提出了一种新的多文档校验的深度神经网络建模方法 V-NET,通过注意力机制使不同文档产生的答案之间能够产生交换信息互相印证,从而预测出更好的答案。V-NET 是一个端到端的神经网络模型,如下图所示,该模型同时使用三个不同的模块分别从三个方面来预测答案:答案的边界预测模块、答案内容预测模块和多文档的答案验证模块。在 MARCO 和 DuReader 数据集上,V-NET 模型效果显著优于其他系统。

V-NET 模型的整体架构

在论文《Joint Training of Candidate Extraction and Answer Selection in Reading Comprehension》中,百度利用强化学习的方法对串行的多文档阅读理解模块进行联合训练。在传统的问答系统中,「抽取候选答案->综合选出答案」串行的模式非常常见,但通常将这两个步骤看成独立的模块分开处理。其实,这两个模块之间的联系非常密切,同时也由于数据集没有提供各文档的可能的候选答案,因此百度将各文档中的候选答案视为隐变量,用神经网络分别建模对应的两种行为(action),并在多文档校验模块中引入相关性矩阵建模候选答案之间的关联关系。在此基础上采用强化学习的方法联合训练,以提升最终答案与真实答案的匹配程度,也就是直接根据评价指标同步训练两阶段的模型。

此外,针对多文档阅读理解任务,百度自然语言处理团队在 ACL2018 阅读理解研讨会 (Workshop on Machine Reading for Question Answering) 上进一步发表了 DuReader 数据集以及相应改进的评测方法的论文:

  • DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

本文介绍了一个面向真实应用的、开放域的、大规模中文阅读理解数据集 DuReader。相比于以前的阅读理解数据集,DuReader 有以下三方面的有点:(1)数据来源:DuReader 的问题和文档都来自于百度搜索和百度知道;答案都是人工构建的。(2)问题类型:DuReader 提供了更加丰富的问题类型标注,特别是是非类问题和观点类问题,这为研究人员提供了更多的研究机会。(3)规模:DuReader 包含了 20 万问题,42 万答案和 100 万文档;它是迄今为止最大的中文阅读理解数据集。实验表明,人类在该数据集的表现远高于目前最好的基线系统。这为研究人员留下了很大的研究和改进空间。为了帮助整个研究社区做出这些改进,我们已经将 DuReader 和相关的基线系统开源。同时,我们也组织了在线比赛以鼓励研究人员探索更多的模型。自比赛发布以来,最好系统的性能已经大幅提高。

  • Adaptations of ROUGE and BLEU to Better Evaluate Machine Reading Comprehension Task

当前的阅读理解自动评价指标(如 ROUGE 和 BLEU)的计算通常都基于候选答案和参考答案的词汇覆盖率。但是这种计算方法对于特定类型的问题不一定非常适用,如是非和实体需求类型的问题。因此,我们提出了一种改进的评价指标,通过对相关的 N 元覆盖进行一定加权使得改进后指标与人工判断结果更加接近。实验结果显示改进后的指标显著有效,我们认为该指标更加适合评价真实场景下的阅读理解系统。

雷锋网

商汤科技入选 CVPR 2018 的 44 篇论文,都研究什么?

雷锋网 AI 科技评论按:本文由商汤科技独家投稿,AI 科技评论获其授权转载。

全球计算机视觉顶级会议 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即 IEEE 国际计算机视觉与模式识别会议) 即将于六月在美国盐湖城召开,本届大会总共录取来自全球论文 979 篇。CVPR 作为计算机视觉领域级别最高的研究会议,其录取论文代表了计算机视觉领域在 2018 年最新和最高的科技水平以及未来发展潮流。

CVPR 官网显示,今年有超过 3300 篇的大会论文投稿,录取的 979 篇论文,比去年增长了 25%(2017 年论文录取 783 篇)。这些录取的最新科研成果,涵盖了计算机视觉领域各项前沿工作。CVPR 2018 包括 21 场 tutorials、48 场 workshops,并且有来自全球各地超过 115 家企业将入驻今年 CVPR 工业展览。

商汤科技、香港中文大学-商汤科技联合实验室以及其他商汤科技联合实验室共有 44 篇论文被本届 CVPR 大会接收,其中包括口头报告论文 3 篇(录取率仅 62/3300 = 1.88%),亮点报告论文 13 篇,论文录取数量相较于 CVPR 2017 的 23 篇又有大幅度提高,成绩斐然。全球领先的科研成果展示了商汤科技智能视觉领域强大的人才储备、科研底蕴和创新能力。

商汤科技 CVPR 2018 录取论文在以下领域实现突破:大规模分布式训练、人体理解与行人再识别、自动驾驶场景理解与分析、底层视觉算法、视觉与自然语言的综合理解、物体检测、识别与跟踪、深度生成式模型、视频与行为理解等。这些新颖的计算机视觉算法不仅有着丰富的应用场景,使得更多的智能视觉算法能应用于日常生活之中,还为后续研究提供了可贵的经验和方向。

大规模分布式训练

代表性论文:Oral – 深度增强学习自动网络结构设计

本文致力于解决深度神经网络结构的自动设计问题,与一般人工的结构设计不同,本文提出了一种高效算法,通过强化学习来自动设计最优的网络结构。传统的神经网络结构设计通常需要大量专家的知识和试错成本,并且甚至还需要一些灵感,每年仅有几个重要的网络结构被设计出来,因此,人工设计网络结构是一个难度极高的工作。近期的网络结构自动搜索的算法通常需要巨大的计算资源(数百块 GPU,近一个月的训练),并且生产的模型可迁移性不强,难以做到真正的实用化。

本文提出了一种基于强化学习的网络结构自动设计算法,通过「网络块」的设计思想,让搜索空间大大降低,并且使设计的网络具有非常强的可迁移性。同时,本文使用「提前停止」和分布式架构来加速整个网络结构学习过程,达到了百倍于之前算法的速度(32 块 GPU,3 天的训练)。实验表面,其生成的网络结构在 CIFAR 数据集上达到并且超越人类设计的网络结构的精度,并且其结构可以迁移到大规模的 ImageNet 数据上,取得良好的性能。

人体理解与行人再识别

代表性论文:Oral – 基于组一致性约束条件的行人再识别

行人再识别是新一代智能安防系统中的重要组件之一。给定一幅行人图像,行人再识别要求跨不同摄像头,对同一行人基于其视觉外观进行准确匹配和识别。现有深度学习算法通常使用过于局部的约束损失函数进行行人特征学习,因而不能精确的学习行人图像之间的视觉相似度。本文针对该问题提出一种新颖的组一致性约束条件,并通过连续条件随机场对该约束条件进行建模。将该连续条件随机场加入深度神经网络,从而实现该深度模型的端对端训练。实验结果表明该一致性条件在训练与测试中均能够大幅度提升最终视觉特征的鲁棒性与判别性,实现高精度的行人再识别。

自动驾驶场景理解

代表性论文:Spotlight – 极低延迟的视频语义分割

本文关注面向自动驾驶场景的视频实时语义分割问题,虽然近年来图像语义分割取得很大的进展,但是对于面向视频的语义分割任务仍然存在挑战。其主要困难在于:1)视频需要更多的计算量;2)许多实时的应用如自动驾驶需要实现低延迟性。

本文致力于解决这两方面的难题,同时尽可能的保证分割的精度。在视频分割问题中,邻近帧之间的语义标签的变化相对较小,因此不必每帧都使用一个完整的网络来提取语义标签。基于这种认识,本文提出了一个如图所示的语义分割的框架,把整个网络分为高层部分和低层部分,低层部分消耗较少的计算;本文的框架只在关键帧运行完整的网络来提取高层特征进行语义分割,而在其他帧则从上一个关键帧传播特征来进行语义分割。相应的框架由两部分组件构成:1)关键帧调度模块,以及 2)特征跨帧传播模块,其都基于低层特征进行相应的计算,因此相对完整的网络计算量小很多。同时为了减少延迟,在检测到当前帧为关键帧时,使用了一个低延迟的调度策略。本文提出的方法在两个数据集上均验证了我们方法的有效性,取得了较低延迟并保持精确的分割精度。

Spotlight – 基于单视图的立体匹配

面向自动驾驶场景的单目深度估计方法,通常利用一个视角的图像数据作为输入,直接预测图片中每个像素对应的深度值,这就导致了现有方法通常需要大量的带深度信息标注的数据。近期的研究提出了在训练过程引入了几何约束的改进,但是在测试过程仍然缺乏显式的几何约束。本文提出把单目深度估计分解为两个子过程,即视图合成过程以及双目匹配过程,通过这样分解之后,使得所提出的模型既可以在测试阶段显式地引入几何约束又可以极大的减少对带深度标注数据的依赖。实验证明,本文提出的方法仅利用少量的深度数据就可以在 KITTI 数据集上超过之前的所有方法,并首次仅靠单目图像数据就超过了双目匹配算法 Block Matching,进一步推动了单目深度估计技术的落地。

底层视觉算法

代表性论文:Spotlight – 基于深度增强学习的普适图像复原

本文提出了一种新颖的深度学习图像复原方法。大部分已有复原算法仅面向解决某类特定的图像复原问题,因而对各种不同类别的降质图像缺乏普适性。针对该问题,本文提出的 RL-Restore 算法先训练一系列针对不同降质图像的小型神经网络;同时设计一种评价图像复原质量的奖励函数,使用增强学习算法学习如何将这些小型神经网络进行合理组合。针对不同的降质图像,获得不同的复原算法组件的组合,实现对复杂降质图像的有效复原。

视觉与自然语言的综合理解

代表性论文:Spotlight – 面向视觉问题回答的对偶视觉问题生成

针对开放式视觉问答(Open-ended VisualQuestion Answering)中训练数据过少的问题,本文提出了一种「可逆问答网络」。该模型可以通过重组不同模块,使一组模型同时完成「问题回答」和「问题生成」两种互逆的两个任务。该模型通过充分利用视觉问答和视觉问题生成的对偶性,提升模型对于有限训练数据的利用效率。该方法采用两个任务同时训练同一模型,使网络能够对问题和图片之间的联系有更深的理解,从而在问题生成和问题回答两个任务上都取得了更好的精度和效果。

人脸识别与人脸分析

代表性论文:Poster – 超越人脸识别的人脸解离特征空间学习

本文同时解决人脸识别、属性分类和任意人脸生成这三个问题。大多数人脸特征学习的工作通常能够让网络学习得到一个具有极强身份或属性区分度的特征,以应用于人脸识别、属性分类等任务;或者学习一个具有全局信息的特征,以应用于人脸生成和编辑等应用。为什么不能学习到一个完备的特征空间并使得语义信息高度区分化,进而实现一个特征能够完成所有的任务呢?本文提出了一个信息蒸馏与驱逐网络的框架,只使用身份 ID 作为监督信息,学习到了一个同时具有极强信息区分度且包含全局信息的稠密凸特征空间。在 LFW、LFWA 和 CelebA 等数据集上的实验表明,人脸在该特征空间下的投影具有极高的身份、属性识别能力,且该空间内的任意一个点均具有较强的身份和属性语义,并可生成具有该语义的人脸图像。

Poster – 基于边缘感知的人脸关键点定位

本文提出一种基于边缘感知的人脸关键点检测算法,将人脸边缘线所描述的结构信息融入到关键点检测中,极大地提升了算法在大侧脸、夸张表情、遮挡、模糊等极端情况下的检测精度。文章主要解决了两大问题:1. 人脸关键点在各个数据集间歧义性,定义不一致问题。文章通过捕捉对于人脸更通用的边缘线信息,将其作为人脸到关键点的中间媒介,使得不同数据集即使存在关键点差异,仍然可以相互辅助训练。2. 复杂情况下关键点检测精度问题。本文首先通过消息传递结合对抗学习得到高精度的边缘线检测结果,再将边缘线信息多语义层次地融合到关键点检测中,使得算法在复杂情况下的鲁棒性大幅提升。

另外,文章还提出了一个新的人脸关键点检测数据集 Wider Facial Landmarksin-the-wild (WFLW),包含 10,000 张带有 98 点和 6 属性标注的人脸数据,旨在帮助学界更有效的评估关键点算法在各种条件下的鲁棒性。

物体检测、识别与跟踪

代表性论文:Spotlight – 基于孪生候选区域网络的高性能视觉跟踪


本文提出一种基于端到端深度学习框架的高性能单目标跟踪算法。现有的单目标跟踪算法通常较难兼顾性能和速度,仅能在某一指标占优。本文利用孪生(Siamese)网络和区域候选网络(Region Proposal Network),构建了一种高速高精度的单目标跟踪算法。两个子网络通过卷积操作升维,统一在一个端到端的深度神经网络框架里。训练过程中,算法可以利用拥有密集标注(VID)和稀疏标注(YoutubeBB)的数据集进行训练。相较于现有方法,稀疏标注的数据集大大增加了训练数据来源,从而可以对深度神经网络进行更充分的训练;区域候选网络中的坐标回归可以让跟踪框更加准确,并且省去多尺度测试耗费的时间。实验方面,本文提出的跟踪算法能在 160 帧速度下达到 VOT2015 和 VOT2016 数据集上目前的先进水平。

Poster – 快速的端到端多角度文字检测与识别方法


本文首次提出了端到端的多角度文字检测与识别方法。文字检测与识别 (OCR) 是计算机视觉领域的经典问题,过去的做法将文字检测与识别看做两个问题分别解决。本文提出了一个端到端的方法同时进行文字检测与识别,验证了这两个任务相辅相成,共同监督网络训练可以让这两个任务取得更好的精度。由于两个任务共用一个特征提取的网络,速度也是分别进行文字检测与识别的两倍左右。同时本文也提出了 RoIRotate 操作,其扩展了 RoIAlign,可以应用于旋转物体的检测。本文在多个数据集上超过了现有方法。

深度生成式模型

代表性论文:Poster – 基于特征装饰的实时零点风格迁移

目前针对图像风格化的实时应用,大多需要针对特定的风格图来设计特定的风格迁移模型;如果需要实现对于任意风格图的迁移,计算复杂度和迁移效果大多不能得到保证。本文提出一种实时零点图像风格迁移模型,实现对于任意风格图像的多尺度高质量风格化迁移。该方法基于名为风格装饰器的特征迁移网络结构,可以容易地嵌入图像重构网络中来达到多尺度的风格特征迁移。该网络结构使得生成的风格化图像充分表达风格图中的具体纹理模式,同时保留原图中的语义信息。实验表明,该网络对各种类别的风格图都有较高的风格化能力,并且可以有效扩展到多风格迁移和视频风格迁移等应用中。



附录:

商汤科技及商汤科技联合实验室共有 44 篇论文被接收,具体如下:

1.3D Human Pose Estimation in the Wild by Adversarial Learning

Wei Yang, Wanli Ouyang, Xiaolong Wang, Xiaogang Wang

2. Attention-aware Compositional Network for Person Re-Identification

Jing Xu, Rui Zhao, Feng Zhu, Huaming Wang, Wanli Ouyang

3. Avatar-Net: Multi-scale Zero-shot Style Transfer by Feature Decoration

Lu Sheng*, Jing Shao*, Ziyi Lin and Xiaogang Wang (*equal contribution)

4. Beyond Holistic Object Recognition:Enriching Image Understanding with Part States

Cewu Lu, Hao Su, Yonglu Li, Yongyi Lu, Li Yi, Chi-Keung Tang, Leonidas J. Guibas

5. Collaborative and Adversarial Network for Unsupervised domain adaptation

Weichen Zhang, Wanli Ouyang, Dong Xu, Wen Li

6. Context Encoding for Semantic Segmentation

Hang Zhang, Kristin Dana, Jianping Shi, Zhongyue Zhang, Xiaogang Wang, Ambrish Tyagi, Amit Agrawal

7. Deep Cocktail Networks: Multi-source Unsupervised Domain Adaptation with Category Shift

Ruijia  Xu, Ziliang  Chen, Wangmeng  Zuo, Junjie  Yan, Liang  Lin

8. Deep Group-shuffling Random Walk for Person Re-identification

Yantao Shen, Hongsheng Li, Tong Xiao, Shuai Yi, Dapeng Chen, Xiaogang Wang

9. Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks

Jiawei Zhang, Jinshan Pan, Jimmy Ren, Yibing Song, Linchao Bao, Rynson Lau, Ming-Hsuan Yang

10. Eliminating Background-bias for Robust Person Re-identification

Maoqing Tian, Hongsheng Li, Shuai Yi, Xuesen Zhang, Jianping Shi, Junjie Yan, Xiaogang Wang

11. End-to-End Deep Kronecker-Product Matching for Person Re-identification

Yantao Shen, Tong Xiao, Hongsheng Li, Shuai Yi, Xiaogang Wang

12. End-to-end Flow Correlation Tracking with Spatial-temporal Attention

Zheng Zhu, Wei Wu, Wei Zou, Junjie Yan

13. Exploring Disentangled Feature Representation Beyond Face Identification

Yu Liu*, Fangyin Wei*, Jing Shao*, LuSheng, Junjie Yan and Xiaogang Wang (*equal contribution)

14. Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines

Shuqin Xie, Zitian Chen, Chao Xu, Cewu Lu

15. FOTS: Fast Oriented Text Spotting with a Unified Network

Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, Junjie Yan

16. GeoNet: Unsupervised Learning of Dense Depth, Motion Field and Camera Pose

Zhichao Yin, Jianping Shi

17. Group Consistent Similarity Learning via Deep CRFs for Person Re-Identification

Dapeng Chen, Dan Xu, Hongsheng Li, Nicu Sebe, Xiaogang Wang

18. High Performance Visual Tracking with Siamese Region Proposal Network

Bo Li, Wei Wu, Zheng Zhu, Junjie Yan

19. ID-GAN: Learning a Symmetry Three-Player GAN for Identity-Preserving Face Synthesis

Yujun Shen, Ping Luo, Junjie Yan, Xiaogang Wang, Xiaoou Tang

20. Learning a Toolchain for Image Restoration

Ke Yu, Chao Dong, Liang Lin, Chen Change Loy

21. Learning Dual Convolutional Neural Networks for Low-Level Vision

Jinshan Pan, Sifei Liu, Deqing Sun, Jiawei Zhang, Yang Liu, Jimmy Ren, Zechao Li, Jinhui Tang, Huchuan Lu, Yu-Wing Tai, Ming-Hsuan Yang

22. Learning Globally Optimized Object Detector via Policy Gradient

Yongming Rao, Dahua Lin, Jiwen Lu

23. LiteFlowNet: A Lightweight Convolutional Neural Network for Optical Flow Estimation

Tak Wai Hui, Xiaoou Tang, Chen Change Loy

24. Low-Latency Video Semantic Segmentation

Yule Li, Jianping Shi, Dahua Lin

25. Look at Boundary: A Boundary-Aware Face Alignment Algorithm

Wayne Wu, Chen Qian, Shuo Yang, Wang Quan

26. LSTM Pose Machines

Yue Luo, Jimmy Ren, Zhouxia Wang, Wenxiu Sun, Jinshan Pan, Jianbo Liu, Jiahao Pang, Liang  Lin

27. Mask-guided Contrastive Attention Model for Person Re-Identification

Chunfeng Song, Yan Huang, Wanli Ouyang, Liang Wang

28. Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition

Shuyang Sun, Zhanghui Kuang, Lu Sheng, Wanli Ouyang, Wei Zhang

29. Optimizing Video Object Detection via a Scale-Time Lattice

Kai Chen, Jiaqi Wang, Shuo Yang, Xingcheng Zhang, Yuanjun Xiong, Chen Change Loy, Dahua Lin

30. PAD-Net: Multi-Tasks Guided Prediciton-and-Distillation Network for Simultaneous Depth Estimation and Scene Parsing

Dan Xu, Wanli Ouyang, Xiaogang Wang, Nicu Sebe

31. Path Aggregation Network for Instance Segmentation

Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, Jiaya Jia

32. Pose-Robust Face Recognition via Deep Residual Equivariant Mapping

Kaidi Cao, Yu Rong, Cheng Li, Xiaoou Tang, Chen Change Loy

33. Practical Block-wise Neural Network Architecture Generation

Zhao Zhong, Junjie Yan, Wei Wu, Jing Shao, Cheng-lin Liu

34. Recognize Actions by Disentangling Components of Dynamics

Yue Zhao, Yuanjun Xiong, Dahua Lin

35. Recovering Realistic Texture in Image Super-resolution by Spatial Feature Modulation

Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy

36. Single View Stereo Matching

Yue Luo, Jimmy Ren, Mude Lin, Jiahao Pang,Wenxiu Sun, Hongsheng Li, Liang Lin

37. Temporal Hallucinating for Action Recognition with Few Still Images

Lei Zhou, Yali Wang, Yu Qiao

38. Towards Human-Machine Cooperation: Evolving Active Learning with Self-supervised Process for Object Detection

Keze Wang, Xiaopeng Yan, Lei Zhang, Liang Lin

39. Unifying Identification and Context Learning for Person Recognition

Qingqiu Huang, Yu Xiong, Dahua Lin

40. Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination

Zhirong Wu, Yuanjun Xiong, Stella Yu, Dahua Lin

41. Video Person Re-identification with Competitive Snippet-similarity Aggregation and Co-attentive Snippet Embedding

Dapeng Chen, Hongsheng Li, Tong Xiao, Shuai Yi, Xiaogang Wang

42. Visual Question Generation as Dual Task of Visual Question Answering

Yikang Li, Nan Duan, Bolei Zhou, Xiao Chu, Wanli Ouyang, Xiaogang Wang

43. Weakly Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer

Hao-Shu Fang, Guansong Lu, Xiaolin Fang, Jianwen Xie, Yu-Wing Tai, Cewu Lu

44. Zoom and Learn: Generalizing Deep Stereo Matching to Novel Domains

Jiahao Pang, Wenxiu Sun, Chengxi Yang, Jimmy Ren, Ruichao Xiao, Jin Zeng, Liang Lin

雷锋网

张钹院士:可解释、可理解是人工智能研究的主攻方向 | CCF-GAIR 2018

2017 年末清华大学举办的「从阿尔法 Go 到通用人工智能:脑科学与人工智能」学术研讨会上,中国科学院院士、清华大学类脑计算研究中心学术委员会主任张钹院士在其现场演讲《AI 和神经科学》中的一番「关于教授们应在 AI 热潮中看到什么」的观点至今令雷锋网 AI 科技评论印象深刻。

「现在的人工智能有点儿像《红楼梦》,不同的人有不同的看法。企业家看到商机,科学家(霍金)看到危险,工程师看到应用前景,老百姓看到 AlphaGo 打败李世石。而教授应当看到的是——去做人工智能的基础问题。我们不能去看那个商机,商机应该让企业家去看。」

身为老一辈人工智能科学家,且至今仍活跃在中国 AI 前线的张钹院士在自己热爱的人工智能领域耕耘了一辈子。

由中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办的 CCF-GAIR 2018 大会计划于 6 月 29 日至 7 月 1 日在深圳举行。届时,张钹院士也将受邀作为主论坛嘉宾出席,同时他将在会上做主旨大会报告。

张钹院士,CCF 会士,2014 CCF 终身成就奖获得者,中国科学院院士,计算机专家,清华大学类脑计算研究中心学术委员会主任。从事人工智能理论、人工神经网络、遗传算法、分形和小波等理论研究,以及把上述理论应用于模式识别、知识工程、智能机器人与智能控制等领域的应用技术研究,200 多篇学术论文和 5 篇(或章节)专著(中英文版)。

多栖专业科研专家,终以人工智能作为致学目标

张钹院士生于福建省福清县的一个书生门第,他的祖父是清朝贡生,为了改善家乡的教育环境,在当地创办过小学。1953 年,张钹院士参加高考并以数理化三门满分的成绩进入清华大学攻读电机与电气制造专业,三年后的 1956 年,张钹院士又响应国家国防需求进入飞行器控制专业学习,并顺利作为第一批优秀毕业生毕业。

1978 年,张钹院士从原自动控制系的学科方向转向计算机研究,在此基础上,他与其他老师决定把人工智能与智能控制作为该教研组新的专业方向(这也使得清华大学较早的开展了人工智能教学与科研)。

从那时起,张钹院士为中国人工智能事业的白手起家做出了一步又一步扎实的努力,同时也收获了来自国内外的赞誉。

  • 1980—1982 年,张钹院士作为访问学者受国家派遣前往美国伊利诺伊大学香槟分校访问学习,回国之后,带领组建了智能机器人实验室,并在此基础上筹备建立了智能技术与系统国家重点实验室;

  • 1987‐1994 年任国家"863"高技术计划智能机器人主题专家组专家;

  • 1994 年当选为俄罗斯自然科学院外籍院士;

  • 1995 年当选为中国科学院院士;

  • 2011 年,被授予德国汉堡大学自然科学名誉博士,这是该校迄今为止在信息与数学领域授予的第五位学者,也是唯一的一位亚洲学者;

  • 2015 年 1 月 31 日,张钹院士获得 2014 CCF 终身成就奖;

  • 2016 年获微软研究院杰出合作贡献奖

  •  ……

过去 30 多年的研究中,张钹院士提出问题求解的商空间理论,以及在商空间数学模型的基础上提出了多粒度空间之间相互转换、综合与推理的方法。他还提出问题分层求解的计算复杂性分析以及降低复杂性的方法,该理论与相应的新算法已经应用于不同领域,如统计启发式搜索、路径规划的拓扑降维法、基于关系矩阵的时间规划以及多粒度信息融合等,这些新算法均能显著降低计算复杂性。张钹院士的该理论现已成为粒计算的主要分支之一。在人工神经网络上,他提出基于规划和基于点集覆盖的学习算法。这些自顶向下的结构学习方法比传统的自底向上的搜索方法在许多方面具有显著优越性。

功成名就,依然耕耘在人工智能前沿

在人工智能学术方面,张钹院士发表了 200 多篇学术论文和两部专著。如《问题求解理论及应用(Theory and Applications of Problem solving)》。

张钹院士为中国人工智能奉献了自己的科研生涯,同时,张钹院士还在自动化、飞行器控制、计算机和人工智能的多个跨专业领域均建树极高,这也表现出张钹院士高产的科研实力。

身为中国人工智能事业的元老级人物的张钹院士,即使已经年过八旬,但他依旧活跃在中国人工智能事业的前线,身体力行地传递着其对人工智能的研究精神。

更为重要的一点,张钹院士历经了中国人工智能的从无到有,从弱到强,因而他也最能清楚地针对中国人工智能近年来的不同发展状态,发表适合的看法和提出正确的建议。雷锋网 AI 科技评论总结了张钹院士近年来关于人工智能的部分演讲内容,不难看出张钹院士对人工智能行业的独到观点,以及其对中国人工智能发展的高度关注。

在将人工智能推上神坛的 AlphaGo 热潮下,张钹院士就一针见血地指出,「人工智能距离『超越』人还差得远,当前人工智能的最大问题是不可解释和不可理解,而目前人工智能的主攻方向是往可解释可理解的方面走的。」

张钹院士也曾在多个公开场合的演讲中表示,研究人工智能的教授不能像商人那样只在 AI 中看到商机,更应透过 AI 大热的表象看到人工智能产业仍旧处于需要研究人员攻克基础难题的发展阶段。

不止如此,张钹院士对国内的人工智能产业也相当上心,每隔几个月,甚至一个月多次就会受邀或主动进行人工智能相关演讲,为国内人工智能产业出谋划策。

早在 2005 年时,张钹院士就呼吁中国计算机开启智能化之路,中国应掌握智能化技术以提高企业核心竞争力。2016 年,CNCC 2016 暨人工智能 60 周年上,张钹院士详细做了「后深度学习时代的人工智能」的演讲。同年,张钹院士在中国智谷大会上指出,AI 就是要让计算机实现感知、决策、行动等三种类人类行为。当然,张钹院士并没有止步于演讲层面,而于 2017 年四月选择在业界发挥自己的光和热,在人工智能创业公司深醒科技担任首席科学家。

对产业与学术都有深入了解的张钹院士,又会在 CCF-GAIR 2018 上带来怎样的精彩演讲?目前 CCF-GAIR 2018 组委会已经上线了原价 3999,现价 999 的早鸟票,心动不如行动,购票地址及大会详情可访问 https://gair.leiphone.com/gair/2018yr了解。

雷锋网

阿里巴巴:基于交替方向法的循环神经网络多比特量化 | ICLR 2018

雷锋网 AI 科技评论按:4 月 30 日至 5 月 3 日,被学术界广泛认可为「深度学习的顶级会议」的 ICLR 2018 在加拿大温哥华举办。阿里巴巴与北大合作的一篇论文《Alternating Multi-bit Quantization for Recurrent Neural Networks  》被 ICLR 2018 录用为 poster,该工作为第一作者许晨博士生在阿里巴巴搜索算法组实习期间完成。主要思想为,通过量化参数到二值{-1,+1} 上来解决基于 RNN 的模型由于高维嵌入或多层循环导致的参数量过大的问题。

阿里巴巴搜索算法组上月在 AI科技评论的数据库项目「AI影响因子」中表现活跃。阿里巴巴搜索算法组在 4 月 15 日于美国举办了首个「搜索和计算技术开放日」,分享全球化背景下阿里互联网技术前沿应用经验和未来发展观点。搜索事业部产品负责人思函从业务的角度,尤其是技术和商业结合的角度,对技术在整个阿里巴巴商业环境中所能起到的作用进行了阐述和分享。本次 ICLR 2018 有论文被收录,进一步展现了阿里巴巴搜索算法组的学术实力。



ICLR 2018 阿里巴巴参会成员

席奈与 poster 合影 

介绍

循环神经网络 (RNN) 在语言模型、机器翻译、语音识别、生成图像标题等很多应用上都取得了非常好的效果。然而,这些模型常常是建立在高维的嵌入 (embedding) 或者多层的循环单元中,包含了大量的参数,使得无法在资源有限的移动端部署。此外,RNN 的计算依赖于与当前的隐状态,只能被顺序执行,因此在执行推断时会造成比较大的延时。在拥有大规模并发请求的服务器端,比如语音识别或者机器翻译等应用,为了满足线上苛刻的响应时间要求,需要部署大量的机器。在这项工作中,我们考虑通过量化参数到二值 {-1,+1} 上来解决上述问题。考虑将模型的权重量化成 1 比特,相对于全精度,直接带来 32 倍的内存压缩。而对 1 比特参数的矩阵乘法,如果不考虑具体实现,相对于全精度乘法,理论上也会带来 32 倍的加速。然而,如果把模型的权重和激活都量化成 1 比特,在循环神经网络中,会带来很大的精度损失。因此,很自然的折中方案就是采用多比特量化(如图 1 所示)。

Figure 1 多比特量化乘法示意

现有的多比特量化方法

1) 均匀 (Uniform) 量化采用下列的 k 比特量化方案:

这样基于规则的量化方法非常容易实现, 但是对于非均匀数据的量化效果很差,而非均匀分布数据在深度神经网络却更为常见。

2) 均衡 (Balanced) 量化通过数据预处理来解决均匀量化的弊端。该方法首先产生 2^k 个间隔,每个间隔大致包含等量的数据。然后该方法将每个间隔的中心线性映射到对应的量化编码中。尽管看起来更有效,但是该方法还是基于规则,而这种规则并不能保证对所有的数据分布都起效果。

 3) 贪婪法 (Greedy) 近似通过去解下面的带离散约束的分解问题来实现量化:

对于 k=1, 上述问题存在闭式解。贪婪近似通过逐步量化余量 (residue) 并将其推广到 k 比特 (k>1) 的情形:

每个子步都有最优解

贪婪法非常高效,尽管不能得到一个高精度的解,但是将量化问题建模成一个优化问题的形式还是非常具有启发性的。

4) 改进版 (Refined) 贪婪近似进一步拓展贪婪法以降低量化误差。在上述第 j 步最小化问题中,该方法加上额外一步最小二乘来修正系数

在原文量化卷积神经网络权重的实验中,修正版贪婪法被证实比原始的贪婪法更有效。然而,正如我们下面要讲的,修正版的贪婪法在量化精度方面仍然不能令人满意。

除了上述通用的多比特量化方案以外,还有文章还提出了三值量化,与 1 比特的二值量化相比,三值量化多了可行状态 0。三值量化通过解如下问题


来实现编码。然而,原文并未提出一种高效的解法,相反,作者通过经验,将小于 0.7 / n||w||_1 的元素设成 0,并对剩余元素采用如上所述的二值量化。三值量化其实本质上等价于此处的 2 比特量化,唯一不同的地方在于多了一个 a_1=a_2 的约束。当二值编码被固定以后,最优系数 a_1 (或者 a_2 ) 类似地可以通过最小二乘得到。

基于交替方向法的多比特量化方案

接下来将介绍本文提出的量化方法,同样我们也是通过解上述的优化问题来实现量化。为了简单起见,首先考虑 k = 2 的情形,如果 a_1 和 a_2 已知且满足 a_1 ≥ a_2,那么可行编码即被限制为以下四种情况 v ={- a_1 – a_2, – a_1 + a_2, a_1 – a_2, a_1 + a_2}。对于 w 中的任意元素 w, 其编码都是通过最小二乘来确定。我们相应地可以将整个坐标轴分成四份,落在某个区间上的 w 分别对应其中一个量化编码。由最近邻条件可得区间的边界即为量化编码的中间值,也就是 – a_1、0 以及 a_1。下图给出一个示意。

Figure 2 当实系数固定时,最优 2 比特编码示意

对于任意 k 比特量化问题,假设已知 {a_i} ^k _{i=1},我们可以类似地将整个坐标轴分成 2^k 个区间,其边界同样通过相邻可行编码的中点来划分。如果直接将待量化的实数 w 与所有区间边界进行比较以确定对应编码,总共需要 2^k 次,当 k 比较大,这种操作非常不经济。事实上,我们可以利用可行编码全集 v 中元素单调递增的性质,将 v 均匀分成两个子集: v_{1 : m/2}和 v_{m/2+1 : m}, 其中 m 表示 v 的长度。如果 w<(v_{m/2} + v_{m/2+1})/2, 其可行编码即被限制在子集 v_{1 : m/2} 上。相反如果 w ≥ (v_{m/2} + v_{m/2+1})/2, 其可行编码即被限制在子集 v_{m/2+1 : m}上。通过递归地将可行编码子集均匀划分,我们只需要 k 次比较就可以得到最优编码。该过程可以看成是一个二叉搜索树,我们在下图中给出了一个 k=2 时的简单示意。一旦得到量化编码,即可将其一一映射到对应的二值向量{b_i} ^k _{i=1}。

Figure 3 二叉搜索树将次比较降为 k 次比较

基于上面的发现,我们重新来考虑上一节中介绍的改进版贪婪近似。经过最小二乘修正实系数之后,二值编码 {b_i} ^k _{i=1} 不再是最优,而该方法却仍将其固定。为了进一步改进,交替最小化实系数和二值编码变成了一个很自然的选择。一旦用二叉搜索树得到最优的 {b_i} ^k _{i=1} , 可以将其固定,并采用最小二乘更新 {a_i} ^k _{i=1}。在真实实验中,以贪婪法得到的解作初始化,我们发现只需要两步交替迭代就足以得到高精度的解。

实验结果

我们在语言模型上进行量化实验,分别测试了 LSTM 和 GRU 两种架构。因为

Table 1 不同方法近似 PTB 数据集上训练好的 LSTM 的权重。其中 FP 表示全精度

Table 2 不同方法近似 PTB 数据集上训练好的 GRU 的权重

实验是去预测下一个单词,其效果采用单字复杂度来衡量 (perplexity per word, 简写成 PPW)。为了检验所有的算法量化精度,我们首先对训练好的全精度权重做近似 (没有量化激活或者重训练),结果如表 1 和表 2 所示。注意到均匀量化和均衡量化是基于规则的,其目标并不在于最小化误差,因此这两种方法会得到差很多的结果。我们还在其他数据集上重复了上述实验,对于两种循环神经网络结构 LSTM 和 GRU,结果都与此处相似。

Table 3 PTB 数据集上多比特量化 LSTM 和 GRU 的测试 PPW,其中均匀量化和均衡量化为现有论文中的结果,改进版贪婪法为我们自己实现的结果。

Table 4 WikiText-2 数据集上多比特量化 LSTM 和 GRU 的测试 PPW。

Table 5 Text-8 数据集上多比特量化 LSTM 和 GRU 的测试 PPW。

我们还进行了权重和激活同时量化的实验,结果如表 3、4 和 5 所示。从中可以看到,本文提出的交替方向法明显好过现有其他量化方法。即使与表现最好的改进版贪婪法相比,交替方向法实现类似的精度大概可以少用一个比特。

我们还在 CPU 中实现了矩阵向量的二值乘法,其结果如表 6 所示。

Table 6 CPU 中二值乘法与全精度乘法的时间比较

总结

在这个工作中,我们主要考虑神经网络的多比特量化压缩加速问题。我们发现,如果编码的实系数固定,那么离散的二值编码 {-1,+1} 可以通过二叉搜索树高效的求解。基于这个发现,我们相应地提出交替方向法。我们将该方法用于量化语言模型中的 LSTM 和 GRU 结构,与全精度模型相比,通过 2 比特量化,我们可以减少约 16 倍的内存消耗,以及在 CPU 上实现约 6 倍的真实推断加速,而只产生少量的准确率损失。通过 3 比特量化,该方法在准确率上可以实现几乎没有损失甚至超过原始模型,并减少约 10.5 倍的内存消耗,以及在 CPU 上实现约 3 倍的真实推断加速。这些结果都远远优于现有量化方法的结果。

雷锋网