标签归档:ICLR

NVIDIA论文:用GAN生成高清图像 | ICLR 2018

虽然ICLR 2018将公开评审改成了评审人和作者相互不知道双方信息的双盲评审,但论文的投稿者仍然可以通过其他公开渠道对其论文进行推广。尤其对于大公司研究院来说,早早公开自己的论文能比盲审有额外加成,例如雷锋网就注意到,就在上周五ICLR论文投递截止后不久,NVIDIA在Blog上就发布了一篇通过生成对抗网络(GAN)产生独特面孔的新方法,这篇论文正是NVIDIA投递到ICLR的论文之一。

论文题目:Progressive Growing of GANs for Improved Quality, Stability, and Variation

摘要:在本文中,我们描述了生成对抗网络(GAN)的新的训练方法。 关键思想是通过渐进的方式训练生成器和鉴别器:从低分辨率开始,我们逐步添加新的层次,从而在训练进展中增加更精细的细节。 这既加快了训练速度,又能增加训练的稳定性,从而使我们能够制作出前所未有的质量的图像,例如用1024×1024像素的CelebA图像(雷锋网注:CelebA是香港中文大学发布的20多万的名人人脸数据库,被很多算法用来训练)制作更高精度的数据集。 我们还提出了一种增加生成图像变化的简单方法,并且在无监督的CIFAR10中实现了创记录的8.80的初始分数。 此外,我们描述了几个实现细节,这些细节对于抑制生成器和鉴别器之间的不健康竞争非常重要。 最后,我们提出了一个新的衡量GAN结果的指标,无论是在图像质量和变化方面。 作为额外的贡献,我们构建了更高质量的CelebA数据集。

在论文中NVIDIA称,在从高维数据分布生成新样本的方法在图像领域中被广泛使用,主流算法包括自回归模型(Autoregressive Models)、变化自动编码器(VAE)和生成对抗网络(GAN)。这几种算法都有着各自的优势和劣势:自回归模型(如PixelCNN)能产生清晰的图像,但评估速度较慢,而且由于其直接对像素的条件分布直接建模,因此没有潜在的表征,这也进一步限制了其适用性;VAE易于训练,但生成的结果往往是模糊的;GAN可以生成清晰的图像,但在分辨率上只能有小范围的变化,而且质量一直不稳定;混合方法可以结合上述三种方法的优势,但在图像质量上仍落后于GAN。

NVIDIA的主要改进方法是使用改进的Wasserstein Loss(关于用Wasserstein GAN生成图片请参阅雷锋网之前文章:《令人拍案叫绝的Wasserstein GAN》),同时也尝试最小二乘法损失。由于生成高分辨率图像之所以困难是因为这一过程中会极大放大梯度问题,而且由于内存的限制,大图片还要分割成若干块分别计算,从而影响了训练的稳定性。而NVIDIA的做法是从简单的低分辨率图像开始,在训练时逐步添加更高分辨率细节的层次,从而大大加快了训练和提高高分辨率的稳定性。

让我们来看一下图片生成的效果。

下图是训练开始2个多小时候,8X8的效果。

经过11个多小时训练后,生成图片分辨率提升为32×32,已经能看出面孔的轮廓了;

训练16天后的1024×1024分辨率图片:

NVIDIA还专门准备了一部关于这篇论文的说明短片,更加直观说明了这一算法的具体效果:


据雷锋网了解,这一方法也可以用来生成非常精细的物体和风景照片、以及图像软件中的变化效果等。

雷锋网

学界 | ICLR 2018截稿:取消公开评审改为双盲引人关注

雷锋网消息,International Conference on Learning Representations 2018 (国际学习表征会议 ,ICLR 2018) 的论文投递已于美国东部时间10月27日下午5:00结束。根据大会Program Chair、Deepmind研究科学家Oriol Vinyals在Twitter上发布的统计数据,各位论文作者再度发挥了学术界“不到Deadline不罢休”的传统,在论文投稿截止前24小时,大会收到的论文数量从490篇翻番至1003篇,其中最后一小时有将近200篇论文投递。

ICLR是一年一度的深度学习顶级会议,2013 年由深度学习大神 Yann LeCun 及 Yoshua Bengio 牵头创办,明年是第六届。尽管举办的时间不长,但已经被学术研究者广泛认可。本届大会仍由 Yann LeCun 及 Yoshua Bengio继续担任大会主席。

在2013年举办的第一届ICLR大会官网上, Yann LeCun 和 Yoshua Bengio曾这样介绍举办这一会议的初衷: 

“尽管表征学习对于机器学习及包括视觉、语音、音频及 NLP 领域起着至关重要的作用,目前还缺乏一个场所,能够让学者们交流分享该领域所关心的话题。ICLR 的宗旨正是填补这一鸿沟。”

除了专注于表征学习以及两位学术大牛的光环外,大会引人注目的一点是前几届大会推行的 Open Review 评审制度。与诸多学术会议通行的单盲、双盲评审制度不同,所有提交的论文都将会公开姓名等信息,并且接受所有同行的评价及提问(open peer review),任何学者都可或匿名或实名地评价论文。而在公开评审结束后,论文作者也能够对论文进行调整和修改。这一主张“公开透明”的制度能消除论文评审中的诸多问题,但也有可能引来争议及不必要的舆论讨论,比如雷锋网之前介绍的 ICLR 2017的最佳论文,就在 Open Review 上引来了公开讨论(参见雷锋网文章:《ICLR 17最具争议的最佳论文,实至名归还是盛名过誉?》)。

但与前几届不同的是,本届大会论文采取的是双盲评审,即作者和评审者互不知道对方信息,对于论文的评论也将会以匿名形式显示。此外,虽然ICLR采取双盲评审,但大会不会禁止作者在arXiv或任何其他公共论坛上发表文章,大会将只进行一轮论文评审,初步审查结束后,作者和审稿人之间仍将有一个讨论期,作者可以继续对论文进行。

与历届 ICLR 一样,本届的所有投递论文及评审内容都将完整地保存在ICLR 的官方投稿入口 OpenReview.net 上。OpenReview.net 是马萨诸塞大学阿默斯特学院 Andrew McCallum 为 ICLR 2013 牵头创办的一个公开评审系统,目前它也接受其它学术会议的论文投递。

为便于大家更好阅读论文,Twitter网友Andrew Brock‏ 已经编写了一个可下载ICLR 2018所有投稿论文的脚本,Github地址在此。 

ICLR大会定于2018年4月30日到5月3日在加拿大温哥华Convention Center举行,这也是不久前结束的IROS 2017举办的会议场馆。届时雷锋网将会继续为读者带来现场报道。

雷锋网

Twitter 又一力作:对Few-shot learning中的优化进行建模 | ICLR 2017

雷锋网AI科技评论按:ICLR 2017 于4月24-26日在法国土伦举行,雷锋网AI科技评论的编辑们在法国带来一线报道。在这个深度学习会议举办之际,雷锋网也将围绕会议议程及论文介绍展开一系列的覆盖和专题报道,敬请期待。

据雷锋网了解,这是一篇来自Twitter的研究员给ICLR 2017投递的论文。目前论文已经被录用而且还获得了ICLR委员会的高度评价。想知道研究员在论文中又提出了什么新的研究思路?或者ICLR委员会对这项工作的评价如何?那就赶紧跟随小编来看看吧。

以下内容是AI科技评论根据论文内容进行的部分编译。

论文摘要

虽然当下深度神经网络算法在大规模数据集上取得了巨大的成功,但是这类算法在少量学习(Few-shot Learning)任务中的表现却往往不如人意,这是因为在少量学习任务中要求分类器能够在经过每个类别的少量样本训练之后快速具备泛化能力。

现在大家通常都认为,要使得一个基于梯度下降优化算法的分类器能具备较好的表现就需要在大量训练样本上进行多次训练迭代。而在本次的论文工作中,来自Twitter的研究员推出了基于LSTM的元学习模型(LSTM-based meta-learner model),该模型可以学习到精确的优化算法来训练另外一个用于少量学习任务的神经网络分类器。

  • 图1:该图展示了元学习(Meta-learning)过程的一个示例。图片分为两大部分,上半部分的表示元训练集(Meta-train set),记为Dmeta-train,其中包含有若干个灰色矩形框分别表示每一条样本,而矩形框内部又被虚线划分为左右两个部分,虚线左侧的包含有训练集Dtrain,而虚线的右侧包含有测试集Dtest。该示例所展示的是一个5种分类别的类任务,其中在每一条样本的训练集上都包含有5个类别的样例(每一类分别被标注为1-5),然后测试集中则包含有2个样例用于评估模型。图片下半部分的表示元测试集(Meta-train set),记为Dmeta-test,它的定义方式与Dmeta-train完全一致,但是Dmeta-test包含有Dmeta-train中没有覆盖到的类别。此外,上图中虽然没有展示出来,但是数据集中还划分了元验证集(Meta-validation set)用于确定模型中的超参数。

基于LSTM的元学习模型的参数化特性允许它针对在需要一定量更新的特定场景下学习合适的参数更新方式,同时也可以学习到那些分类器网络参数的通用初始化方式,从而加速分类器的训练和拟合过程。

并且在论文中,研究员们还证明了这种元学习模式与用于少量学习的深度度量学习技术相比具有很强的竞争力。

ICLR 委员会的定稿意见

该论文的作者提出了一种元学习模式来解决少量学习的问题。论文中提到的算法非常有趣并且实验结果也非常具有说服力。这是篇非常适合时宜的文章,它将在社区中受到广泛的关注。三位评审员都给出了一致的意见——接受,而且其中两位还显得特别热情。论文的作者也回复了其他一些对该论文持负面态度的审稿人所提出的疑问。不过该论文还需要继续完善以便把其中的更多细节阐述清楚。总的来说,这篇论文已经被接受了。

匿名审稿人3

这项工作提出了一个基于LSTM的元学习框架,该框架可以学习到优化算法以用于训练其它的学习算法(这里是神经网络算法)。本文通篇都写得很好,并且主要材料的介绍也写得很清楚。本文的核心:绘制Robbins Monroe更新规则和LSTM更新规则之间的并行,并利用它来满足少量学习的两个主要目标这一点非常有趣。

匿名审稿人2

这篇论文通过将随机梯度下降法(SGD)的更新规则解释为具有可训练参数的门控循环模型(Gated recurrent model),从而提出了一种全新的元学习方法。这个创意对于迁移学习(Transfer learning)的研究具有重要意义。论文的结构清晰,但是在某些细节方面的描述还可以提升。

via Optimization as a Model for Few-Shot Learning

雷锋网

FAIR 实验室的 ICLR 2017:理解对话是一场漫长的博弈

雷锋网按:在 ICLR 2017 举办之际,FAIR实验室撰文展示了团队在理解对话所做的研究和贡献,雷锋网进行编译,未经许可不得转载。

建立一个有效的对话系统

在 Facebook 的人工智能研究中心(FAIR),理解对话一直被认为是一个宏大和长期的 AI 研究目标。

一个真正有效的对话系统应该是一项辅助性的技术,这个系统很可能包括一个可以用自然语言与人类交流的与聊天机器人类似的系统。它可以帮助人们更好地理解周围的世界,更有效地和周围的人进行交流,消除沟通上的障碍。随着数字化内容的不断增多,研发此类技术将会变得越来越重要。

尝试着去理解和解释对话并不是一个新奇的想法。早在 20 年前,就有人尝试着去建造一台人类可以与之交流并且可以教它学习如何去对话的机器。它们结合了技术和工程,但是使用预编程的脚本响应就显得视野十分狭窄了。

多亏了近年来机器学习技术的发展,机器学习技术让 AI 智能体与人类用自然语言交流成为了一个更加现实的想法,得到了学术界和工业界的广泛关注。

然而,现在的大多数对话系统仍然是脚本化的:它们的自然语言理解的模块可能是基于机器学习的,但是它们的应答内容通常是由 if/then 语句或规则引擎来决定的。尽管相对于数十年前已经取得了进步,但是在很大程度上还是依据其巨大的文本数据库来创建它们的回答。

应对两端的挑战

与聊天机器人进行自然语言的对话仍然是一个挑战,这将需要一系列研究上的突破。 FAIR 选择从两个方向来解决这个问题:一般的 AI 和机器通过交流进行推理以及在当前的对话系统中进行研究。并从实际使用的聊天机器人中吸取经验。 FAIR 的优势在于跨越两种方法的所遇到的多样性。从长期的类似于 CommAI intiative 的基础性研究,到短期的类似于 FastText 和 Facebook M 的应用型尝试。通过这些努力,再加上团队在 AI 频谱、从深度学习 NLP 到增强学习、计算机视觉和工程方面的专业知识, FAIR 希望能够取得有意义的自然语言对话进展。

FAIR 在对话方面工作的重要一点是, 团队如何将它置于一个明确的基础之中:

  • 强大的基础: 针对于 NLP 问题的高级学习系统应该展现出比传统方法更好地性能。为了达到这个目的, FAIR 构建了 FastText, 用相对简单和容易理解的技巧来提供可达到的最佳效果。

  • 清晰的评估:评价一个对话系统是一个很困难的问题。FAIR 提出了一个更好的工具来做到这一点。在 ICLR 2017,Facebook 与学术界分享了它们的发现和工具。其中包括训练和评估推理模型的 CommAI environment,以及可用于测试端对端对话模型的 bAbI. 由于 FAIR 与 Facebook M 的合作,这些工具已经在实际生产条件下进行了测试。

  • 开放的研究:FAIR 通过会议或者预印的方式公开了其几乎所有的研究工作。同样地,代码和数据,包括上面提到的两个评估举措也作为开放源码发布了。正如在 FAIR 有多种多样的工作一样,AI 社区也有着极大的多样性。 FAIR 相信通过开放式的对话、共享工具和研究将会带来更大的进步。

通过共享知识来获取进步

在 ICLR, FAIR 提供了 7 篇论文来说明 FAIR 对话研究的质量、创新和广度。Lazaridou 等人 [6] 和 CommAI 团队 [1] 提出了使系统能够发现和使用基本沟通技巧的方向,是迈向强人工智能的第一步。Li 等人提出了 2 篇关于端对端对话系统如何使用现场对话来提升自身性能的论文 [2,5]。Bordes 等人将 bAbI 引入到面向目标场景中的端对端对话系统的测试。 FAIR 也展示了 Grave 等人和 Henaff 等人关于机器阅读的两篇论文,他们的研究实现了通过机器推动文本阅读的界限。

参考文献

[1] CommAI: Evaluating the First Steps Towards a Useful General AI, M Baroni, A Joulin, A Jabri, G Kruszewski, A Lazaridou, K Simonic, T Mikolov

[2] Dialogue Learning With Human-In-The-Loop, J Li, AH Miller, S Chopra, MA Ranzato, J Weston

[3] Improving Neural Language Models with a Continuous Cache, E Grave, A Joulin, N Usunier

[4] Learning End-to-end Goal-oriented Dialog, A Bordes, YL Boureau, J Weston

[5] Learning Through Dialogue Interactions, J Li, AH Miller, S Chopra, MA Ranzato, J Weston

[6] Multi-Agent Cooperation and the Emergence of (Natural) Language, A Lazaridou, A Peysakhovich, M Baroni

[7]「Tracking the World State with Recurrent Entity Networks,」M Henaff, J Weston, A Szlam, A Bordes, Y LeCun

via research.fb,雷锋网编译

雷锋网

除了LeCun和Bengio,还有哪些大牛也是ICLR的幕后英雄?| ICLR 2017

雷锋网AI科技评论按:4月24日-26日,ICLR 2017于法国土伦举办。雷锋网AI科技评论编辑赴前线带来该会议的一线报道。

雷锋网在此前报道中提及,ICLR 为 2013 年由深度学习大神 Yann LeCun 及 Yoshua Bengio 牵头创办,经过五年的发展,ICLR 也变得日益壮大。在开幕式上,LeCun 及高级评委会主席 Marc' Aurelio Ranzato 分别对本次会议做出贡献的组委会主要成员做出了感谢。

虽然 LeCun 在会议上调侃,“我什么也没有做,只是给钱而已。”不过这也从另一方面反映出,还有很多的组委会成员在为这个会议默默做出贡献。

那么除了大名鼎鼎的 LeCun 和 Bengio,还有哪些大牛也是组委会的一员?一起和雷锋网来看看吧。

高级评委会主席 

Marc' Aurelio Ranzato


Ranzato 此前在谷歌大脑团队工作,于 2013 年加入 FAIR 实验室担任研究科学家。师从 Yann LeCun ,从纽约大学博士毕业后,Ranzato 曾经在多伦多大学跟随 Geoffrey Hinton 进行博士后研究工作,擅长的领域为深度学习与计算机视觉。

组委会主席

Hugo Larochelle

毕业于蒙特利尔大学,师从 Yoshua Bengio。现任谷歌大脑研究科学家,任舒布卢大学助理教授,也曾经在在多伦多大学跟随 Geoffrey Hinton 进行博士后研究工作。主要的研究工作在于开发能够从数据中提取概念和抽象的算法。 Larochelle 对深层神经网络特别感兴趣,主要应用于大数据和人工智能问题,如计算机视觉和自然语言处理。

Oriol Vinyals

谷歌 DeepMind 研究科学家,此前在谷歌大脑团队工作,毕业于加州伯克利大学,主要的研究领域包括算法及理论、分布式系统及平行计算、机器智能、机器感知、机器翻译、NLP及语音识别领域。

值得一提的是,今年 ICLR 2017 的其中一篇最佳论文《Understanding deep learning requires rethinking generalization》就出自他手。

Tara N. Sainath

谷歌研究员,MIT 电子工程与计算机科学博士,专注嘈杂环境下的声学建模,此前曾经在 IBM T.J. Watson 中心的语音及语言算法团队从事五年的研究,目前主要研究领域包括机器智能、移动系统、NLP及语音识别。在 ICML 2013中,她带头组织了一个专业的深度学习session。

此外,OpenReview 团队的组织者又是何方大牛呢?根据官网提供的消息,三位都是来自马萨诸塞大学安姆斯特分校的老师,他们分别是Andrew McCallum、Melissa Bok 和 Michael Spector。

值得一提的是,Andrew McCallum 是计算机科学系教授,数据科学中心主任,他为 ICLR 2013年量身定作了 Open Review 的系统入口,有三篇论文被CiteSeer 评选为引用次数最高的论文。此外,McCallum 也是 ICML 2012的组委会主席。

以上只是 ICLR 2017 列举的其中一些重要人员,限于篇幅,Area Chair的详细资料没有全部列出,但毫无疑问,他们也对 ICLR 做出了巨大的贡献。

接下来的几天,雷锋网将持续为大家带来 ICLR 的前线报道及采访,敬请期待。

雷锋网

ICLR 论文评选吃力不讨好? arxiv-sanity上有新发现 |ICLR 2017

雷锋网AI科技评论按:ICLR 2017 将于4月24-26日在法国土伦举行,届时雷锋网AI科技评论的编辑们也将前往法国带来一线报道。在这个深度学习会议举办之前,雷锋网也将围绕会议议程及论文介绍展开一系列的覆盖和专题报道,敬请期待。

Andrej Karpathy 认为,把每篇论文在 ICLR 2017 (International Conference on Learning Representations,一个广受欢迎的深度学习会议)的入选情况(分为4种:口头报告 (oral) ,海报展示 (poster) ,进一步研讨 (workshop) ,被拒 (reject) ),和该论文被添加到 arxiv-sanity 网站的 library 的次数进行交叉比较,是一件很有趣的事情。某篇论文是否能入选 ICLR 2017 ,是由几个相应领域的领头人和审稿人,经过几个月时间的审阅后才能决定的。而在 arxiv-sanity 上参与决定的人,只有每月为此投入总共2个小时的原作者,当然还有应对投稿洪流的若干网站工作人员。现在让我们来看看这场自上而下、自下而上的战役会发生什么。

投稿论文在 ICLR 2017的入选情况可以参看OpenReview.net的情况,投稿论文共计491篇,其中15篇(3%)论文将在会上做口头报告,183篇(37.3%)论文将被制成海报在会上展览,48篇(9.8%)论文被建议进一步研讨,245篇(49.9%)论文被拒绝。 ICLR 2017将于4月24日至27日在土伦举办,届时入选的论文将在会议上进行展示。期待一睹土伦这个美丽的城市:

法国 土伦

扯远了,让我们言归正传回到文章主题上。

另一方面,作者一方的 arxiv-sanity 网站具有library功能。换言之,任何注册用户都可以在该网站上他们的 library 里添加论文,然后基于所有收藏论文全文的二元 tf-idf 特征, arxiv-sanity 将为每位用户训练出个性化的支持向量机 (Support Vector Machine) ,提供基于内容的论文推荐。例如在网站里的 library 收藏一些关于加强学习 (Reinforcement Learning)  、生成模型 (Gnerative Models) 、计算机视觉 (Computer Vision) 的论文,无论网站何时出现关于这些主题的新论文,它们都将出现在“推荐”标签中的最上方。现在 arxiv-sanity 网站上的审查池 (review pool) 总共有3195个用户——他们是 library 里收藏至少一篇论文的用户,这些用户迄今共收录了55671篇论文,平均每人17.4篇。

arxiv-sanity 网站一个很重要的特征是,用户赞同 (upvote) 一篇论文后,会产生相应的影响。因为用户收录论文的动机暗示着此论文对用户来说非常重要,所以当用户收录一篇论文时,该论文会增加该文章方向上的推荐权衡,进而影响推荐给用户的论文。

实验

长话短说, Andrej 对 ICLR 中的所有论文进行了循环,然后在 arxiv-sanity 网站上,通过尝试对收录的论文的标题进行全字符匹配,把相同的论文找出来。论文没法匹配的原因可能是,有些 ICLR 论文没有被网站收录,有些论文因为作者重命名后与原题目不匹配,或者因为题目中包含不能匹配的奇特字符等。

例如,对 ICLR 2017进行口头报告的论文进行匹配,作者得到的结果是:

15篇进行口头报告的论文,在 arxiv-sanity 网站上找到了以下10篇,附带网站里的 library 收藏数:

这里看到,在 ICLR 做口头报告的15篇论文, arxiv-sanity 收录了10篇,题目左边的数字是网站里将这篇论文添加到 library 的用户数,例如, "Reinforcement Learning with Unsupervised Auxiliary Tasks" 被64个 arxiv-sanity 用户添加到了 library 。

183篇制成海报展览的论文,在 arxiv-sanity 网站上找到了以下113篇,附带网站里的 library 收藏数:

某些论文得到了很多人的青睐,最多达到149人!然而收藏某些论文的人一个也没有。

建议进一步研讨的论文,结果如下:

48篇建议进一步研讨的论文,在 arxiv-sanity 网站上找到了以下23篇,附带网站里的 library 收藏数:

作者不打算列出总计200篇被拒绝的论文, Arxiv-sanity 用户真的非常喜欢其中一些论文,但是 ICLR 会议涉及领域的领头人和审稿人一点也不喜欢:

245篇被拒绝的论文,在 arxiv-sanity 网站上找到了以下58篇,附带网站里的 library 收藏数:

 

以上所列论文的前几篇,投稿遭到拒绝这一结局对它们来说可能不太公平。

现在另一个问题是—— ICLR 2017的投稿论文如果只由 arxiv-sanity 用户投票评选(可以在 arxiv 上找到的论文),结果会是怎么样子的呢? 这是投票结果的一个摘录:

做头口报告的论文:

制成海报展览的论文:

由 arxiv-sanity 用户投票评选的完整列表可以看这里。请注意,基于 arxiv-sanity 用户的投票评选结果,一些被拒绝的 ICLR 2017投稿论文,几乎优秀到可以进行口头报告,特别是以下这几篇:

"The Predictron: End-To-End Learning and Planning"

 "RL^2: Fast Reinforcement Learning via Slow Reinforcement Learning" 

 "Understanding intermediate layers using linear classifier probes" 

 "Hierarchical Memory Networks" 

相反地, arxiv-sanity 用户对一些入选的论文并不太喜欢,以下是完整的混乱矩阵:

 

这是文本形式的混乱矩阵,每一栏还附带了论文的标题。这矩阵看起来不太糟糕,只是双方在评选进行口头报告的论文上面分歧很大;同意制成海报展览的论文,双方分歧相对少很多;最重要的是,进行口头报告与被拒绝的论文之间的分歧非常小,同时制成海报展览的论文与被拒绝的论文之间的分歧也非常少。此外,祝贺 Max 等 ,因为 "Reinforcement Learning with Unsupervised Auxiliary Tasks" 是唯一一篇双方都同意应该进行口头报告的优秀论文:)

最后,几天前作者在媒体上看到以下这篇由卡洛斯·佩雷斯 (Carlos E. Perez) 撰写的文章 :"Ten Deserving Deep Learning Papers that were Rejected at ICLR 2017",似乎 arxiv-sanity 用户的看法与这篇文章的意见不谋而合。包括 LipNet ,在这篇文章里列出的所有论文(同样可以在 arxiv-sanity 上找到)应该成为入选论文,和 arxiv-sanity 用户的看法出奇一致。

讨论

注意:这里存在几个使结果有所偏斜的因素。例如, arxiv-sanity 用户群的大小随着时间的推移而增大,所以这些结果可能稍微偏向于后期收录在 arxiv-sanity 的论文,因为越往后收录进网站的新论文越容易引起更多用户的关注。除此之外,论文被看到的频率并不相同。例如,如果论文被有名人士转发,看到论文的人会更多,将论文添加到他们 library 的人也会更多。最后,另一个更好地说明倾斜存在的理由是,在 arxiv-sanity ,好论文的曝光率会更多,因为收录在 arxiv-sanity 的论文不是匿名的,好论文当然会得到更多的关注,在 ICLR 同样存在这种特殊情况,所以在这一点上双方没有区别。

终上所述, Andrej Karpathy从这个实验得出的结论是:哪些投稿论文可以入选 ICLR 的征兆很多。而且结果是从互联网这个自下而上的评选过程中“免费”获得的,而不用几百人用几个月时间才能得出结果。作者想对被拖延几个星期或者几个月,长时间处于巨大压力下,忍受来回辩驳痛苦的提交方或者审查方说:也许你们不需要这么痛苦。或者至少,改进的空间很大。

更多资讯请关注雷锋网。

via  medium,   雷锋网编译,头图viaJulia Manzerova@flickr

雷锋网

ICLR 2017开幕前夕,雷锋网来到土伦带你实地探营 | ICLR 2017

一年一度的ICLR,全称为「International Conference on Learning Representations」(国际学习表征会议)即将在法国当地时间4月24日—4月26日于土伦举行。今日(当地时间4月23日)ICLR 2017开幕前夕,雷锋网【AI科技评论】现场报道团队进行了实地初探,给大家带来一份接地气的参会指南。

本届大会选址在土伦市海王星国会宫(Palais des Congrès Neptune)。会场装潢并不豪华,但从八字排开的预签到工作台可见,本届人员报名热情之高,毕竟这个一年一度的会议虽然今年才办到第五届,但已经被学术研究者们广泛认可,被认为是「深度学习的顶级会议」,光Google一家投递的论文多达88篇,而组委成员 LeCun 今年也一口气向 ICLR2017 投递了五篇论文。

展区+报告厅

会场占用面积并不大,目测主题演讲与论文报告厅各一个会议厅,另外两小层为关键企业展览区,就是本次会议主要项目。

上图便是ICLR 2017主题演讲厅,位于会场三楼。会议厅门口之隐蔽,像是要走进一间小黑屋。

据雷锋网【AI科技评论】统计,这个会议厅大约可容纳700人。

象征海滨土伦的帆船与海洋之深邃的风格的舞台布景,也已经准备就绪。

而上图则是设置在会场一楼的论文报告厅,大约可容纳超过300人。在24日至26日期间,这里将持续上演310个论文报告或展示。

企业展区

本次会议参展企业并不多,分别分散在会场二层与四层。如图所示,都是些熟悉的身影。远处可见,部分展位尚未开始布置。

总体来说,场地比较简陋。

雷锋网【AI科技评论】现场观察,会议用餐区就设置在会议厅外的空置区。这样各功能区联系更紧密,午宴也是一个不可错过的交流机会。

外部景色

土伦曾是重要军港,轮船与航运成为这里的一大特色。而著名的海军博物馆及港口景色,也位于本次会场附近,可让游人近距离感受这座战争洗礼过的城市。

(未来得及拍照骗,图自网络)

好了,会议前菜到此结束。24日起,雷锋网【AI科技评论】将持续跟进大会精彩内容!

雷锋网

玩转Atari能走迷宫,牛津大学的新型强化学习方法有多牛? | ICLR 2017

雷锋网AI科技评论按:ICLR 2017 将于4月24-26日在法国土伦举行,届时雷锋网AI科技评论的编辑们也将前往法国带来一线报道。在这个深度学习会议举办之前,雷锋网也将围绕会议议程及论文介绍展开一系列的覆盖和专题报道,敬请期待。

深层强化学习通过直接最大化累积回报获得最先进的成果。 然而,环境中还包含着很多种类的潜在训练信号。 而在今年的 ICLR 2017,来自牛津大学的Max Jaderberg等研究者在 oral paper 论文《Reinforcement Learning With Unsupervised Auxiliarys Tasks 》中介绍了一个智能体,它既可以通过强化学习,学习单独的策略,同时也可以最大限度地发挥许多其他的伪回报功能。 所有这些任务都有一个共同的代表,就像无监督学习一样,在没有外在回报的情况下继续发展。 研究者还介绍了一种将这种表征重点放在外在回报上的新机制,使学习能够快速适应与实际任务最相关的方面。 该智能体具有显着优于在Atari上的目前最先进的技术,平均有880%的专业人员表现,以及在具有挑战性的第一人称三维迷宫任务中,平均学习加速10×,平均达到87% 迷宫专家的人类表现。

 以下为AI科技评论据论文内容进行的部分编译。

不论是自然界还是人工创造,智能体都生活在感觉运动数据流中。 在每个时间步骤t,智能体接收观察的信息ot并执行动作at。 这些行为将影响感觉运动流的未来过程。 研究人员开发了通过解决大量强化学习问题来学习预测和控制感觉运动流的智能体,每个智能体都集中在学习感觉运动流的特征上。因此未来将可以灵活控制智能体实现任何目标,包括最大化回报。经典的强化学习方法主要集中在最大化回报上。然而并不是所有应用都存在回报。即使回报很常见,感觉运动流仍然包含很多值得学习的目标。传统意义上来讲,非监督强化学习尝试重建这些目标,例如位于这一帧和下一帧的像素。该团队的目标则是预测和控制感觉运动流的特征,并把它们作为强化学习的回报。

该团队的架构使用强化学习来近似许多不同的伪回报的最优策略和最优值函数。 它还使其他辅助预测用于将智能体的重点放在任务的重要方面,包括辅助控制任务,即智能体与交互的环境中的附加伪回报函数。图1(b)展示出了随着一组辅助像素控制任务而增加的A3C实体架构。 在这种情况下,基本策略π共享卷积视觉流和LSTM与辅助策略。 辅助网络端的输出是Nact × n × n张量Qaux,其中Qaux(a, I, j)表示网络对于采取行动a 后的输入单元(I, j)中的最佳折扣预期变化的当前估计值 。 通过利用辅助任务的空间特性,使用解卷积神经网络来产生辅助值Qaux。以及回报预测的辅助任务 – 即在某些历史背景下预测即时回报的发生。这个任务包括处理连续观察信息,并要求智能体预测在随后看不到的帧中拾取的回报。辅助回报预测可能会对智能体的主要策略使用不同的架构。 

与其简单地将“辅助”预测“挂上”LSTM不如在被智能体的CNN编码后,使用简单的前馈网络来连接一些状态S,参见图1(c)。 这个想法是为了简化未来方向和过去方向的预测任务的时间,以这种方式发现的特征与初级LSTM共享(通过卷积编码器中的共享权重),以便更有效地学习策略。为了更有效地学习,该智能体使用经验回放机制来为评判者提供额外更新。 其主要思想是在回放缓冲区中存储转换,然后将学习更新应用于从该缓冲区的采样转换。除了回报预测之外,还可以使用回放缓冲区来执行价值函数回放(参见图1)。

重要的是,辅助控制和辅助预测任务共享基础智能体使用的卷积神经网络和LSTM。 通过使用这种共同学习的代表,基础智能体学习更快地优化外在回报,多数情况下,在培训结束时将会实现更好的策略。

研究人员结合了异步评价器算法(A3C)和辅助控制任务以及辅助汇报任务。这些辅助任务除了一般的A3C智能体外不需要其他任何来自环境的额外监督或信号。这样就获得了UNREAL(UNsupervised REinforcement and Auxiliary Learning)智能体。

图1:UNREAL智能体整体概述。 (a)智能体是经过培训的有关A3C损失的CNN-LSTM实体。观察信息,回报和行动存储在一个小的回放缓冲区中,该缓冲区存储了较短的智能体经验历史。这种经验是用来辅助学习任务。 (b)像素控制 – 训练辅助策略Qaux以达到最大化输入的不同区域的像素强度变化。智能体CNN和LSTM与辅助反卷积网络都用于此任务。该辅助控制任务要求智能体学习如何控制环境。 (c)回报预测 – 根据最近的三个帧,网络必须预测在下一个不可观测的时间步长中获得的回报。该任务网络使用智能体CNN的实例,并对回报偏向序列进行训练,以消除回报的稀疏性。 (d)价值函数回放 – 使用智能体网络进一步训练价值函数,以促进更快的价值迭代。

研究人员将UNREAL智能体应用于一个具有挑战性的3D视觉领域,即迷宫(Labyrinth)图2。UNREAL智能体仅从第一人称视角的原始RGB像素中学习。结果是,该智能体的表现显著优于A3C CNN-LSTM智能体代表的基准线,即在无障碍重建损失的基础上增加了学习速度,超参数的鲁棒性和最终性能。结果是该智能体达到了专家人员归一化分数的87%,而A3C则为54%,平均速度是A3C的10倍。在阿塔里(Atari)中,UNREAL智能体也拥有显著优于目前最先进的技术。

图2:来自环境的原始RGB帧是作为智能体输入的观察信息,以及最后的行动和回报。 这个观察信息显示了迷宫中的一个迷宫样本。 智能体必须浏览这个迷宫,拿起苹果将给予+1回报,并达到+10回报的目标,然后重新启动。 来自迷宫发生器的样品的俯视图显示了程序创建的各种迷宫。

下面是具体的实验结果:

图3(左上)显示了13个迷宫级别的人类平均归一化分数曲线。 每一项辅助任务都添加到A3C代理中大大提高了性能。 组合不同的辅助任务促使对各个辅助任务的进一步改进。 组合所有三个辅助任务的UNREAL智能体达到了A3C最终人类平均归一化表现的两倍以上,从54%上升到87%)。

图3:迷宫(上)和Atari(下)上的所有层的平均性能概述。 在消融版本中,RP是回报预测,VR是价值函数回放,PC是像素控制,UNREAL智能体是全部的组合。 左:在训练中的每一点,前三名工作的最后100次的平均人类归一化表现。 在迷宫中,平均获得了87%的人类归一化分数,其中每个成分的智能体均提高了A3C人类归一化分数的54%。右:超参数扫描中每个作业的最终人类归一化分数,按分数排序。在迷宫和Atari,UNREAL智能体增加了超参数的鲁棒性(即学习率和熵成本)。

同时使用与迷宫实验相同的评估协议,在每个游戏中评估50个不同的随机超参数(学习率和熵成本)。 结果显示在图3的底行。左侧显示了所有三种方法的前3个实体的平均性能曲线,右半部分显示了每个超参数设置的人类平均归一化得分。可以看出,UNREAL超越了目前最先进的智能体,即A3C和优先级决策DQN,达到880 %的平均值和250%的中位数。 值得注意的是,对于超参数设置,UNREAL也比A3C更强大。

除了游戏的最终表现,UNREAL在学习方面要快得多,因此数据效率更高,最终平均加速步骤数量实现了达到A3C最佳性能的10倍。 而且UNREAL的学习速度极快,这意味着数据效率大大提高。同时还可以通过测量所有超参数的性能(即学习率和熵成本)来测量该学习算法对超参数的鲁棒性。

图4:由于在迷宫中每关的辅助任务,A3C有了改进。 通过A3C值对A3C + RP + VR(回报预测和价值函数回放)和UNREAL(回报预测,价值函数回放和像素控制)的值进行归一化。 AUC性能给出了超参数的鲁棒性(鲁棒性曲线下的面积图3右)。 数据效率是前五名工作效率数据的平均学习曲线下的面积,Top5 加速是前五名工作效率的平均值达到A3C设定的最高平均得分的加速。

图5:与在各种形式的随机迷宫中自我监督学习的导航结果比较。 将输入重建损失添加到目标使得学习速度比A3C基线更快。预测输入的变化比简单的图像重建效果更好。 学习控制变化会带来最好的结果。

ICLR评论

ICLR委员会最终决定

评价: 审查人员一致认为本文应该被接受。 当然关于这篇文章的细节还有很多可以讨论的方面。 审查人员认为本文所指出的方向对该研究中的许多人来说是有意义的。 正如一位评论者所说,这篇文章的想法涉及利用智能体对环境的控制的“可能性”。 这是根据辅助控制和辅助预测任务制定的,它们共享基础的CNN和LSTM表示方式。

决定:接受(Oral)

匿名评论者3的反馈:

打分:7分,不错的文章,接受

本文提出了一种将无监督辅助任务添加到深层RL智能体(如A3C)的方法。 作者提出了一系列辅助控制任务和辅助回报任务,并对迷宫和Atari的实体进行了评估。 本文提出的UNREAL智能体的表现明显优于A3C,并且学习速度更快。 这对会议来说绝对是一个很有益的贡献。 然而,这还不是最令人惊讶的一个结果,因为添加与目标相关的附加辅助任务应该总是有助于更好和更快速的特征形成。 本文证明了这个想法的概念。
这篇文件写得很好,对具有深厚RL专业知识的读者来说很容易理解。
作者可以评论关于训练UNREAL实体所需的计算资源吗?

整体架构是相当复杂的。 作者是否愿意发布他们的模型的源代码?

匿名评委4号的反馈:

打分:8分,在全部入选论文中排名Top50%,确定接受

本文旨在通过对与(域无关)辅助任务相对应的术语扩展主要策略的优化问题,来改进深层加强学习中的特征学习。 这些任务是关于控制(学习尝试最大程度地修改状态空间的其他策略,即这里的像素),即时回报预测和价值函数回放。 除了后者之外,这些辅助任务仅用于帮助形成特征(通过共享CNN + LSTM特征提取网络)。 实验显示了这种方法对Atari和迷宫问题的优势,特别是比A3C更好的数据效率。

匿名评委5号的反馈:

打分:8分,在全部入选论文中排名Top50%,确定接受

这篇文章提出训练RL智能体执行辅助任务,并认为这样做有助于模型学习更强大的功能。 文章提出两个伪控制任务,即控制像素强度的变化,并控制潜在特征的激活。 文章中还提出监督回归任务,预测一系列事件后的即时回报。 后者通过经验回放缓冲区的偏向采样离线来学习,以平衡看到回报或1/2的几率看不到回报。

这样的智能体在离散动作连续空间RL任务中表现得很好,并且在10次迭代中达到基准性能。

这篇文章与传统的“被动”无监督或基于模型的学习形成对比。学习控制环境的本地和内部功能补充,学习最佳控制策略,而不是强迫模型学习输入的潜在无用的表示,或学习潜在不可能的(由于部分可观察性)任务建模目标。

对我来说,这是一种新颖的方法,并且是一种非常有趣的无人监督学习的替代方法,利用了智能体对环境的控制的“可能性”。

文章在相当高的层次上说明了提出的任务,这对于读者的理解是很便利的,但我认为一些低级别的细节也是很有用的。例如,在附录之前,应明确提及L_PC。除非,读者对深度RL非常的了解。

该方法是正确合理的,一方面,最佳超参数的分布对A3C和UNREAL可能不同,但是也可以测量top-3确定,假设A3C和UNREAL的最佳超参数都在探查的间隔内, 则可以找到最佳的超参数。

我认为这篇文章的一个弱点(或者说考虑到将来适合本文章的重要工作)是,关于辅助任务对其性能(非常强大) 的实验分析非常少。 同样的道理,像素/特征控制似乎最具影响力,在迷宫中,A3C + PC击败其他任何实体(UNREAL除外),我认为这是值得探究的,无论是孤立还是深入,可以不仅仅测量在RL任务上的表现。

雷锋网