标签归档:2017

FPGA研究领域奠基者,北京大学高能效计算与应用中心主任丛京生 | CNCC 2017

雷锋网 AI科技评论按:由中国计算机学会(CCF)主办,福州市人民政府、福州大学承办的2017中国计算机大会(CNCC2017)将于10月26-28日在福州举行。已经注册参会的朋友们可以现场一睹大牛们的精彩报告!10月15日前线上注册缴费截止,但未注册缴费的也不要着急,您可以选择现场注册参会!

延续2016年大会的顶级嘉宾阵容,CNCC 2017 将会迎来更多国内外知名专家学者,大会特邀阵容如下:

菲尔兹奖获得者丘成桐,中国科学院院士梅宏,微软全球执行副总裁沈向洋,美国国家工程院院士丛京生,CCF会士、中科院计算所研究员陈熙霖,斯坦福大学副教授,斯坦福人工智能实验室和视觉实验室主任李飞飞,北卡罗来纳大学教堂山分校教授Dinesh Manocha,腾讯集团高级执行副总裁汤道生,今日头条副总裁、IEEE Fellow马维英,滴滴出行高级副总裁章文嵩,出门问问创始人、CEO李志飞,CCF理事、北京理工大学教授王涌天等。

继介绍哈佛大学终身教授丘成桐微软全球执行副总裁沈向洋后,雷锋网 AI科技评论将为大家带来另一位具有广泛影响的杰出计算机科学家——美国国家工程院院士、ACM Fellow、IEEE Fellow丛京生教授,他将亲临 CNCC 2017 的大会现场并做主题演讲。

图1:丛京生教授

丛京生教授本科毕业于北京大学计算机科学与技术系,1987和1990年于美国伊利诺伊大学厄巴纳香槟校区(UIUC)分别获得计算机科学硕士和博士学位,目前有如下诸多头衔:

  • 加州大学洛杉矶校区(UCLA)计算机系和电子工程系教授

  • 加州大学洛杉矶校区(UCLA)杰出校长讲席教授(Distinguished Chancellor’s Professor)

  • 加州大学洛杉矶校区(UCLA)协理副教务长(Associate Vice Provost)

  • 北京大学高能效计算与应用中心主任

  • 北京大学信息科学技术学院千人计划客座教授

  • 北京大学-UCLA理工联合研究所共同主任

学界成就

丛京生教授的研究领域包括电子设计自动化和高能效计算与应用等,共发表论文500余篇;他不仅论文高产,学术成就也同样斐然。

据 Google Scholar 的统计,丛京生教授论文的引用量超过20000次;而截至目前,丛京生教授已在多个国际学术期刊和会议上拿下10个最佳论文奖,其中包括中国计算机学会(CCF)推荐的A类国际学术期刊TCAD和A类国际学术会议HPCA。

除了多次获得最佳论文奖,丛京生教授还先后三次获得“十年最有影响力论文“的奖项,毫无疑问,这一荣誉是对学者的学术生涯的最高肯定:

2014年11月,在IEEE/ACM 计算机辅助设计国际会议(ICCAD)上,以丛京生教授为第一作者的论文《三维集成电路的一种热驱动布图算法》(A thermal-driven floorplanning algorithm for 3D ICs)获得ICCAD 2004至2014年“十年最有影响力论文奖”,该奖项旨在表彰十年来ICCAD在集成电路计算机辅助设计方向上所收录的、在研究和工业设计上最具影响力的论文。

图2:丛京生教授于2014年ICCAD上获得十年最有影响力论文奖

亚洲及南太平洋地区设计自动化会议(ASP-DAC)是集成电路设计与辅助工具研究领域国际上最具影响力的学术会议之一,受到世界范围内该研究领域专家学者的广泛重视。

2015年1月,在ASP-DAC上,丛京生教授与他曾指导的博士生Dr. Yan Zhang合作的论文(Thermal-Driven Multilevel Routing for 3-D ICs)获得近十年最有影响力论文奖。

2017年初,同样在ASP-DAC上,丛京生指导他的学生罗国杰在UCLA攻读博士学位期间所发表的第一篇论文《基于变换的三维芯片热布局方法》(Thermal-aware 3D IC placement via transformation)再次斩获十年最具影响力论文奖。

除了多篇论文拿下大奖,他还因专业成就斐然而多次获得表彰:

  • 2010年,丛京生教授因在电子设计自动化领域等方面的开创性贡献获IEEE电路与系统分会年度技术成就奖,2016年,他再次获得IEEE计算机分会年度技术成就奖。

  • 2017年初,丛京生教授“因通过FPGA综合算法的创新,在专用可编程逻辑领域做出的开创性贡献”,当选美国国家工程院院士。

  • 2017年9月,丛京生教授获得CCF海外杰出贡献奖,该奖项旨在表彰他对中国计算机事业的贡献。

业界突破

除了在学界获得一系列奖项,丛京生教授在业界也吸引了众人的目光,他先后参与建立三个高新技术创业公司,并且这些公司都获得了不错的发展。

在今年八月的未来论坛中,丛京生教授提到了他们先后应用于业界的一系列研究成果:

21世纪初期,他们用自动编辑原理,做了一个编译系统AutoESL,从传统的软件开始生成硬件的描述语言,让可以写软件的人自动设计FPGA,大大简化了FPGA的设计难度。

据悉,AutoESL支持system C 、C等高级语言,支持多种优化方法,可以很方便生成RTL级的代码,大大提高研发速度。2011年,Xilinx正式宣布将AutoESL并入新一代的集成开发套件Vivado中。

除了AutoESL,他们还开发了新的CMOST——给定程序之后,决定怎么传输数据,怎么共享内存,这样能实现极大的加速。提及设计CMOST的初衷,丛京生教授表示:他们设计AutoESL的时候,十年前的出发点是考虑让芯片的设计者不用写繁琐的硬件描述语言,只需要写软件。但是今天只满足于做计算远远不够,因为计算的时候必须把处理器、CPU和FPGA同时用到。

谈到CMOST,丛京生教授说道,“这个工作也做得很不错,不但学术界认可,我们很多工业界的朋友也想用。作为副产品,还产生了一个叫Falcon Computing的公司,致力于让云端的FPGA加速成为可能。”

图3:丛京生教授在今年八月的未来论坛上公开发表演讲

对于投身业界的初衷,北京大学校报曾这样报导过丛京生教授创业的心路历程:

在第一个公司成立时,丛京生并没有做开公司的准备,他的团队在现场可编程逻辑门阵列综合方面的研究工作在世界领先,也是当时工业界所需的技术,他向实验室的科研合作伙伴提供了论文和源代码,但是他们更需要的是持久性的技术支持,于是丛京生组建团队进行了进一步的产业开发。

可见,丛京生教授希望通过产业落地的方式实现学术理论的顺利转换。在相关采访中,丛京生教授曾经这样描述从学界到业界的转化:“产业转化是一件很好的事情,但是需要的是水到渠成。大学里的创业要建立在技术和科研的基础上,很重要的一点是要把技术专长发挥出来,要建立在基础研究上,做出一流的研究,有了产业前景自然有商业合作伙伴找上门来,让科技推动产业发展,这才是大学创业的意义。”

代表性成果

北京大学校报也报导了丛京生教授最有代表性的两项工作:

一是著名的FlowMap综合算法的提出。当时,计算大规模逻辑电路到现场可编程逻辑门阵列的时延优化映射方案曾被认为是一个NP完全问题(即多项式复杂程度的非确定性问题)。丛京生提出综合算法在多项式时间内实现了时延优化,完美地解决了这个问题,极大地提高了电路的工作速度,引起了业界的极大轰动。

二是通过高级语言C/C++实现对FPGA的编程。起初对FPGA的编程必须使用硬件描述语言实现,造成FPGA的入门开发难度大。而对于软件工程师来说,如果通过高级语言对硬件编程可以极大地提高效率,当时很多人都提出了通过高级语言实现硬件编程这个想法,但没有真正的实现,丛京生的这项研究使得这个想法从理论迈向了实践。

对于他在FPGA上的研究成果,江南大学物联网工程学院柴志雷博士表示,能把基于C/C++的FPGA应用开发技术从实验室研究提升到产品化的水平,具有革命性的意义。如果再考虑到当前摩尔定律放缓,人工智能及大数据的应用对计算系统的能力提出更高的需求,这项技术意义就更大了。“FPGA从细分市场走向大众应用必然需要大幅度降低准入门槛、提升开发效率。而C/C++相比HDL就好比当年CPU编程从汇编转移到C一样。虽然目前很多FPGA工程师更习惯HDL编程,但进入计算领域的FPGA将会迎来更多的C/C++的编程人员。”

教育贡献

除了在学界和业界不菲的成就,丛京生教授还是一名卓越的教育家,他的简历上显示,他已培养了36名博士,其中,有9名学生跟随他走上了学术的道路,在包括美国康奈尔大学、美国佐治亚理工学院、北京大学等众多著名研究型高校任教,也有学生和他一起成立了公司,其他的学生则加入了各大公司的研发机构或者从事管理工作,包括Amazon、Arista、Facebook等。

目前,由他担任主任的北京大学高能效计算与应用中心成就斐然,目前中心共有198篇论文在国际知名会议和期刊上获得发表或接收,其中91篇为中心A类及A+类论文(计算机体系结构及相关领域顶级会议、期刊论文)。除了论文外,中心目前共承担国家级、省部级项目18项,与企业合作承担项目19项。

图4:2017年8月,北京大学高能效计算与应用中心举行年度学术研讨会

对于这个中心成立的意义,北京大学计算机系李晓明教授说道,“虽然这个研究中心成立的时间不长,人数也不多,但学术产出是显著的。我以为是在中国环境下也可能办一个国际水平的小而精的学术体的样板。”

江南大学物联网工程学院柴志雷博士在与AI科技评论的交流中也表示,北大高能效中心快速拉近了国内在可重构计算领域与国外的水平,并对于吸引高水平人才的加入有直接的影响,是国内高校国际合作的一个成功范例。

总结

丛京生教授不仅在学界如FPGA等领域做出了里程碑式的贡献,并且他还将在学界的研究成果应用到业界,真正做到了产学结合,解决了大家所面临的实际问题。

北京大学计算机系李晓明教授表示,他将国际领先的研究成果转变为成功的创业实践,这是特别值得中国计算机学人学习的。

江南大学物联网工程学院柴志雷博士也这样说道,“丛老师的研究很好地体现了科研‘顶天立地’的追求。他主导的科研既有学术的领先性,又能真正解决产业存在的关键问题,这应该是所有研究人员尤其是应用研究人员的追求。”

而在今年10月26-28日举办的CNCC 2017上,大家将能在大会现场,一睹丛京生教授的风采。雷锋网 AI科技评论也将作为独家战略合作媒体,在现场为大家带来第一手报道。

大会特邀嘉宾和技术论坛详情:http://mp.weixin.qq.com/s/O5FX4JlqwyY_96d3xu77RQ

大会官网:http://cncc.ccf.org.cn/

雷锋网

三维视觉会议结束了,论文还值得仔细品味,这里有三天会议的重点内容 | 3DV 2017

雷锋网AI科技评论按,继上次分享了3DV 2017国际会议首日的报告内容之后,我们在本文将继续分享大会接下来两天的内容。(查看:十月十日内容

十月十一日

在全国普遍降温、降雨的情况下,青岛依旧晴朗。3DV 2017 国际会议进入第二天的议程。大会议程基本形式和昨天类似,依旧采用特邀报告+口头报告+短报告+海报展览的形式。

特邀报告

在上午场的特邀报告环节,北京大学高文院士向我们展示了他们在实时在线3D重建和移动搜索方面的研究。

随着AR/VR系统、自动驾驶、UAV等领域的发展,在线视觉处理变得越来越重要,但是限于移动端诸如带宽、存储大小、电池容量等的限制,实时在线3D重建以及移动端搜索仍然有很大的挑战。首先就后一个问题,高文院士提出通过interest points匹配来进行移动搜索,这能大大地降低对硬件的要求。报告中高文院士详述了如何进行interest points的检测、特征选择、特征聚合、局部特征描述及定位等技术,同时还介绍了深度学习在这些方面的应用。针对在线3D重建,高文院士提出通过key points以及点云的方式来解决。在报告的这一部分,高文院士首先详细介绍了MPEG压缩算法应用于点云压缩的相关工作,随后介绍了他们在SLAM方面的研究,提出通过USB(Ultra Short Binary )描述、提取、匹配以及Polarimetric Multi-View Stereo的方式来解决SLAM中实时、精度以及无特征场景的问题;最后高文院士介绍了他们应用以上技术搭建的PKU IKING UAV飞行平台,他们通过这个平台使用无人机花3天时间重建了北大校园3cm-13cm精度的三维结构。

下午场特邀报告中,香港科技大学终身教授权龙充满激情地给我们介绍了他在人工智能、计算机视觉、3D视觉重建等方面的思考和研究。

权龙教授认为从AI的角度看,相比于语音和文字,视觉大约占所有信息的80%,所以更为重要,AI的演变主要来自于计算机视觉。权龙教授带我们简单地回顾了一下AI的发展历史,从1998年到2012年15年的时间里,AI一直没有很大的变化;但是在这沉默的15年中,计算硬件从CPU发展到了GPU有很大的提升,随之也带来AI近几年迅猛的发展。在对计算机视觉的理解上,权龙教授认为计算机视觉就是对基本视觉特征的搜索,而特征则是图像重构和识别的基础。这方面通过使用深度学习网络已经有了非常完美的效果,但是仍有许多不足有待改进。例如在识别方面,它仍然只能完成特定任务、不能像人一样理解图像。在重构方面,则还面临着诸如如何在两张图中找到相同事物、相关特征或像素等,如何去除不需要事物(例如天空)等问题。接下来,权龙教授介绍了现代三维重建管道的内容,并相应地提出了“深度三维重建”的概念——包括对传统上特征检测和匹配、来自运动的结构、多视角立体等方面的改进。此外,权龙教授还给我们展示了使用Altiture.com3D重建出的几个demos,效果非常惊人。

口头报告

在口头报告环节共有4场报告。分别为:(内容由3DV 2017新闻组提供

Graph Match: Efficient Large Scale Graph Construction for Structure from Motion

文章提出了一种类似图像匹配的方法,可有效的用于大规模运动恢复结构问题(Structure from Motion, SfM)中。不同于现有解决SFM问题中,使用词汇表(Voc)来避免蛮力搜索并快速构建匹配图的方法。本文研究人员提出的Graph Match方法,不需要在预处理阶段构建繁杂的词汇表,通过两方面的先验数据检测相似的图相对,更高效匹配图像。先验数据一方面来自与对任意两幅图像的Fisher vector即似然函数的梯度向量评估所得数据,另一方面基于对底层匹配图中顶点之间的图像距离评估所得。进过研究人员的实验证明,Graph Match方法与其他相似的图像匹配算法相比更加有效。这无疑是在解决计算机视觉大规模运动恢复结构问题方向的又一重大突破。

Fast Incremental Bundle Adjustment with Covariance Recovery

当前由2D图像进行3D重建的技术已经非常成熟,但是大多都是离线、后验且对重建后的不确定没有反馈。作者提出通过一种增强BA(Bundle Adjustment)技术来获得每次更新后的大小。这种技术不仅能够计算出最优解,而且能够计算相关的不确定性,同时能够反馈重建后的不确定性。

Cascaded Scene Flow Prediction using Semantic Segmentation

该报告带来了一种新的从一对3D相机给出的两个连续帧中同时估计被观测场景中物体的形状和运动的方法。他们的方法综合考量了分割、形状、运动、光流场等可用因素,通过优化对整体的目标函数,取得精准的语义场景流估计。通过在KITTI数据集中的验证,他们的方法确实精准而有效。

Static and Dynamic Objects Analysis as a 3D Vector Field

(运动分割结果:左上2D-SMR,右上3D-SSC,左下3D-SFC,右下OSF。红框标注了错误的分割)

Jiang Cansen等人则在中提出了一种新的场景分析方法,该方法具有三个卓著贡献:首先,可以有效地检测物体的运动;第二,提供了一种质量较高的物体运动分割方法;第三,可以较好地生成静态地图和刚性物体。他们的方法在拥挤环境中的精准机器人定位和自动驾驶等方面有着十分广阔的发展前景。

短报告及海报展示

在今天的短报告中,值得关注的是有两篇国内文章,分别来自香港科大和中科院自动化所。

Relative Camera Refinement for Accurate Dense Reconstruction

内容由作者提供)相机几何重建往往难以达到完美,大规模三维重建的全局相机优化以及实时SLAM系统中的多传感器融合,都会使相机估计整体趋于平滑,导致局部相机极线偏移而影响点云重建质量。本文在传统三维重建流程加入了局部相机优化以及全局点云融合两个新步骤,在为局部点云重建提供准确相机参数的同时,提出了一个将局部坐标系中点云匹配到全局坐标系的快速算法。该算法在大规模SfM重建以及实时SLAM重建中都能显著地提高点云重建的质量。

Batched Incremental Structure-from-Motion

SfM(Structure-from-Motion)技术在鲁棒性和准确性方面都有所提高,但效率和可扩展性仍然是其关键挑战。本文提出了一种新颖的批量增量SfM技术,在包含两个迭代循环的统一框架中解决这些问题。内循环是轨道三角循环,其中提出了一种新颖的轨道选择方法来找到用于束调整(BA)的轨道的紧凑子集。外环是相机注册循环,其中同时添加一批相机以减小漂移风险并减少BA的运行时间。通过轨道选择和批量摄像机登记,作者发现这两个迭代循环快速收敛。实验表明,这个新的SfM系统相比当下许多最先进的SfM系统,在相机校准精度方面表现相似或更好,而对于大规模场景重建而言,它则更有效率、可靠性更高且具有可扩展性。

此外,雷锋网注意到,在海报展示环节除了前面两篇短报告参展外,另外还有一篇中科院自动化所的文章入选。


十月十二日

经过两天内容非常充实,信息量极大的两日报告会议后,尽管是会议的最后一天,参会人员的热情依旧不减,大会现场坐满了人。

特邀报告

上午由伦敦大学的Niloy Mitra教授给我们介绍了场景建模方面的工作。

内容由3DV 2017新闻组提供)首先,Mitra教授给我们展示了2张场景图片,其中一张是真实的,另一张是渲染的,但由于渲染得太逼真,大家大都看不出来哪个是渲染。随后Mitra教授介绍了他们是如何做到的,包括如何重建出三维模型,以及恢复材质纹理和光照的方法。首先根据图片的数量和质量分了四种情况。第一种情况,当物体图片很多质量较差时,通过训练分类器方法或模型对齐的方法,去掉不好的图片。三维模型加上纹理,经过渲染,就得到了原图的重建。第二种是物体图片多质量好的情况。动机是把真实的物体图片的纹理,转到相似的三维模型上。其中的关键问题包括几何姿态形状估计,以及光照建模。Mitra教授给我们展示了他们算法的结果,把同一纹理贴到了各种椅子模型上。第三种是图片少质量差的情况。这里用FNN来回归渲染颜色,光照合成结果要比PMM要好。第四种情况是图片少质量好的情况。有时候我们需要编辑物体的漫反射颜色或者高光强度等,但是手动操作时间慢而且复杂。Mitra教授使用CNN卷积神经网络,能够把物体的颜色分解成不同层,这样能够在不同层快速编辑颜色。另外,对于一个视角的颜色编辑,参数可以复制到不同视角,而且进行自用优化,也允许用户自己调整。Mitra教授举了个例子,比如想增强视频中龙的高光,对第一帧处理好后,他们的算法可以据此自动增强整个视频的高光。最后Mitra教授介绍了他们在大规模结构化城市重建的工作。Google的街景重建存在很多问题,包括每个视角用的纹理集合不一样,没有根据法向渲染,而且没有结构细节等。Mitra教授团队解决了这些问题。在对街道进行恢复时,首先得到许多Google的街景图片,然后计算建筑底层分区图,最后构造出结构化的街区重建。

Mitra教授给我们展示了对一个伦敦街区的重建效果视频,在重建结果里可以清楚看到窗户等结构化信息。这种城市建模可以应用于城市规划和建筑设计中,例如在设计一个新建筑时,如果有周边环境的结构化建模,那么就可以根据这些建模信息(例如窗口位置)来判断新建筑的设计是否合适。如今这种结构化重建的技术得到越来越多的关注。

下午场的特邀报告则有百度深度学习研究院(IDL)首席研发架构师杨睿刚博士介绍了百度在AI领域的布局,并详细介绍了百度无人驾驶车阿波罗以及机器人方面的研究。

(内容参考3DV 2017新闻组提供资料)据杨睿刚博士介绍,百度认为继1994年以来的PC互联网革命、2012年以来的移动互联网之后,下一个纪元将属于人工智能。所以百度在AI领域基于AI开放平台(ai.baidu.com)进行了广泛的布局,包括NLP、知识图谱、用户画像、语音、图像、视频、AR/VR等领域。随后杨睿刚博士就无人驾驶汽车阿波罗(Apollo)项目的技术架构细节进行了介绍。阿波罗项目是一个无人驾驶的开源平台,其架构由云服务平台、开放软件平台、参考硬件平台 和参考车辆平台构成。  其中环境探知技术的核心是利用传感器收集到的数据进行检测、场景理解与语义分割,最终预测和规划车辆的行驶路径。之后介绍了百度的高清晰度地图项目,这个是自动驾驶的基础。另外百度的激光雷达SLAM项目,包括特征提取、帧间匹配以及滑动窗口优化三步。

杨睿刚博士之后介绍了百度在机器人方面的工作。机器人的主要问题包括导航、地图绘制以及障碍物躲避三个方面。百度公开了其研发的机器人平台,其中的SDK实现了机器人相关的各种功能。杨睿刚博士又介绍了机器人平台的硬件传感模块、VIO、重定位、基于双目视觉的障碍物检测等内容。

 最后杨睿刚博士还展示了百度在视觉其他方面的一些研究和应用,例如脸部识别方面,1:N的搜索和匹配中精度超过了99%。杨睿刚展示了一个例子,输入他自己现在的照片,度秘很轻松地从杨老师初中毕业照中找出他来,而现场的观众大多都没有分辨出来。此外,杨睿刚还展示了百度在AR方面的研究和应用,并介绍了百度开放平台——

阿波罗: http://apollo.auto

机器人视觉: http://ai.baidu.com/solution/roboticvision

口头报告

四场口头报告分别为:

Learning Human Motion Models for Long-term Predictions

在长时间尺度上预测人的运动在各个应用领域仍然是一个很具挑战性的问题。在这个报告中,作者介绍了他们提出一个预测时空运动模型的新架构:Dropout Autoencoder LSTM (DAE-LSTM) ,这个架构能够在长时间尺度上合成较为自然的运动序列,而不会出现灾难性的漂移或退化。据作者介绍,这个模型由两部分组成:一个三层循环神经网络(用于模拟临时方面)和一个新型的自动编码器(通过随机删除训练中关节的信息,对人体骨骼的空间结构进行隐性恢复)。此外作者还提出一种新的评估方案,使用动作分类器来评估合成运动序列的质量。通过报告中的展示,可以看出这项研究相比之前的方法有更好的表现。

Real-time Full-Body Motion Capture from Video and IMUs

实时拍摄人体动作在电影娱乐行业以及生命科学领域都受到很大的关注。报告中作者介绍了他们提出的一种实时的全身运动捕捉系统,该系统只需要使用惯性测量单元(IMUs)的稀疏集加上两个(或几个)标准摄像机拍摄的图像,而不像传统的需要光学标记和专门的红外摄像机。他们还提出了一种实时优化框架(包括来自IMU、摄像机以及先前姿态模型的约束等)。报告中作者展示了他们通过视频加IMU数据的组合,重现完整的6自由度的运动,包括四肢的轴向旋转以及无漂移的全局位置。其实验表明该方法在室内、室外都有很好的表现。

Monocular 3D Human Pose Estimation In The Wild Using Improved CNN Supervision

作者提出了一种基于CNN方法,用单张RGB图像的2D人体姿态数据通过迁移学习生成3D人体姿态,从而构建了一个新的可用于训练和测试的数据集MPI-INF-3DHP。另外在报告中作者证明从2D姿态数据集迁移到3D会有更好的效果。这种方法在未来仍有许多值得研究之处:1、大尺度自我遮挡的姿势;2、多人情形;3、表面重建。

Efficient Deformable Shape Correspondence via Kernel Matching

在非刚性形状之间发现对应关系是计算机视觉、图形学及模式识别中的一个根本问题。报告中作者提出一种在非等距变形、拓扑变化和偏向度下匹配三维形状的方法。作者等人将形状对应的问题看作是逐点、逐对描述符集合的匹配问题,并在映射之前加入连续性,提出一个预测下降优化过程。在多个数据集上的实验证明,这种方法比之前最好的方法更好。

短报告及海报展示

(来自斯坦福大学的研究人员在海报展示)

当然今天的短报告以及海报展示的论文也非常值得关注,例如

Performance Evaluation of 3D Correspondence Grouping Algorithms(华中科大)

Using learning of speed to stabilize scale in monocular localization and mapping(牛津大学)

SEGCloud: 3D Semantic Segmentation on Point Cloud(斯坦福大学)

3D Object Classification via Spherical Projections(清华大学等)

Cross-modal Attribute Transfer for Rescaling 3D Models(斯坦福大学&普林斯顿大学)

Matterport3D: Learning from RGB-D Data in Indoor Environments(普林斯顿大学等)

这些报告和海报的内容就不再一一介绍,感兴趣的可以在arXiv等网站上下载来研究。

闭幕式

最后,持续三天的3DV 2017大会在12日下午5:20正式闭幕。闭幕式上宣布了这次大会的最佳论文——


最佳学生论文:Sparsity Invariant CNNs

论文简介:对于传统的卷积网络在应用到稀疏数据时表现不佳的问题,研究人员提出了一个简单而有效的稀疏卷积层,它考虑了卷积过程中缺失数据的位置,能很好地推广到新的数据集,并且与数据稀疏程度保持不变,这无疑是机器学习与计算机视觉交叉方向的又一大创新。


最佳论文:Learning Human Motion Models for Long-term Predictions

论文简介:见前面内容

最佳论文提名:Fast Incremental Bundle Adjustment with Covariance Recovery

论文简介:见前面内容

随后还宣布了下一届大会3DV 2018将于2018年9月15日-18日在意大利的维罗纳,由维罗纳大学主办。

大会日程安排大致和这届大会相同,但在18日增加了研讨会和展览会的环节。此外,想要投递论文的研究人员需要注意了,论文投递时间为2018年6月5日。

雷锋网注:文中部分内容及照片由3DV新闻组和摄影组提供,特此感谢。

雷锋网

蚂蚁金服副总裁胡喜:金融科技进入2.0时代,拼的是基础技术升级 | 云栖大会 2017

雷锋网AI金融评论报道,今日(10月12日),在2017年云栖大会上,ATEC金融科技开放峰会在杭州云栖小镇召开。在会上的演讲中,蚂蚁金服副总裁、首席技术架构师胡喜表示,与金融科技1.0阶段提供更为高效的便捷的普惠能力相比,金融科技2.0偏向于要把11日蚂蚁金服CTO程立所强调的BASIC进行进一步升级,要为消费者和金融机构提供更为便捷的服务。

“1.0就是汽车的发动机,可以通过发动机去组装任何一辆汽车,”胡喜这样来比喻道蚂蚁金服在金融科技中的发展阶段,“但是2.0是汽车的流水线,不仅提供发动机,还提供定制汽车能力,甚至可以提供自动驾驶的能力。除了BASIC能力,还有对金融本质的理解,也就是信用和风控的能力以及连接。”

以下是胡喜发言原文摘要,雷锋网做了不改变原意的编辑:

金融科技2.0阶段:BASIC技术的全面升级

我们背后最大的支撑能力是什么?金融科技。我回想了一下,蚂蚁金服的金融科技有两个阶段。

第一阶段,金融科技的1.0阶段。这个时候金融科技更多偏向于云计算、大数据、移动支付、移动互联网能力,通过这些能力支持了6亿消费者,我们希望能带给更多的消费者,就需要云计算能力、大规模数据能力。2015年的时候,我们对外宣布开放我们的技术能力,在五年左右的时间给一千万中小金融机构做新金融转型。这个阶段更偏向于提供更为高效的便捷的普惠能力,同时带来创新的能力。蚂蚁金服创新了这么多产品,包括借呗、花呗其实都是支撑的这些能力。

第二阶段,金融科技2.0阶段。今天想要说一点,我们蚂蚁金服看到了金融科技的不一样的变化,也就是金融科技2.0阶段。我们要对底层的基础设施进行升级,除了云计算、大数据、移动能力,我们对原有的技术进行升级,BASIC(详见11日雷锋网关于蚂蚁金服CTO程立的报道)。金融科技2.0云计划比1.0更面向消费者和金融机构来考虑,提供更为便捷的服务。

1.0就是汽车的发动机,可以通过发动机去组装任何一辆汽车,但是2.0是汽车的流水线,不仅提供发动机,还提供定制汽车能力,甚至可以提供自动驾驶的能力。除了BASIC能力,还有对金融本质的理解,也就是信用和风控的能力以及连接。

总结:用技术重塑金融体验,金融科技创新大家一起来

今天我们会分享相应的BASIC、信用、风控能力,同时还会对外宣布金融科技联盟这样的计划,希望更多的金融机构加入到我们整个大的金融科技创新能力当中,帮助更多的消费者,连接更多的金融机构来做创新。我们希望最终用技术重塑金融体验,解决金融的实际问题,希望更多人加入进来。这就是我们举办ATEC技术峰会的目的,希望今天所有同学和我们一起面向更为美好的未来,谢谢大家!

雷锋网

或许未来所有的3D特效技术都在这里了,300名三维视觉的高手齐聚一堂,青岛论剑 | 3DV 2017

雷锋网消息,2017年10月10日,3DV 2017国际会议在青岛香格里拉酒店正式召开,来自20多个多家的300多位计算机视觉界的研究人员齐聚一堂,开启了三维视觉研究一年一度的盛会。

(陈宝权教授开幕致辞)

开幕式中,山东大学计算机学院和软件学院院长陈宝权教授作为大会主席致辞。据陈宝权教授介绍,3DV国际会议此前由东京大学、斯坦福大学等举办,已经成为汇集三维视觉研究、原型系统、商业产品和人力资源等的盛会。

本届3DV会议首次在中国由山东大学主办,北京电影学院未来影像高精尖创新中心协办,共有来自20多个国家的300多位计算机视觉界的大咖们来此参会,论文投稿171篇,收录oral 论文12篇, spotlight 25篇, poster36篇。 

(微软雷德蒙研究院首席研究员张正友做特邀报告)

开幕式之后,首先由微软雷德蒙研究院首席研究员、ACM/IEEE Fellow张正友博士做了第一个特邀报告,报告主题为“三维计算机视觉在沉浸式交互和远程协作”。在报告中张正友博士介绍说,为了使人机交互以及人与人之间的远程协作更加自然,报告提出了沉浸式交互。张正友博士介绍了他的团队最新的研发成果,ViiBoard,这项技术集合了识别身体姿态、手势、面部表情、人体特征的技术于一身。ViiBoard主要包括ImmerseBoard与VTouch两个部分。他们通过Kinect采集信息,随后通过ImmerseBoard屏幕投影两位使用者实时书写与绘画的人像与内容。另外,该产品VTouch部分提供了特有的手势控制功能,使用户能够进行人性化的书写与绘画,同时记录不同的使用者手势习惯。最后,张正友讲述了融合三维重建,追踪人眼方向等技术的沉浸式交互技术的持续研发现状以及在三人远程协作技术中的应用。

(谜之微笑)

在下午场,由苏黎世大学的Davide Scaramuzza教授分享了基于事件相机的最新研究,报告主题为“从基于框架相机到基于事件相机,鲁棒性更高且能够进行视觉惯性状态评估”。传统的基于框架的相机在低光照和快速移动的情况下会严重地失真或模糊。相比来说,基于事件的相机,由于其输出为像素级亮度变化而不是传统的标准的强度帧,所以在高速运动场景下仍然能够提供非常可靠的视觉信息。不过基于事件的相机在低运动情况下可能仅输出少量信息。Davide教授在报告中提出了“hybrid pipeline”的方法,并将该方法应用到公开的事件相机数据集中,精度相比只使用事件pipeline提高了130%,相比于标准的框架视觉-惯性系统提高了85%。随后Davide教授展示了将该研究应用到四翼无人机上,效果非常完美,解锁了传统视觉-惯性测距仪无法达到的飞行情景,例如低光环境和高速动态场景。

(口头报告之一)

除了两场精彩的特邀报告外,四场口头报告也非常值得关注。它们分别为:(内容来自:山东大学交叉研究中心公众号「IRC」

上午场:

1、DepthSynth: Real-Time Realistic Synthetic Data Generation from CAD Modelsfor 2.5D Recognition

作者来自:西门子公司、西门子医疗、帕骚大学

作者提出了一个具有创新性的完全端对端的框架DepthSynth,模拟这些设备的工作原理,通过建模一些关键的因素例如传感器噪声,材料反射率,表面几何信息等等,进而生成逼真的深度数据。

2、Sparsity Invariant CNNs

作者来自:戴姆勒股份公司、弗莱堡大学和马克斯·普朗克研究所

对于传统的卷积网络在应用到稀疏数据时表现不佳的问题,研究人员提出了一个简单而有效的稀疏卷积层,它考虑了卷积过程中缺失数据的位置,能很好地推广到新的数据集,并且与数据稀疏程度保持不变,这无疑是机器学习与计算机视觉交叉方向的又一大创新。

下午场:

3、OctNetFusion: Learning Depth Fusion from Data

作者来自:格拉茨技术大学、微软、马克斯·普朗克研究所

将多个深度图进行融合,进行3D模型重建。常见的方法是基于平均截断的带符号距离函数,但是它不能有效地处理遮挡问题,并且需要大量帧来过滤噪声。随着3D模型库的增大,以及深度学习的发展,本文章提出了一种3DCNN方法将多深度的图像进行融合,重建3D模型,该方法解决了遮挡部位重建等问题,其结果明显优于TSDF和TV-L1等方法。

4、3D Shape Reconstruction from Sketches via Multi-view Convolutional Networks

作者来自:麻省大学阿默斯特校区

本文章提出了一种编码和解码的网络,结合优化方法,可以根据2D线图重建3D形状。首先将单个或者多个2D线图进行编码得到形状信息,然后解码得到多个视图下的深度和法线图,最后结合优化问题将多个视图进行融合得到3D点云,进而得到3D形状的拓扑网格。

(短报告之一)

除此之外,10日当天还有4场短报告、9个海报展示以及论坛“The challenges and opportunities in 3D sensing”。

(海报展示之一)

(论坛嘉宾,畅谈了3D感官的挑战和机遇)

本届大会由百度、光珀智能科技、纵目科技、商汤科技、阿丘科技、华为、银河水滴科技、图漾科技、先临三维科技、清影机器视觉技术、地平线、大势智慧科技、通甲优博等众多业界巨头和创业新星赞助。在海报展示的会场,各赞助商也同时向参会人员展示了他们在计算机视觉和图形学在三维领域的最新研究成果。

(参展商之一商汤科技在向陈宝权教授和高文院士介绍其手机端3D重建特效)

据雷锋网了解,此次会议虽然在中国本土举办,但是参会人员中有大约一半都是国外学者,而投稿及录取文章则有90%以上来自国外大学和研究单位。这一点,想想让人挺揪心的。

雷锋网注:本文照片皆为山东大学新闻组同学提供,特此感谢!

雷锋网

三维视觉国际会议首度在中国举办,和雷锋网一起了解3DV 2017

3DV——International Conference on 3 Dimensional Vision(三维视觉国际会议),自2013年成立以来,逐渐成为计算机视觉和图形学的三维研究领域中的重量级会议,每年都有来着世界各地的专家学者到会进行交流。去年,3DV 2016由斯坦福大学承办,吸引了超过500名专家学者参会。

今年第五届三维视觉大会3DV 2017将于10月10日到12日在中国青岛由山东大学承办,大会主席为山东大学计算机学院和软件学院院长陈宝权教授。会议举办期间,雷锋网将围绕着会议议程等内容展开系列报道。

3DV 2017会议共有3天,会议的安排也较为平均和统一。基本上按照半天一个特邀报告+数个口头报告、短报告、海报展示的顺序依次进行。

这次大会邀请了六位计算机视觉领域的顶级学者来做特邀报告,包括:

  • 北京大学教授、院士、ACM/IEEE Fellow 高文;

  • 伦敦大学学院教授,SIGGRAPH杰出青年学者奖获得者 Niloy J. Mitra;

  • 香港科技大学教授,IEEE Fellow 权龙;

  • 苏黎世联邦工学院机器人与视觉实验室主任 Davide Scaramuzza ;

  • 百度主任架构师,深度学习实验室(IDL)首席科学家 杨睿刚;

  • 微软雷德蒙研究员首席研究员,ACM/IEEE Fellow 张正友。

六位嘉宾将先后在三天时间内分享他们的研究成果和学术心得。

 

另外,据雷锋网了解,这次大会共有来自20多个国家146篇论文投稿,内容涵盖三维重建、三维深度学习、运动捕捉、三维场景理解、SLAM等众多前沿科学问题。最终,3DV 2017共有73篇论文被录用,论文作者将于大会期间分别就其研究做口头报告、短报告或海报展示。

由于3DV会议属于国际会议,有来自20多个国家的300多人参会,这次会议将全程进行英文演讲和交流。会议中精彩内容,雷锋网记者将陆续带来首发现场报道,敬请关注。

雷锋网

屹立微软华人最高峰,微软全球执行副总裁沈向洋 | CNCC 2017

雷锋网 AI科技评论按:由中国计算机学会(CCF)主办,福州市人民政府、福州大学承办的2017中国计算机大会(CNCC2017)将于10月26-28日在福州举行。

延续2016年大会的顶级嘉宾阵容,CNCC 2017 将会迎来更多国内外知名专家学者。在未来一段时间,雷锋网 AI科技评论将陆续放出嘉宾介绍。继上一期介绍完数学王国的凯撒大帝:哈佛大学终身教授丘成桐之后,今天将为大家介绍另一位重量级嘉宾——美国国家工程院院士、ACM/IEEE Fellow、微软全球执行副总裁沈向洋博士

图1:微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士

提到沈向洋博士,相信大家并不陌生。

  • 计算机视觉和图形学研究的世界级专家,拥有50余项专利,发表100多篇论文

  • 创立微软在美国本土以外规模最大的研究机构——微软亚洲研究院

  • 目前为微软全球执行副总裁,为微软公司级别最高的华人

  • 微软人工智能事业部领军人,学界、商界和产业界的AI跨界创新领导者

  • ……

1980年,13岁的沈向洋考进了当时的南京工学院(现东南大学),此后考入香港大学电机电子工程系。研究生毕业后,他进入卡内基梅隆大学计算机科学学院,成为图灵奖获得者、著名计算机专家罗杰•瑞迪(Raj Reddy)教授的学生,主要专注于计算机视觉方面的研究工作。

1993年,博士生期间,他做出了第一个三维场景中的全真模型——利用几百张照片,通过计算机处理之后做出了卡内基梅隆大学计算机学院主楼的一部分。当他公布第一个三维全真模型时,几乎还没有人在这一领域进行类似的工作。

沈向洋的博士论文的主题是将照片转换成虚拟现实,这是世界上最早基于这一领域的研究,他在论文中所设计的四分树样条数函数算法,则是世界上最好的运动参数估计算法之一。

在获得卡内基梅隆大学计算机学院机器人专业博士学位之后,他曾短暂加盟一家创业公司,但很快便作为研究员加入微软美国研究院视觉技术组。那时是1996年,此后便是21年的微软路。

21年微软路

1998年,沈向洋与李开复等人共同创立坐落于北京的微软中国研究院(后更名为微软亚洲研究院),此后先后担任微软亚洲研究院形象计算组主任研究员,高级研究员,微软亚洲研究院副院长,主要负责计算机视觉、图形学、人机交互、统计学习、模式识别和机器人等方向的研究工作。

最初就职于微软亚研院期间,技术团队将空间任意拍摄的二维图象进行全真的三维复原时,使用的方法是全光函数,但这需要四维采样,对图象数据的需求特别巨大,数据采集十分困难。沈向洋在不断思考与探索之后,在这方面取得了突破性进展:他发明了一种称为同心拼图的方法,将四维全光函数简化为三维函数,从而大幅度地降低了需采集的数据量。利用这一方法,只需用一个摄像机作一个平面旋转,就可以采集到所需的数据,达到在真实场景中的连续漫游。

之后,在他的引领和指导下,微软亚洲研究院图形学相关课题组在SIGGRAPH上发表了多篇高质量论文。不仅如此,他还应SIGGRAPH组织者的邀请,于2002年担任了大会的论文委员会(Technical paper commitee)委员。

2004年,微软亚洲研究院被MIT科技评论称为“世界上最火的计算机实验室”。同年,沈向洋接替张亚勤升任第三任微软亚洲研究院院长兼首席科学家。在他的带领下,微软亚洲研究院在计算机视觉、图形学、人机交互和统计学习等方向的研究工作取得了令人瞩目的成绩。

图2:沈向洋博士担任微软亚洲研究院院长期间公开致辞

2007年,他升任微软全球资深副总裁,在微软应用与服务部门负责微软必应搜索引擎的全球产品研发工作,同年,他担任2007年计算机视觉国际会议议程主席。在领导必应团队期间,当时谷歌已经全面压制住搜索市场了,他顶住压力,带领团队持续奋战7年之久。在必应的第四个年头,他获得第十届“全美亚裔年度杰出工程师奖”。

2013年11月,微软公司正式宣布任命沈向洋博士升任微软全球执行副总裁,接替退休的微软前首席研究和战略官克雷格·蒙迪(Craig Mundie),主导技术和研发部门,并负责推动公司中长期总体技术战略、策略以及前瞻性研究与开发工作。在就任该职位的第二年,他便获得微软公司年度“技术领袖奖”。 

2016年,微软成立全新的AI研究部门——微软人工智能及微软研究事业部,而沈向洋博士则受命负责整个团队,带领微软在这一波人工智能的浪潮中不落下风。近期,沈向洋博士也多次在公开演讲中谈及现在大火的AI。

沈向洋博士看AI

在最近的公开演讲中,沈向洋博士表示,“当人工智能真的开始进入我们的生活和人类社会,它必将为我们带来非凡的机遇和严峻的挑战。”他也在多次专访和公开演讲中向大众传达了对AI的看法:

  • 人工智能拥有无穷潜力,将成为未来科技公司的大杀器

在今年5月接收媒体采访时,谈到人工智能,沈向洋表示,“云计算与日俱增的强大威力、运行于深度神经网络的强力算法,再加上今天能够获取到的海量数据,在这三股强大动力的交织驱动下,今天,我们终于有能力实现人工智能的梦想。人工智能拥有无穷的潜力,它有能力颠覆任何现有的垂直行业。”

而在今年9月华盛顿大学主办的创新峰会上,他还提到,微软、谷歌、脸书等几乎所有的科技巨头公司都在全力投入研发人工智能技术,世界正在往智能方向走,这毋庸置疑。未来所有领域都会被人工智能技术改变,比如商业领域,改变的不仅是产品本身,销售模式、服务和流程都会被改变。

  • 目前尚处于人工智能初级阶段

尽管目前人类在人工智能方面已经取得了一些进展,但沈向洋博士明确提出现在尚处在人工智能工具与技术发展的初级阶段。

虽然人工智能技术已经可以很好地完成一些具体的任务,例如正确地识别一副图像或者是分辨出对话中的词语。但是,如果将其与人类儿童靠触觉、视觉和嗅觉来了解世界并与之互动的方式进行比较,今天的技术仍相去甚远。目前,由于技术瓶颈依然存在,人工智能依然停留在积累和攻关时期。

  •  人工智能主要依赖数据

在今年对话微软实习生时,他表示,“时至今日,人工智能仍主要依赖数据,如果没有数据,人工智能技术将难为‘无米之炊’,而越来越庞大的数据,其实就凝结在产品之中。近年来,计算机领域不断迎来新的突破,比如新算法的产生、深度学习等等,使人工智能具有更大的潜能,从而得以解决之前无法想象的难题,并在垂直与水平两个维度上颠覆着整个产业。”

  • 不必担心人工智能威胁论

而对于最近甚嚣尘上的人工智能威胁论,沈向洋博士则持正面观点:

人工智能是用来帮助人类的,而不是替代我们,这是基本原则。未来,相应的技术界限和社会公约都会随之完善,人类对此不必担心。

总结

离开卡耐基梅隆大学之后,沈向阳博士从微软研究员做起,历经微软亚研院院长、微软全球资深副总裁、微软全球执行副总裁,再到引领微软全球AI布局与发展,他的每一步都是传奇。不仅只是成为传奇,他也想让传奇延续下去——目前,沈向洋担任多所国内外著名高校(清华大学、中科大、西安交大等)和中科院客座教授及博士导师。作为清华大学高等研究院双聘教授,他所带领的在读博士生完成了一系列高水平的研究工作,并在ACM TOG, SIGGRAPH, TVCG, CVPR, ICCV, ECCV, PAMI, IJCV等计算机图形学和计算机视觉的国际知名会议和期刊上共发表了多篇论文,涵盖了计算机图形学、计算机视觉和信息可视化的各个研究前沿。

图3:沈向洋博士于近日对话微软实习生

MIT科技评论曾这样评价他,“如果你在感情上难以支持微软,那是你还未曾遇见沈向洋。”

是否想更进一步,当场听沈向洋博士讲述他的学术理念和对AI的布局?2017年10月26-28日,2017中国计算机大会(CNCC2017),沈向洋博士将作为特邀讲者出场。在未来的一段时间,雷锋网将陆续放出嘉宾介绍,敬请期待。

雷锋网

北理工王涌天教授:手机AR只是过渡,头戴AR设备才是未来 | CNCC 2017

雷锋网AI科技评论:目前AR已经成为全球科技公司关注的焦点——苹果的AR kit、谷歌的AR Core,两大巨头都希望能够引领手机 AR 增强现实体验的变革。而王涌天教授告诉记者:手机AR只是过渡,头戴AR设备才是未来。

王涌天教授

北京理工大学光电学院和计算机学院博导、混合现实与新型显示北京市工程技术研究中心主任,科技部信息技术领域专家组成员,国家信标委虚拟现实与增强现实标准工作组组长,主要研究方向包括光学系统设计和CAD、3D显示、虚拟现实和增强现实、医学图像处理等方面。他带领团队在混合现实领域取得的研究成果,已经广泛应用于教育、培训、文化、娱乐、医疗、军事等领域。

作为CNCC 2017 的特邀讲者之一的王涌天教授这次已是第三次参加CNCC大会,他主要研究的增强现实(AR)技术目前在国际上异常火热。

AR火爆的原因有很多,有近几年自身软硬件的迅猛发展,有人工智能等相关技术的快速升级,也有国际科技巨头的潮流引领(苹果新发布的ios 11,就增加了对增强现实的支持),毕竟许多业内人士都在等待像苹果这样的巨头的加入,以证明该市场拥有光明的前途。

记者通过电话联系王涌天教授采访时,可以明显感受到他对自己研究领域的热爱和自信。“增强现实和人工智能结合起来,肯定可以改变人的生活和工作方式,”他说,“而现在限制AR发展的最重要的因素还是硬件问题,主要还是如何把整个系统做得小、做得轻,做得适人化、做得使人愿意戴才可以,戴着走在街上,不会让人觉得好奇怪,这样就可以了。”

他认为今后研制出来的AR眼镜将会加入视力矫正功能,平时可以和近视镜一样长时间佩戴,在需要AR功能的时候,只需要打开电源开关即可。

关于AR眼镜会用到哪些应用场景,他向记者举了一个生动的例子,比如对于脸盲的人,或由于工作原因联系人太多,见面时看着面熟就是叫不出名字,有时很尴尬,有了AR眼镜,马上就可以识别并显示这个人的名字、单位和其它相关信息,大家就都能拥有像周总理一样的超人记忆力了。

AR是否会取代VR?AR发展是否也会走VR走过的路?AR在应用层面还会遇到什么问题?您怎么看到大公司的一些AR头戴产品?对于这些记者提出的问题,王涌天教授都给了耐心解答,最后王涌天教授还向记者透露会在今年的CNCC 大会上用一个有趣的视频展示AR的未来应用,以及他们团队今后努力的方向。对AR有兴趣的朋友,一定不要错过今年10月26-28日在福建福州举办的CNCC 2017。

以下是这次采访的精选内容:

雷锋网:目前您在AR技术方面有什么难点吗?遇到过什么瓶颈吗?

王涌天教授:在AR眼镜方面我们处于领先地位,在光学设计等方面的技术优势显著。至于遇到的技术瓶颈,主要是我们在设计大视场角AR眼镜的时候,希望用到一些非标的微型显示器件。如果需要我们自己定制这些器件,开模的价格就十分昂贵,开一次模需要花费几百万甚至上千万元。我们现在正在跟器件厂商谈合作,争取他们投入一部分,为我们的设计专门开发一些非标显示器件。

雷锋网:微软、HTC 等大公司都在做AR/VR,您觉得哪些公司做的比较好?

HTC主要做浸没式的虚拟现实头盔,这种头盔的光学系统部分难度不大,HTC的特色是把交互技术和配套设备做得很好。微软主要做增强现实,HoloLens头盔的技术十分先进,虽然其光学系统的视场角比较小,但是它在实时感知、真实场景自动三维建模方面处于国际领先。

雷锋网:未来VR会不会越来越不被重视,就直接进入下一个AR阶段?

王涌天教授:也不能这样说。VR的主要问题是头盔遮挡了用户的视线,所以主要用于娱乐、培训、教育等方面。AR眼镜是透视式的,不影响用户观察现实世界,它的应用领域就更多些。有位美国专家在计算机领域的一个会议的大会报告上讲到,“虚拟现实是给孩子玩的,增强现实是计算技术的未来”。增强现实的虚实融合效果可以在人们的生活、工作中提供诸多帮助。我们提出的口号是,增强现实特别是移动增强现实,可以使人类第二次站立起来。因为人类的进化过程是,从猴子爬行逐渐站立起来,后来有了计算机之后又坐在计算机的工作台边。自从出现了手机等各种移动平台后,人们逐渐可以脱离计算机台,可以走动、可以移动办公,然而是以一种非常不健康的方式:手机的屏幕很小,对眼睛不好;手机需要低头看,对颈椎不好;如果在户外拿着手机做增强现实的相关应用,会十分不安全;而且手持着手机,人们不能方便地与真实世界交互。如果AR眼镜可以做得轻薄时尚,如果户外AR的跟踪定位技术得到进一步完善,如果AR应用内容能够逐渐丰富,不难想象移动增强现实将给人们带来的诸多便利,最终将使人类第二次昂首挺胸地站立起来。

雷锋网:您觉得AR的发展要重点解决哪些问题?

王涌天教授:还有不少问题需要解决,举几个例子。一是AR应用的内容发展:眼镜做得再好,没有丰富的实际应用支撑,市场仍然无法打开;另一个是交互手段的完善:智能手机的主要交互方式是触摸屏,但VR头盔和AR眼镜都是没有可触摸的实体屏幕的,手势交互、语音交互会成为主流。我们正在制定手势交互的国家标准,希望今后用户戴上无论哪个厂商开发的VR或AR的显示设备,都可以用一个统一的手势集与之交互,这样可以大大降低用户的学习成本和使用成本。这是非常重要的。

另外一个问题就是如何保护人的隐私。前几年谷歌推出Google Glass的时候,美国的一些酒吧出于保护客户隐私权的考虑,就不让戴Google Glass的人进去。因为AR眼镜上通常会有一个摄像机,大部分AR应用都是基于摄像机获取的图像或视频开发的,而这个摄像机就有可能侵犯他人的隐私。我戴一个眼镜跟你说话,有可能同时也在对你进行拍摄,你能否接受?所以这又属于社会伦理和法制问题。解决的方法包括完善法律规定,比如要求AR设备开启时有明显的灯光和/或声音提示,别人不同意时可以要求你停止使用;此外人类社会也会不断适应信息技术的发展,现在每个人的手机上都有摄像机,城市里到处都是监控摄像头,人们也已经习以为常了。

雷锋网:现在离您理想中的AR眼镜还有多远的路要走?

王涌天教授:还有很多需要改进完善的地方。现在无论是我们开发的AR眼镜,还是微软的HoloLens,镜片还都偏厚,系统体积偏大,不够轻巧;对于近视或远视的用户人群,还需要人家同时戴两副眼镜。我们需要逐渐把AR眼镜做得像一副近视镜一样,而且还要能够针对每个用户的视度不同加入对应的视力矫正功能,最好一副眼镜就能同时实现矫正视力和叠加计算机生成的信息。当然还要解决电池的续航问题、系统的发热问题等等。AR眼镜的适人化要靠长期艰苦的人机工程学探索才能实现。

雷锋网:作为这次CNCC 2017大会的特邀讲者,您分享的主题是什么?

王涌天教授:报告题目已经提交组委会,初步定为“无屏”呈现——人机融合的新纪元。我会重点介绍我们在增强现实技术及其应用方面的研究进展,并探讨AR和AI有机结合后,对人类生活和工作方式所能产生的巨大影响。

以上为雷锋网对CNCC 2017特邀讲者王涌天教授的专访。

你想不想更进一步,当场聆听王涌天教授讲述他的科研成果和AR的未来?2017年10月26-28日,2017中国计算机大会(CNCC 2017),王涌天教授将作为特邀讲者出场,并带来该实验室研制的最新一代AR眼镜。在接下来的一个月时间,雷锋网将陆续放出其他嘉宾介绍,敬请期待CNCC 2017 。

首轮优惠门票已于9月26日截止,不想错过下一轮优惠,快快到CNCC 2017官网报名吧!

 2017中国计算机大会(CNCC2017)官网:http://cncc.ccf.org.cn/


雷锋网

专访IROS 17大会主席张宏:机器人已到突破的拐点 | IROS 2017

IROS, 全称为IEEE/RSJ International Conference on Intelligent Robots and Systems,即智能机器人与系统国际学术会议,是机器人领域全球规模最大、最具影响力的学术会议之一。IROS创办于1988年,每年举办一届,今年正值第30届。IROS 2017于9月24日至28日在加拿大温哥华举办,来自全球各地近3000名机器人领域的专家和学者参加了本次会议。

大会期间,雷锋网有幸对IROS 2017的大会主席、加拿大阿尔伯塔大学张宏教授进行了采访。张宏教授为雷锋网介绍了IROS 30年来的发展历程。同时张宏教授认为,在需求的推动下,近几年机器人技术迅猛发展,拐点已经到来,将加速走入我们的日常生活。IROS一如既往地为机器人领域各界人士提供交流、合作和共享的国际化平台,推动人工智能与机器人的结合和发展。

张宏教授1982年在美国东北大学电子工程系以杰出成绩获得学士学位,1986年获得美国普渡大学电子及计算机工程系博士学位。现任阿尔伯塔大学计算机系终身教授,广东工业大学杰出人才特聘教授(兼职),是加拿大工程院院士和IEEE Fellow。张宏教授曾在多个国际学术组织中担任重要职务,例如IEEE Trans. on Systems, Man, and Cybernetics副主编及国际期刊Int. J. of Humanoid Robotics编委会成员;组织过多次国际学术会议,并多次担任大会主席。迄今为止,张教授已在国际顶级期刊及重要会议上发表了200余篇文章,涉及机器人操作、多智能系统、视觉检测和视觉导航等方面。目前的研究领域包括机器人学、计算机视觉、图像处理以及智能系统等。

(图为IROS '17大会主席,加拿大阿尔伯塔大学张宏教授主持大会)

雷锋网:今年5月我们有同事刚刚去参加过ICRA。ICRA和IROS是机器人方面最重要的两个会议,它们在定位上有什么不一样?

张宏:两个会的侧重点稍微有些不一样。ICRA的关键字是Robotics & Automation,即机器人和自动化,而自动化技术和系统并不一定涉及机器人;IROS的关键字是Intelligent Robots,即智能机器人。换而言之,ICRA关注的范畴更广,而IROS则更关注机器人和系统的智能。

随着机器人概念走热,全世界研究机器人学的圈子已经很大并且越来越大, 一个会并不能满足学术界和产业界的所有需求。IROS和ICRA的组织者均来自同一个协会(IEEE机器人及自动化协会),会议组织和协调方面也很注意,两个会差不多错开半年(ICRA一般在4、5月,IROS一般在9、10月),为机器人专家和学者提供更多交流和共享成果的机会。


雷锋网:今年 IROS 的主题是“Friendly People, Friendly Robots”,这个主题也体现了您讲的智能化的特色吧?这个主题是如何定下来的?大会当中如何体现这个主题?

张宏:我时常开玩笑说,加拿大给别人的印象是很友好的(“Friendly”),而今年我们在加拿大举办这个盛会,所以我们会强调“友好”。实际上,现在机器人已经发展到了一个拐点,过去几年机器人研究突飞猛进,机器人理念已经融入到我们生活当中了,已经不是仅停留在工厂里,比如说,清洁机器人,陪护机器人,自动驾驶等。我们说无人驾驶的车,其实也是广义的机器人。

这些新技术,若想能够被人们接受和推广,必须以一个友好的状态呈现在我们面前。实际上,我们现在的研究工作更多地关注机器人的基本共性技术,旨在使得这些机器人能够在人类的生活和生产空间里和人共存、与人协作(国内“人机共融”的概念),比如说组装线,既有机器人也有人,机器人如果不友好就很难被人接受。在家庭里更是这样,如果把家庭服务机器人做得像一个有侵犯性的机器,那谁也不能接受,更不想使用。

近年来比较热门的研究方向和友好机器人是密切相关的,例如软体机器人。我们看工厂里的工业机器人都是硬邦邦、冷冰冰的,可是如果机器人能像人一样友好你就不会怕它,不会感觉机器又硬又冷。我们讲的人机交互,是一个人和机器人互动的世界,不要把人和机器人对立起来,而是说人和机器人合作一起来解决生活和生产中的难题。而且是人(“People”)需要起主导作用,在前,机器人(“Robots”)起附属作用,在后。 我们把“Friendly People,Friendly Robots ”作为大会主题,含义很广,最终是想让我们的研究工作有一个良好的出发点和目标。


雷锋网:说到IROS的定位方面,您本身是做SLAM的,属于CV(Computer Vision,计算机视觉)的范畴,今年大会也邀请了李飞飞教授做大会报告,而在Guide2Research的排名中,IROS是CV领域排名第四的学术会议,IROS是不是对CV特别重视?

张宏:我觉得计算机视觉的发展是需求驱动的结果。计算机视觉在10年前就开始成熟了,对于机器人来说显然也是非常实用且迫切的技术。我们人感知我们的世界很大程度上是依赖于我们的视觉,要发展智能机器人也有同样的考虑。视觉和机器人结合是一个非常自然的想法,也就是怎样通过对视觉信息的分析对环境进行感知、判断并做出决策。

十几年前条件不成熟,很多技术都想做但做起来很麻烦。首先是算法上,比如最简单的边缘检测,十年前基本要自己写程序,现在则有很多开源软件包,大大简化编程的过程,大家都可以用;其次在计算量方面,十年前有些技术算法道理简单,但计算速度比较慢,而机器人的一个控制循环可能需要在几毫秒到十几毫秒之内做出决策,对计算实时性要求高。现在这些障碍一个个被克服了,所以才使得计算机视觉在机器人上的应用广泛普及。 

有一个很有意思的现象,我三十年前做机器人研究的时候并没有研究过视觉,只是从十几年前开始进入到计算机视觉领域。而且我周围有大量这样的人,他们慢慢发现机器视觉、图像处理越来越有用了,将机械结构、运动控制等技术和视觉技术有机结合。另外,我们机器人研究有非常具体的问题,可以告诉视觉领域的同事和朋友们需要解决什么问题,又推动了计算机视觉的发展。


雷锋网:今年是IROS 30周年,大会有围绕这个主题做了哪些工作?

张宏:主要是把过去29年记录下来的会议内容重新呈现出来。比如说,我们大会的网站有一个脸书的网页链接,通过这个链接可以跳转到以文件夹方式整理的过去每一届的照片,这些都是很珍贵的记录。我们也收集了历届的一些视频,做成了视频集,会展中心许多屏幕上播放的就是以前不同时代的机器人的视频集。我觉得这是一件很有意义的事情,可以让现在的年轻人看看我们走过的历程是怎么样的,机器人的发展是怎么多元化的,前辈是怎么做研究的,研究条件是什么,问题是什么,成果又是什么。对当下一代来说是一种激发,对我们前辈来说也是一种回顾吧。

我们把之前每年的最佳论文也做了整理,想看当年这些最佳论文在10年、20年后影响究竟有多大。我们做科学研究的,想探究当初的评估和现在的评估相差有多大。这个问题的回答,对我们当下的判断和未来的计划都是很有帮助的。但最终这项工作没能及时完成,主要是没有时间对这些文章的影响力做充分和客观的评估。不过我们把搜集到的最佳论文也做成了视频。所有的视频加在一起一共大概4到5个小时,在会议现场都可以看到。


雷锋网:我有了解过IROS30年的历程,开头4届都是在日本举行的,第5届才开始在美国举办。IROS是如何走向国际化的呢? 

张宏:日本对机器人一直都很重视,这与日本制造大国的身份有关。其它方面还有一些原因,例如日本希望用机器人来解决老年社会的诸多问题。但日本人在创新能力上与西方国家相比不足,80年代末日本有一些专家和学者想做机器人,但起点又没有西方那么高,那么怎么接轨呢?他们先在国内做一个学术大会,这就是最初的IROS。早期的IROS,参会者几乎都是日本人。如果想国际化,首先要把会议开到日本以外的其他国家去。第一次在日本境外办IROS在美国北卡州,大会主席是一位台湾华人,叫罗人权,当时在北卡州立大学当教授。而那个会也是我第一次参加IROS。IROS的初衷是想让这个会议国际化,提高水平,之后对整个会议的发展、整个机器人行业和学术界推动都起了正面的作用。


雷锋网:IROS已经成为国际性的会议,您能介绍一下中国研究者和中国企业在这次IROS上的参与情况吗?

张宏:中国这几年在参与IROS方面肯定是一个持续高速增长的趋势。今年中国的文章数量在亚洲排第二,仅次于日本,排在韩国之前。我们收到207篇来自中国的投稿,录用了67篇。另外,中国学者参加IROS会议是非常积极的。我们大会有一个重要的指标,即来自一个国家的注册人数和文章数量的比值,中国的这个指标非常高,达到了3到4,而其他国家,例如美国和加拿大,这个指标就只是2和3之间,所以说中国学者参会的热情还是非常高的。文章质量也处于上升趋势,中国机器人研究的学术水平在慢慢赶上西方,但是还有距离。中国最大的优势实际上是市场和资源,包括人才资源,我估计可能再过十年、二十年会赶上来。


雷锋网:如何理解人是发展机器人的优势?

张宏:中国之所以有机器人热潮,不是某些人脑子一热想做机器人,而是中国切实需要机器人技术。我们是制造大国,加工和制造各种各样的工业产品需要人力,要想降低成本、提高质量,就必须提高生产和制造的自动化和智能化的程度。以前中国劳动力成本便宜,现在人口红利用得差不多了,不便宜了。

不止中国,全世界的制造大国都有发展机器人的需求。而机器人做得好的国家,美国、德国、日本、中国,都是制造大国。相反像加拿大,它没有发达的制造业,经济主要依赖于自然资源,对机器人的需求就相对较低。


雷锋网:就您这么多年的经验,在加拿大做机器人研究和国内有什么不一样?

张宏:不一样的地方还是我刚才讲过的三个方面:科研水平、市场和资源。我觉得加拿大和中国刚好互补。西方研究水平相对高一些,最有影响力的好文章往往都是西方学者发表出来的,但西方的资源和市场比不了中国。中国有各方面的资源优势,包括政策、资金、制造业基础和人才等,尤其政府下决心做好一件事情,所能集聚的资源和迸发的力度是西方无法企及的。

加拿大的机器人会有什么样的需求?例如我有个同事做水下机器人的研究,项目源于实际需求,即加拿大的东部有漫长的海岸线,航道上每年都有很多北极飘下来的冰山,必须对这些冰山进行实时的测量和跟踪,分析是否会对航行的船舶造成威胁。这项工作他们希望用机器人来完成,因为对人类潜水员而言,除了巨大的安全风险还有成本的问题。


雷锋网:IROS是如何推进学术研究和产业应用的结合的?

张宏:学术研究和产业应用结合是一件挺挑战、有时令人困惑的事情,因为产业界和学术界做机器人的目标不一定完全一致、有时甚至差别颇大的。往往产业应用需要的是可靠性、控制成本,最重要的是商业一定要成功,不希望花很多时间和精力去做基础研究;而学术界主要做学问,想的往往是如何创新、如何证明新技术的可行性,也许十次实验做成功一次就能证明某个想法。再者,做学术成本是次要的问题,例如我们送一个机器人去火星,怎么把钱赚回来?还是得靠政府拨款。所以,学术界和产业界接轨是件很有挑战的事情。

最近这些年机器人之所以火热,恰恰是很多大IT公司对机器人感兴趣,比如说Amazon、阿里巴巴、Google和苹果对仓储管理机器人和无人车的投入,对整个机器人学术界是一针强心剂。在我看来,学术界和产业界结合最大的意义或者说最容易互动的方式不一定是研究成果的直接转化和应用,而是为产业界培养人才。我们精心培养的高素质人才有扎实的专业基础知识,有良好的学习习惯和方法,有很强的研究实践能力,使得他们到公司后可以顺利的完成产业化和应用项目。产业化本身的科技内容往往并不是最前沿的。机器人领域现在很火,高科技公司需要人才。我们机器学习、人工智能、机器人等方向的学生,现在有非常好的就业机会。因此,从我理解的角度讲和产业界合作,最合适的方式之一是培养人才,对产业界来说这也是他们必不可少的。


雷锋网:您在机器人与SLAM上有多年的研究,您会如何概括视觉SLAM技术多年的发展过程?其中有哪些关键节点?

张宏:SLAM研究经历了一个漫长的过程,到今天机器人从理论上讲可以实现自动构建地图和定位、环境感知和自主导航等,现在最大瓶颈仍然有两个。

第一个瓶颈是精度问题。我和国内一些公司针对视觉SLAM在物流仓储等应用有合作研究。因为视觉方案成本很低,可以大规模使用,但是定位精度在一般在10-20厘米。这样的定位精度对很多工业应用是远远不够的。

第二个瓶颈是对环境变化的适应性问题。我们人类的视觉对环境条件变化有很好的适应性,比如说白天经过的地方,晚上再次访问,不会迷路。对光照条件、动态物体、视角变化,人类视觉的适应性非常强,但机器视觉的适应性相对差了不少。对于提高机器视觉的适应性方面,我认为深度学习将会发挥非常大的作用。


雷锋网:近些年SLAM技术在工业界有不少应用,当中有什么原因在推动呢?

张宏:最主要的还是需求。现在的应用案例中,更可靠的方案还是基于激光雷达的。激光雷达有其缺陷,虽然精度很高但成本也很高,局部定位很好但全局初始定位难,等等。因为点云与图像相比特征贫乏,匹配的时候会出现大问题,这是激光雷达的致命弱点之一。

多传感信息融合是其中一条可行路径,例如我们用激光雷达和视觉信息融合实现机器人定位。从工程角度而言可能是更好的方案,也是可行的。但做研究工作出发点不太一样,往往我们希望探究只用视觉传感如何完成导航,问题可以通过怎样的途径,解决到怎样一个程度 ,能够达到怎样的最佳状态。


雷锋网:那能不能说SLAM技术已经足够完善,剩下的只是工程问题了吗?

张宏:我个人认为不是。SLAM当中仍然有很多待解决的学术问题。判断一项技术是不是成熟,可以去注意我们这些国际学术会议上发表的文章的关注程度即可。热门关键词SLAM和定位等,关注度仍是排在非常靠前的位置的。这意味着当中仍有很多课题值得去研究。顺便提一句,现在最火的关键词之一是深度学习,其关注度从无一跃到第一、二位。排名再往后是一些相对比较传统的领域,例如运动规划,还是很热门的。从关注度排名你可以间接判断,我们离达解决SLAM问题还是有一段距离的。


雷锋网:除了SLAM,您还有做哪些方面研究,其研究现状是怎么样的?还面临哪些主要的挑战?

张宏:我另一个非常感兴趣的方向是移动操作,因为如果机器人只移动不执行操作,用途是有限的。为扩展应用场景,操作一定要和导航结合在一起,但操作本身有一系列复杂的问题。

我30多年前最开始研究机器人的时候,就是做博士论文时就是研究机器人操作的。移动操作方面,很多简单问题我们当年搞清楚了,但更复杂的问题就放下了。现在导航方面有了不错的进展,很多问题可以进一步深入开展了。我们需要回到老问题:实现导航后,怎么让机器人更有用?那就是操作和导航的结合。

例如,我希望坐在沙发上,让智能机器人帮我到冰箱拿一瓶酒来,但是这项任务包含若干难度较高的子任务,包括导航到厨房,定位冰箱,打开冰箱门,识别和定位啤酒,抓取,关上冰箱门,把啤酒送回来等。我们所看到现在的一些展示,做了不少简化,比如不是机器人把瓶子给人,而是人把瓶子从机器手上拿下来。内行人能轻易看出来,机器人其实并不知道、不理解自己在做什么。移动操作在我们的生活和生产中是非常广泛和普遍的一个任务,是很重要的研究课题,也是我感兴趣,并做了很多积累的方向。

雷锋网

大牛讲座:怎么才能做出可靠的自动驾驶系统?| IROS 2017

雷锋网按:9 月 24 日至 28 日,机器人领域的顶级学术会议 IROS 2017 在温哥华会议中心召开。作为大会首场 Keynote,自动驾驶领域长老级人物 Edwin Olson 被邀请就“自动驾驶系统的可靠性与鲁棒性”这一主题,进行了长达 45 分钟的讲座。对于为什么多策略决策系统(MPDM)是解决自动驾驶可靠性问题的突破点,Edwin Olson 重点进行了介绍。本文由雷锋网编辑整理。

Edwin Olson 为原密歇根大学助理教授,在自动驾驶领域深耕逾十年。曾参与 2007 DARPA 城市挑战赛,曾任福特自动驾驶项目首席研究员、丰田研究院自动驾驶技术研发副总监。现已下海创业,创立 May Mobility 并担任 CEO。

Edwin Olson

Edwin Olson:今天的话题是如何搞出可靠的自行驾驶系统。

不论在密歇根大学,还是 May Mobility,这都是我们不停在思考的问题。AprilTags 就是一个例子:一个最大限度作弊的办法,以搞出尽可能可靠、尽可能万无一失的系统。

随着人类的进步,我们试着造出不会撞死人的汽车、在生活与工作环境中长时间部署的机器人。这意味着把系统鲁棒性和可靠性,推向一个前所未有的层次和规模。

自动驾驶技术公司的套路

技术项目往往遵循这么一个三段式的进展套路:

Make it work,make it work well,make it cheap

即:

  1. 技术实现 

  2. 把产品做好 

  3. 降低成本

一开始,我们在某些限定情况下勉强实现一个新技术,一般会对此发表篇论文。接下来进入这么一个模式:调参、修补漏洞、数据验证、迭代,把最终成果再写成一篇论文或搞出一个“产品”,这时候往往会特别开心。

大体上,自动驾驶也在按照这个套路走。

目前,业内非常多的公司在开发自动驾驶汽车。他们中的大多数,也搞出了些在某种程度上能用的东西。这些公司下一步的计划,看起来都是达到很多的测试里程、修补漏洞、找出让自动驾驶系统失效的特殊情况。你天天听到媒体引用某自动驾驶公司 CEO 的话——说我们要收集特别多的里程数据,把稀有状况找出来,然后我们就能打败竞争对手。

看起来,这就是他们的战略。

对此,我有一个问题:“这么干的效果如何?”

可靠性曲线

让我们先回顾一下自动驾驶技术更早时候的状况。在 2004 年,一辆自动驾驶汽车在遇到需要人类驾驶员干预的紧急状况之前,平均能够开多远呢?

那时候,第一届 DARPA 挑战赛举行,卡内基梅隆大学(CMU) 凭借比其他参赛车辆多开了七英里获得第一。

而今天的自动驾驶汽车,在每次人工干预之前平均又能行驶多远?公开的可靠性数据显示是 5000 英里。我不确定是否应该相信这个数字,不过他们是这么宣称的,暂且就按这个来。

据此画一个折线图,如下图,横轴是时间,纵轴是人工干预率。你的期待或许是,人工干预率会像摩尔定律那样指数级改进。

问题是,人类其实是非常不错的驾驶员。

许多鼓吹自动驾驶汽车的人说,人是相当糟糕的司机,会醉驾、疲劳驾驶、开车容易犯困等等。这些都是客观事实。但现实是,人类是相当优秀的驾驶员。在美国,平均每行驶一亿英里才会发生一起致死交通事故。只是因为我们开车太多,才有这么多交通死亡人数。

所以,我们实际想做的是,把人工干预率降到途中“solved”(自动驾驶问题已攻克)门槛以下,即一亿分之一。我们需要多久才能达到?

做一些简单的计算,目前,人工干预率每 16 个月降低一倍。我们需要 19 年才能达到 “solved”门槛。

很显然,我们需要加快速度。举个基因测序的例子,这是它成本降低的速率:

这才是我们想要的。所以,摆在面前的挑战是:怎么摆脱近乎直线的缓慢提升速度,到巨幅提升的曲线?

这就回到了机器人的可靠性。

在机器人领域,大家都喜欢新的功能。假设谁发明出了一个人机协作的抓鱼装置(恶搞),大家都会觉得很赞。但如果另一个写了个论文,说他的机器人实现了百万次成功的木块抓取。我猜评审会说,这看起来只是渐进式的提升,机器人已经在实验室抓了 40 年的木块。

我认为这反映出了一个问题——公众普遍认为前者很了不起,而后者没那么了不起。我们面临的一个挑战是,如何才能塑造出一个激励体系,鼓励更多人做后者那样的研究?这很重要,因为我感觉到许多针对超大规模、超高可靠性层次做实验想法正在涌现,

用多策略决策提升可靠性

现在,我与大家分享一些我们在 May Mobility 所做的工作。福特、丰田已经在部分采用这些想法。这些工作的核心是:怎么为自动驾驶系统注入可靠性?

举个防碰撞自动刹车的例子。自己的车有自动刹车功能的人,可能有过多次这种体验:在路口,前车马上要右转,当你开到它的位置的时候,它早就转过去了,因此不需要减速刹车——但系统会自动刹车。传感器感知到前车停住,系统判断如果继续行驶就会追尾。但系统不知道而你注意到的是,这辆车在等一个行人过马路,而该行人已经快走到马路对面 ,这辆车马上就会右转,因此并没有追尾风险,但系统无法理解这种状况。

要提高自动驾驶系统的可靠性,就需要在类似这样的棘手情况,让系统做出正确决策。为什么这种情况很棘手?系统不单要理解车辆的位置,还要理解单位之间的交互。

我们用 multi-policy decision making (MPDM,即多策略决策)来解决这个问题,这是我们近几年在密歇根大学做的研究。MPDM 是针对 partially observable markov decision process(POMDP,部分可观察马尔可夫决策过程)的解决方案,在大量不确定因素下,为机器人进策略计算。

找出一个能解决 POMDP 的通用方案非常困难,因此,MPDM 实际上解决的是最最傻瓜版本的  POMDP,傻瓜到可以在线做。我们的办法是生成多个策略选项,而在线上做的唯一一件事,便是决定即时运行哪一个策略。

决策方法如下:

先有一个环境初始评估,其中存在不确定性,比如我在空间中的哪个位置、其它单位在做什么。因而从中采集样本,初始化一个模拟器,再运行一个该场景的模型,预测接下来 10 秒钟发生的事。举个例子,假设我要并入高速路的车流,目前有四辆车可供选择,怎么决定插到哪一辆车的前面?对四个选项各自做一次模拟(线上),根据模拟结果做决策。

MPDM 的结构

假设其它单位和我的行为会互相影响。我们对周围的每辆车都分配一个策略,比如,某辆车的驾驶员可能很礼让,也可能很鲁莽,系统会对此做一个概率估计。

整套算法其实很简单。对于每个策略选项,系统会进行采样,把所有不确定因素转变为一个具体的场景,然后在模拟器中运行。鉴于不确定性,这个过程会多次重复,每次采样都会生成一个新的场景。最终的目的是计算出每个策略的成功概率——平均表现如何?对每项策略进行多次模拟之后,便可挑选出表现最好的那一个。

其中不确定性的影响特别大。举个常见的例子,狭窄道路上,两辆车相向而行将要会车,互相之间均不确定对方会如何避让。在不确定对方向左还是向右、是否减速、何时减速的情况下,如何选择避让策略?我们的办法是重复采样,选出在大多数情况下表现都比较理想的避让策略。

再举一个例子。在下图情况中,若强行插入到蓝车前面,看起来两车是要相撞的。我们会产生一个蓝车的策略模型,对其所有可能采取的策略进行计算。若绝大多数结果显示蓝车将采取减速避让策略,插到它前面就是一个较合理的决策。

这种情况对传统的行驶路线规划系统会是不小的挑战——大多数自动驾驶汽车采用的都是 RRT,或某种有限深度下的搜索。这能够规划出一条不会撞到其它车的行驶路线。但如果我们的行为影响了路上其它车辆接下来的行为呢?路线规划就失效了。

在上图的情况下,传统的路线规划存在很严重的问题——一条能让你安全插入车流的路线并不存在。你需要依靠其它车辆的行为(减速避让),创造可驶入的空当,

再来一个场景。高速路上前车行驶缓慢,你有两个策略:1. 留在当前车道;2. 变道超车。系统中并没有“如果前车行驶慢,就变道”的逻辑。但当系统进行模拟预测,发现“变道”策略的统计表现比“不变道”更好。

对我们人而言,这是很显而易见的。但大多数自动驾驶系统的变道算法设计,采用的都是一大长串的条件表达,经常是软件工程师人工写的代码:“If…If…If…If….is true, then…”。

这时,不常见的情况就成了问题。人工编写这些条件和规则、规定车辆在满足哪些情况下才能做出某个行为时,会导致每几万英里遇到某个代码没有涉及的特殊情况时,你发现逻辑是错误的。摆脱这些条件逻辑、用一套优化系统进行策略选择,是更好的方式。

我们也在研究一些远远更复杂的场景,比如室内。一般来讲,室内自动驾驶其实比公路自动驾驶难的多。公路有车道,大家一般会按车道行驶,而拥挤的行人场景(如商场)完全不是这样——行人会做出各种各样意想不到的行为。

我们的目标,是用 MPDM 开发出在拥挤人群中也有较好表现的机器人。我们以三个策略入手对机器人进行编程:停止、单方面行动、跟随。其中,“单方面行动”指的是把所有物体(包括人)当做障碍,用最快速度抵达目标。它的好处是更快抵达,坏处则是不顾忌行人,行驶模式显得很疯狂。行人也不会喜欢一个从他们面前高速驶过,完全不顾及别人心情的机器人。跟随则相反,好处是不会影响别人,坏处是慢。

那么,该如何决定采取哪一种策略?

这一点也不容易。好在对于多策略决策,你并不需要做出选择,交给优化过程就行了。下图是系统架构;

对不确定因素进行采样,生成各种不同的场景,再放到模拟器去对这三项策略进行计算,得到结果的概率分布,最后选用平均下来表现最好的那条策略。

这里有一个很关键的问题:模拟的保真度极低:这些是非常简单的模拟器。机器人的多策略系统以 2~5 Hz 的频率运行,这是机器人改变策略的速度。每个策略选取周期大约有五次采样。这是非常低保真度的模拟器,能够快速处理数据并输出足够的统计信息。

回到自动驾驶可靠性的话题。之前我提到,现在的问题是如何摆脱摩尔定律级别的速度,进入一条幅度更加惊人的可靠性改进曲线。我们认为,多策略是其中一条实现该目标的途径。这里有几个原因:

  • MPDM 免去了许多切换逻辑,用线上优化代替复杂的 If…Then…。比如在变道操作中,许多自动驾驶系统有数页、数十页的条件设定规定在什么情况下换道,这造成了系统难以应对特殊情形。

  • MPDM 能处理不确定因素,这非常关键。比如,传感器遇到盲点就是个非常难以解决的问题。而 MPDM 能在信息缺失的情况下做预测,模拟新单位驶出盲区。

  • MPDM 能提升安全性。开发一个永远能做出正确操作的行为规划器,超级难。但设计数个终端规划器(eng-planners),在任意时间至少有一个能做出合理操作,则要容易得多。这时,只需要一个元规划器(meta-planner)对终端规划器做选择。

人们还经常会问,这些策略是怎么得出来的?

简单的回答:是我们造出来的。这是我们眼里又一个非常关键的部分。作为工程师,我们有大量的专业领域知识,充分利用这些知识进行策略设计很有价值。我们的目标,是实现用相对较少的策略抓住一系列很广泛的相关行为。一般而言,如果能想出一系列策略,横跨相当大的潜在行为空间,往往能得到非常不错的结果。

另一个问题是:如果某个现有策略(模型)覆盖范围之外的行为发生,怎么办?

好消息是,当不寻常的情况发生,系统会得到信号——遇到特殊情况。简单来说,这时系统会把这个特殊事物打上标签,并与它保持距离。例如,当某个骑自行车的人在十字路口连跨四条机动车道,系统并不会试图建立一个“疯狂自行车骑手”类别,而是直接打上特殊标签,离他远远的。

总结起来,MPDM 的好处有如下几点:

  • 降低系统复杂性,把高级别的决策(策略选取)与低级的控制分开;

  • 用相对较简单的架构获得紧急情况下的复杂反应能力;

  • 允许经验丰富的工程师把他们的知识写入系统。

雷锋网推荐阅读:

清华大学教授邓志东:起底自动驾驶,从技术路线到产业化落地实践

雷锋网

玩无人机,机器和人差多远? | IROS 2017

这是一场用实际数据说明,机器和人相差多远的比赛。

(IROS 2017无人机竞速表演环节,荷代尔夫特理工大学选手在尝试FPV操作)

在雷锋网看来,IROS 2017的无人机竞速比赛的“考题”要比IROS 2016要略简单一些,但仍然没有哪支队伍成功穿越全部13个门,最终的冠军队伍也不过穿过了9个门,成绩为3分11秒;而在正式比赛结束后的有操控表演中,一位带着VR眼镜的选手用46秒就穿越了全部13个门。而我们知道,FPV(First Person View)无人机视角要比人眼视角小得多,或许主办方希望通过摄像头视角的角度,尽可能将机器与人放在同一环境中比较,而这一比较使得我们可以更直观看出了机器与人的差距。

无人机竞速比赛的组织者、韩国成均馆大学的Hyungpil Moon也是雷锋网的老朋友,去年在韩国大田举办的IROS 2016无人机竞速比赛也是由他组织。他向雷锋网介绍,本次比赛共有6支队伍参赛,比赛场地在一个装有安全网的14×30米的场地进行,无人机需要在无操控的状态下穿越13个门,在最短时间内穿越所有门回到终点(也是起点)者为优胜者。如果没有选手穿越所有门,则先比较穿越的门的数量,如穿越的门的数量相同,则用时较短的一方排名在前。

(比赛场地及障碍物设置,13个门分为直道、弯道、急转弯道和动态门4个区域)

现场的效果是这样的。

   (在场馆里挂这个安全网,组织者给加拿大的安装工人付了5000加元【震惊脸】)

如上图所示,在地面上会贴有胶条用于定位,各支参赛队伍需要对无人机编程调试,让无人机可以识别出门的具体位置并进行穿越。比赛共分两轮,所有队伍轮流上阵,以成绩最好的一轮决定名次。

看起来很简单?实际上并非如此。

让我们来看一下比赛的进程吧:

比如ETH Zurich,该校是无人机飞控的先行者,该校的Pixhawk项目奠定了无人机飞控的基础,市面上几乎所有开源飞控系统都是由Pixhawk改进而来。艺高人胆大,由于对自己的飞控有信心,ETH Zurich在比赛中的策略也是采取尽可能快穿越的策略,在第一轮第三个出场,就取得了在36秒内穿越8个门的好成绩;

然而在第二轮中,ETH Zurich在完美的直线赛道加速后,正当大家在等待它拐弯的时候,它却突然意外坠机了……

出现类似情况的还有荷代尔夫特理工大学的团队,该团队去年也参加了比赛并获得亚军。在速度上,荷代尔夫特理工大学的无人机比ETH Zurich更胜一筹,第一轮中穿越第7个门的时候仅用时26秒,在第二轮中前期表现依然出色,穿越但在穿越第6个门的时候没有能有效识别撞到了门上;

由无人机爱好者组成的First Commit团队用的是自己组装的无人机,也是所有参赛队中体型最大的一个。在第一轮仅取得6个门1分21秒的成绩后,在第二轮中终于吃到了体型大的亏,在第8个门穿越的时候螺旋桨防护架不小心挂到门框导致坠机,但也凭借这次表现成功超越荷代尔夫特理工大学获得第三名;


相比之下,来自墨西哥的INAOE团队就要稳健得多,与之前的队伍相比,INAOE简直就是“一看二慢三通过”的代表,在第一轮最后一个出场,以不紧不慢的表现在3分11秒内穿过了9个门,在第一轮结束后排名第一。

第二轮开始后,由于之前队伍纷纷意外落马,INAOE实际已经锁定了冠军,焦点就集中在是否能创造更好的成绩上了。但遗憾的是,INAOE在成功穿过第5个门后并没有能很好按地面标记进行定位,而是撞在了边网上(现场工作人员还在拼命把边网往外拉),遗憾地结束了比赛。

(冠军团队INAOE)

那么,无人机自主越障比赛究竟难在哪里?从与现场交流和IROS中国参会群中的讨论,雷锋网总结出了影响无人机表现的三个原因:

1)视觉识别:多位同学认为,障碍的视觉识别是最主要的问题。无人机需要先识别出框再从框里面飞过去,但现场有很多框,当同时识别出多个框的时候有可能会出错,另外无人机有撞到防护网的,也是因为无人机难以识别防护网;

2)高度控制/定位:一开始的直线赛道,重点是控制高度直接冲过去(按照规则,无人机可以从只需保持规定高度),需要用视觉识别来计算水平距离,或者用超声波计算垂直高度定高;在定位上中,大家都会用地面标记来进行定位,但算法和现场的环境和调试可能都会影响实际的飞行效果;

3)路线规划与飞行控制:飞行路线的决策和调整、路径的转换都是比较大的问题。如湖南瑞森可机器人技术总监胡斌博士认为,虽然比赛是竞速比赛,但无人机的速度不好控制,在比赛条件相对复杂的情况下,慢是比快更好的选择,ETH Zurich和荷代尔夫特理工大学“Die Fast”就说明了这一点。

考虑到本次比赛也仅有6支队伍参加,而雷锋网编辑认识的不少做无人机方向的学生,因为来大会主要目标是做报告而并没有参加或者到场观看比赛,从某种意义上说,这一比赛并一定能代表无人机的自主操控与人类的真实差距,毕竟从实际应用场景看,无人机更多用于户外相关工作,而对室内运动缺乏来自产业的需求,这是否也是制约无人机的自主导航研究水平的一个因素呢?或许下一次比赛应该把场地放到室外,这样机器与人究竟相差多远,我们也能有一个更准确的答案。

雷锋网