月度归档:2017年10月

对话大众集团中国总裁海兹曼 | ALL in新能源,强化中国本土化自动驾驶研发

雷锋网·新智驾按:上个月由大众集团CEO穆伦公布的“Roadmap E”,将大众全系产品电气化转型的最晚时间点定在了2030年,也让大众成为众多传统车企中对新能源布局最为高调的车企之一。事实上,这却远不是大众庞大转型战略的全貌。面向未来出行,大众集团作何思考?而对于越发快速增长的在华市场,大众的本土化策略又是怎样逐步践行呢?

雷锋网·新智驾与诸多媒体受《未来出行说》之邀,对大众集团中国区总裁兼CEO海兹曼进行了深度访谈,试图回答这些问题。11月10日,即将在杭州举行的“全球未来出行大会”上,雷锋网·新智驾还将参与大众产品发布的更多进展。

“大众汽车集团正致力于从一家传统的汽车制造商转变成可持续移动出行解决方案的提供者。”在位于大众集团中国总部的会议室坐定后,海兹曼开门见山。

从电气化、智能网联化,到自动驾驶,乃至未来出行,大众汽车近年来在全球张开的战略版图中,以上这些转型都能被提炼出来。

最“ALL in”的要属新能源。

2016年,大众集团发布“2025战略”(Transform 2025+),三步走规划大众的新能源发展路线,而就在上个月,这一战略又被“Roadmap E”更进一步完成了概念的补充和延伸。

在“Roadmap E”计划中,一个关键点是大众承诺在2030年,旗下所有车型将至少有一款新能源汽车的覆盖。这意味着,大众集团旗下全系车型产品将在2030年的时间节点前完成电气化转型,影响范围触达大众全球各个市场近300余款车型。

放大看中国市场,海兹曼告诉雷锋网·新智驾,中国已经毫无疑问成为全世界增长速度最快的新能源汽车市场。针对中国,大众集团制定了有力的本土化新能源汽车战略,到2020年,计划为中国客户提供40万辆新能源汽车,包括插电式混合动力汽车以及纯电动汽车,2025年之前提供150万辆新能源汽车,其中大多数为纯电动汽车。同时,在未来两至三年内,将在中国市场推出15款本土化生产的新能源车型。

具体而言,前期,大众将基于MQB平台生产续航里程达300公里的纯电动汽车。之后,基于MEB平台本土化生产的纯电动汽车,其性能将与内燃发动机所能达到的相一致,车型的续航里程将达600公里。届时,这些新交付的车辆在智能互联方面也会达到更高的水平,并支持OTA等车辆功能的实时更新技术。

智能网联化方面,今年上半年,大众还与出门问问达成合作,布局汽车人工智能和语音交互;移动出行服务等方面,海兹曼表示,大众还在诸如网络约车、分时租赁、高端按需移动出行解决方案等领域,达成了新的合作伙伴关系。

在访谈中,海兹曼不断强调对中国市场的本土化策略和产品的差异化布局,大众对中国市场的看好,其实也表现在对“本土化”战略的践行上,这条路到底怎么走?雷锋网·新智驾将具体的问答整理如下。

从自动驾驶到未来出行

Q:大众汽车正在扩大在华研发,请问大众汽车单就自动驾驶领域而言,目前在华有着怎样的布局?更具体一点,在L3级及以上的自动驾驶车辆量产上,是否有明确的计划?

海兹曼:关于自动汽车研发方面,大众汽车也在加强大众汽车北京研发部门在自动驾驶汽车方面的研发力量。中国的交通环境和欧洲、美国不一样。一方面,大众汽车在欧洲自动驾驶汽车领域积累了很多经验;另一方面,对于中国市场的特殊性,大众汽车必须在中国的自动驾驶汽车领域多做工作。这也是为什么我们正在中国加强围绕本土的自动驾驶研发。

目前围绕着L3级及以上水平的自动驾驶汽车上路的有关法规在中国还没有最后成型,大众汽车会根据中国的特点制定相应的计划。在整个大众汽车集团当中,奥迪是自动驾驶技术方面的领先者。一旦中国的法律框架界定到位了,那集团有关这一技术的解决方案会很快应用于中国。

Q:除了出门问问,大众汽车和中国企业还有其他哪些合作?与传统的供应商关系不同,大众汽车在与这些企业达成合作方面有哪些创新呢?

海兹曼:在移动出行服务领域,我们在中国已经达成了一系列新的合作伙伴关系,除了出门问问,我们在分时租赁领域和首汽合作,在网约车领域与滴滴出行建立战略合作框架,在高端按需移动出行服务领域与一嗨租车确立了合作。移动出行服务市场的成长,是整个汽车行业转型的一个重要组成部分,即各种移动出行服务的兴起,以及整个汽车行业向以服务为导向的商业模式的转变。

在这样的转型中,出门问问的人工智能技术在发挥着非常重要的作用。在他们的语音识别解决方案当中,我们还在更多领域进行共同研发,包括方言识别能力等。

而且这已经形成了一个完整的产业链生态系统。我们要去解决的不光是驾车的需求,也包括车内乘员的需求,以及人们在驾乘过程中更多工作和生活场景的需求。

Q:大众汽车集团此前推出了第13个子品牌MOIA,MOIA会不会进入中国?如果进入中国的话,会以怎样的方式进入?

海兹曼:通过MOIA,大众汽车集团开启了移动出行服务的新领域。MOIA是大众汽车集团一个独立运行的子品牌,与此同时,我们与多个城市的当地政府也达成了合作伙伴关系。其中,做好服务的关键,是要更加深刻地理解按需移动出行的服务特点和客户需求,从而更好地满足这些需求。

从发展的角度来说,这样的服务模式是与自动驾驶汽车结合在一起的。首先,MOIA在德国推出后,我们会通过积累经验进一步研究适合中国市场的解决方案。在分时租赁、网络约车、按需移动出行等领域,我们在中国都与行业内的领先企业达成了合作,这有助于丰富我们在这个领域的经验,以寻找最适合中国客户需求的解决方案。

此外,这个领域的探索还必须要和智慧城市的解决方案结合在一起。在整个智慧城市的概念当中,我们要把各种不同的移动出行解决方案,通过人工智能等技术整合在一起,优化交通出行的需求和方案。所以,如果我们的移动出行解决方案能够成为整体智慧城市解决方案的组成部分,就能够更好地去避免交通拥堵的现象,成为可持续移动出行的解决方案。

关于新能源和在华政策

Q:大众汽车和江淮汽车的合资项目突破了之前的中国汽车产业政策,关于同一个外企在中国只能够成立同类型的两家合资公司的限制,也开启了中国汽车产业新一轮的合资浪潮。发改委虽然之前颁布了27号令,但并没有明确外企可以通过27号令组建一个新的合资企业,我们感觉大众汽车在这件事情上应该是得风气之先的。为什么大众汽车可以做到这一点?

海兹曼:在一般情况下,同类的合资企业只能够建两家。但是再建立合资企业也是有可能的,因为我们与江淮汽车建立的合资企业是在纯电动新能源汽车领域。的确,我们是率先采取这一举措的外资车企,在此之前,大众汽车和江淮汽车的专家,对有关政策做了非常认真的研究,也进行了论证,我们相信建立一个纯电动汽车的合资企业对于双方都是有利的。而且我们与江淮汽车的合资企业是专注于竞争非常激烈的主流大众细分市场,这和我们现有的两个合资企业在细分市场的布局是不一样的。

Q:大众汽车计划在新能源车上达到与传统汽车相一致的市场份额,实现这个目标有没有一个大概的时间表?是指目前现阶段大众汽车的市场份额吗?

海兹曼:大众中国在新能源汽车方面的计划,是到2020年要向中国市场提供40万辆新能源汽车,这至少能够达到我们目前制定的市场份额。谈到时间表,我们将在2020年初步达成这一目标,之后,随着新能源市场的进一步发展,新能源汽车的产销量还会逐年增加。

Q:一些观点认为,中国政府在发展新能源汽车的过程中,是在让外企向中国的自主品牌车企转让一些新能源汽车技术。大众汽车对于此持什么样的态度?

海兹曼:关于自主品牌车企和外资车企之间的关系,我们坚信,只有竞争才能推动未来的发展。为此,最重要的是要建立一个一致的、长期的、稳定的、可预见的法律框架。因为汽车产业是资本密集型产业,做出的投资项目也都是长期性的。这样的框架对于所有车企和供应商来说才是公平、开放的。也正是基于这样长期、稳定的政策法律框架,我们在新能源汽车领域也进行了大量的投资。今后,通过与中国三家合资企业的合作,我们还将不断推出全新的产品和长续航里程的电动汽车。

Q:此前,中国政府已经明确了双积分政策,您是如何评价这个政策的?这个政策是不是达到了咱们之前的一些预期?

海兹曼:对于“双积分”政策的公布,一直以来,我们高度赞赏中国政府致力于推动和支持整个汽车产业朝着可持续、移动出行的方向发展。在这一过程中,新能源汽车必然会占有一席之地。如此看来,我们在新能源汽车领域的规划与这一政策也相符合。当然,正如我刚才所提到的,我们期望的是一个一致的、可预见的政策法律框架,同时能够给予车企一个合适的过渡期。

当“传统”遇上“新势力”

Q:之前网上流传一个视频,就是大众汽车集团CEO穆伦先生在一次访谈中提出特斯拉在产能和员工关系方面存在很大问题。并且表示大众汽车与特斯拉相比,是没有竞争压力的。对于穆伦先生的观点,您怎么看?

海兹曼:我们一贯尊重其他车企的各项工作,包括特斯拉。在新能源汽车方面,我们在中国市场采用的是不一样的思路。我们努力塑造中国新能源汽车市场的未来,在这些技术中充当先驱者,并探索出一条新能源汽车发展的道路。这一点,在我们集团所有的车型、产能规划中都有体现。比如,我们的目标是到2020年,要向中国市场提供40万辆新能源汽车,这绝不是指涵盖一个小众市场的需求,而是旨在涵盖中国庞大的市场需求。

我们开展的所有项目在很大程度上,都是为了贴近中国市场,满足中国消费者的需求,并通过符合中国市场发展的方式来落实。这些项目中很大一部分的研发工作是在中国本土完成。

Q:中国本土也涌现了一批专注新能源汽车以及汽车智能互联的企业,比如蔚来汽车。您如何评价这些中国本土的新势力造车企业未来在中国市场的地位以及前景?从产能、技术方面而言,传统车企和新势力车企的区别和优势在什么地方?

海兹曼:大众汽车集团对于本土新型车企十分尊重,而且他们通过自身的工作,有可能让一些非常有意思的概念变为现实。他们的优势在于互联和数字化技术方面。但是,客户对于汽车及其品质等方方面面的期望和要求,绝不仅限于数字化技术领域。比如,一辆汽车的整体质量、可靠性、驾乘舒适性、性能、安全性等方面需要达到很多标准,才能满足客户各方面的需求。在这些领域的能力和经验,是不可能一蹴而就的,是需要依靠经验的。而大众汽车已经在中国植根三十余年,这是我们的优势。

关于下一步战略细节

Q:能否介绍一下大众汽车和江淮汽车的新能源合资项目的最新进展?

海兹曼:让我们回顾一下这一合资企业建立过程中的重要里程碑事件。今年6月1号,在李克强总理和默克尔总理的共同见证下,大众汽车与江淮汽车签订了合资协议。这一合资项目自启动以来一直处于全速运行当中,现在首款车型已经进入了路试阶段。明年,首款产品就会投放市场。

大众汽车与江淮汽车都有各自的优势和专长。大众汽车在技术和产品方面有着非常强的实力;而江淮汽车的流程更加快捷,在成本控制方面也非常有经验。合资双方成立了指导委员会,每个月会定期举行会议例会。在例会上,我与江淮汽车的安董事长对于合资企业的最新进展都会进行探讨。

Q:您在大众汽车已经工作了35年,其中有超过25年的时间都在和中国打交道,见证了中国汽车市场的飞速发展,现在的中国市场对于大众汽车而言有着哪些挑战和机遇?

海兹曼:一方面,大众汽车在中国已经有了30多年的经验,但另一方面,今天整个汽车产业都在经历着颠覆性的变化,新技术、新模式和新的竞争对手不断涌现。

比如,在出行模式当中,消费者对网约车、分时租赁和电动汽车都有着强劲的需求。自动驾驶也在快速发展。为了应对这些挑战,大众汽车必须进一步推动互联化和数字化发展,推动电动汽车及自动驾驶汽车的发展。另外,共享出行、人工智能也是当下汽车产业的重要关键词。所以,大众汽车需要继续驱动自身的转型,从传统的汽车制造商转变成为以人为本的可持续移动出行解决方案提供者。

目前,大众汽车已经启动了强大的SUV攻势。因为我们发现今天的客户对于SUV的需求越来越强烈。未来,集团旗下各品牌的车型中,SUV可能会占到一半甚至超过一半的比重。

大众汽车也已经开启了新能源汽车攻势。在新能源汽车方面,大众汽车将不断扩大旗下新能源汽车的阵容,提升新能源汽车的产量,这也能够帮助集团更好地达到控制燃油排放的目标。

随着新能源汽车补贴政策到2020年彻底终止,对于客户来说,价格会是一个问题。新能源汽车在价格上是不是相对于传统燃油内燃机动力的汽车有足够的竞争力,这对于大众汽车而言是一项重要的挑战,也是一个需要解决好的重要问题。因此,大众汽车从工程到设计,到平台概念和车型概念以及到多方协作,都需要通过综合手段实现更加有效的成本控制。

另外一个重要因素在于,新能源汽车的续航里程需要能够满足客户的需求。大众汽车旨在通过产品向客户提供不同的续航里程选择,包括300公里、400公里以及500公里。实际上,续航里程并非越长就越好,因为续航里程越长,电池容量越大,电池和整个车身就会越重,价格也会更高。所以,大众汽车会努力地满足客户对于续航里程的多样化需求。

第三个重要因素是充电基础设施,包括充电地点和方式。充电桩和其他充电设施能不能满足日常需求,在生活环境中有没有设置充电装置都是需要考虑的因素。

对于新能源汽车车主而言,他们需要知道例如充电站、充电桩这些公共的充电基础设施在哪里,是否可用。因此,未来也需要相应的充电桩预约服务出现。大众汽车已经开发了相关的技术应用,能够帮助车主了解充电设施的位置,向他们提供充电设施的信息。

另外,就是关于充电耗时的问题。这一方面取决于充电站和充电桩的能力及有无,另外一方面也取决于等待充电的车辆数量。从充电的耗时而言,不同的需求需要不同的技术,比如用户回家后以及在上班时的停车充电可以采用基于交流电的慢充电。但如果是在购物、就餐等情况下充电的时候,就需要高电量的快速充电解决方案。目前,中国大部分的直流电充电设施为40到60千瓦。欧洲有些地方正在建立更大的快速充电直流电网络,能够达到350千瓦的充电能力。

所以,上述种种对新能源汽车的发展,特别是客户是否愿意购买新能源汽车来说,都是非常重要的挑战和议题。

下一个挑战就是在自动驾驶技术方面,刚才也提到,大众汽车不单需要考虑法律法规,还需要充分考虑到中国的路况和用户的驾驶习惯。

雷锋网

独家专访 | 获得软银巨额投资的 Mapbox,要如何为自动驾驶提供地图服务?

2010 年,来自新英格兰地区南部小城的美国人 Eric Gundersen 在华盛顿创办了 Mapbox ,主要为地图制作开发相应的工具,特别是那个时候移动设备对于地图、定位的需求非常旺盛。

Eric 与地图的缘分很深,此前他为赞比亚的疟疾爆发追踪进行过地图监测,还在阿富汗地区为美国政府服务过,开展了很多项目,多数都要用到地图相关的服务。然而当时让 Eric 困扰的是,市面上没有像样的地图以及定位工具,所以他所在的项目组很多时候工作难以展开。

正是看到这一领域的市场空缺颇大,回国后,Eric 拉来几个伙伴开始开发地图制作工具,针对个性化地图开启了创业之路。

*Mapbox CEO Eric Gundersen

起初没有地图数据,Eric 的创业团队便在开源平台 OpenStreetMap(OSM) 上拿数据,拿到的这些原始数据必须进行二次开发,对其进行筛选、标注、重构,形成 Mapbox 自己的地图底层数据。2012 年,Mapbox 发布了针对 iOS 的地图 SDK ,可以供其他开发者采用。也是在这一年,投资机构 Knight Foundation 拿出 57.5 万美元,让 Mapbox 为 OSM 开源平台优化整体的用户界面以及底层架构,为的是吸引更多的人进驻平台。这一单也让 Mapbox 开始崭露头脚,自身的地图开发工具产品也在不断推出。

2013 年,Mapbox 拿下 Foundry Group 1000 万美元融资,开始在交互式地图、移动地图领域发力。同时 Eric 团队对于大数据的处理能力也在不断提升。

进入 2014 年,Mapbox 在旧金山新开了办公室,同时还在地图导航领域推出相关的产品,业务范围不断扩大,旗下的地图工具平台也逐渐走向开源,走向社区化。 Mapbox 的脚步在后续越走越快,先后在秘鲁和印度开设办公室,业务走向全球化。

2015 年 6 月,Mapbox 关闭 B 轮融资,拿下 DFJ 领投的 5260 万美金,开始朝着成为所有移动应用的“底层地图”的目标前进。那个时候,Mapbox 已经积累了诸多客户,包括 Foursquare、Pinterest 等等。

后续的发展中,Mapbox 一直在开发不同类型的产品,积累用户,同时进行全球化扩张。在这个过程中,Mapbox 积累的客户超过 4000 家,逾 90 万注册用户正使用其开源工具进行地图、导航方面的开发。

最为吸引雷锋网新智驾关注的是,10月上旬,Mapbox 在 C 轮融资中拿到了 1.64 亿美金巨额融资,其中软银旗下的千亿美元基金“远景”(SoftBank Vision Fund)进行了领投。外媒分析认为,软银是把 Mapbox 作为自动驾驶汽车发展的重要地图软件来看的,所以寄予厚望。而从 Mapbox 此前的发声中也可以读出,拿下了这轮融资,公司将会在车内导航以及自动驾驶方面进行更大的投入。

正因为刚刚拿下融资,雷锋网新智驾也在第一时间来到 Mapbox 位于旧金山的办公室,和其副总裁以及工程经理聊了聊 Mapbox 的过去以及面向自动驾驶的未来。

以下为雷锋网新智驾对 Mapbox 的专访实录(进行了不改变原意的编辑):

Paul = Paul Veugen

Paul Veugen 在 Mapbox 主要负责移动业务团队,加入 Mapbox 一年多时间。此前,他创办了健身追踪 App 供应商 Human,2016 年 8 月 18 日,Mapbox 宣布收购 Human,后者的团队整体并入前者,共同致力于软件开发工具包(SDK)和实时地图服务工作。他本人成为 Mapbox 移动业务副总裁。

Morgan = Morgan Herlocker

Morgan Herlocker 2014 年加入 Mapbox,目前担任工程经理,主要探索 GPS 数据在移动 App 以及交通导航方面的应用。同时,已经参与到 Mapbox 自动驾驶地图方面的前沿项目组,通过构建一些模块将海量的轨迹数据打造成自动驾驶汽车可用的高精度地图。

新智驾:成立七年,Mapbox 拿下 4 轮融资,商业模式上经历了哪几个阶段?

Paul:公司刚成立的时候,我们在做自己的项目,最开始定位为一家咨询公司。公司的创始团队主要是为 NGOs(Non-Governmental Organizations) 工作,与政府的联系非常紧密。当时我们是在阿富汗地区从事美国国务院的咨询项目,其中有一项便是制作一些当地的地图。但当时现存的工具无法满足要求,所以我们开始自己制作地图工具。

我们将工具以及相关服务提供给 NGOs 还有其他公司,这也造就了 Mapbox 一开始的产品。包括制作地图的工具、数据可视化工具、交互地图等。这些年来我们都在做这些事情。

我们从网页地图开始做,用的是开源平台 OSM 的地图数据,制作个性化地图开发工具,搭建属于自己的开源平台,为地图开发者们提供服务。这个平台聚合了地图、搜索和导航产品,随着时间的推移,产品也在不断迭代。

目前已经有超过 90 万开发者在使用我们的平台,而且还有诸多的客户如 Facebook、Snapchat、Twitter 在使用我们的工具。我们也因此获得了很多定位数据,有利于优化产品。

*Snapchat 应用中的地图便使用了 Mapbox 的工具和服务

以前我们还是 2 级开发者的角色,如今已经有 8.2 万月活开发者在使用我们的工具和服务,并为此支付相关的费用。

新智驾:公司在每个阶段都是如何获取收入的?

Paul:当然最大的收入还是来自使用我们的地图工具、开源数据等服务和资源的客户,还有使用我们平台的订阅用户支付的费用。公司之所以要募集资金,主要还是为了满足本身不断发展和壮大的需要。

新智驾:从开源渠道获得的数据都是原始的形式,你们怎么重新标注、处理、重构?

Paul:OSM 是一个非常优秀的开源社区,数据量一年一年的增长,成百上千的贡献者每天在这里贡献数据。我们自己也有超过 50 个其他的原始地图数据来源供使用,但这不是全部。要做一张个性化的地图还是要有自己开发的部分,很多开发者在使用我们的开源数据的时候,同样要有自己的东西放进去。

实际上我们的地图是一个不同地图数据的集合体,包含了不同的图层。

OSM 开源数据是基础,我们在这个基础上继续进行搭建。而且我们也会不断进行调整,一旦开源数据层的数据有变动,我们也会及时进行更新,保证用户使用到的地图是非常准确的。

每个月,超过 3 亿用户触及我们的地图,这些用户产生的巨量定位、轨迹数据会以某种形式返回到我们的 Pipeline 中。我们用来提升地图准确度、实时性,同时了解用户习惯,可以说是一比特一比特来优化我们的地图。

我们还有有交通状况的图层,我们在全球60个国家提供实时的交通状况。此外,我们还有外部获取的大量的卫星图像。

所以我们的地图有 OSM 开源地图的数据、自己拥有知识产权的数据以及拿到许可的外部组织提供的数据(有些是购买的)

新智驾:为什么客户会选择 Mapbox?

Paul:我们本身是开发者,我们也为其他开发者提供工具,这些工具非常灵活,开发者可以做他们想做的事情。我们本身不关心你把地图做成什么样,每一个用例都是不一样的,需求是多样的。

我们给开发者的是灵活的地图构建工具(Building Box):我们允许他们开发个性化地图、个性化搜索,创造属于自己的用户体验。

开发者获得我们服务的入口、为 API 接口付费,开发者可以在这个上面打造自己的地图,而且我们还能在不干涉开发者自己数据的情况下一直帮助他们进行优化更新。

新智驾:此前 Eric 说过,Mapbox 不只是打造漂亮的个性化地图,而且拥有快速处理海量数据的能力?

Paul:我觉得最好的例子就是我们的实时交通地图了,我们已经在全球 60 个国家有这样的服务,每个月超过 3 亿人在使用我们的地图,每次他们使用我们的地图,他们会将很多数据(位置、路径)分享出来,回到我们手中。

有了这些巨量数据,经过分析处理之后,可以不断更新(每几分钟更新一次)、优化我们的地图,让地图具备鲜活的生命力。

为世界构建地图实际上是一件非常困难的工作,有很多地方需要去覆盖,还要将地图和人们的生活活动结合起来,确实是一件非常有意思的事情。

新智驾:获得软银投资后,Mapbox 如何在之前导航服务的基础上切入自动驾驶?

Paul:为半自动驾驶、自动驾驶汽车提供地图服务。

我们对汽车导航业务非常重视,无论是现在你需要自己开车还是未来你只是车内的乘客,地图导航提供的可视化信息也会让你在旅途中更为安心。

Morgan:GPS 数据很有趣。比如在一条街道上,人们每天的不同时段开车行进的速度是怎样的、在过去的 20 分钟内行进的速度是多少,都有分析出来。我们还能为用户指引出一条精确的行进路线以避免事故或者施工的情形。

而这样的要求对于自动驾驶汽车来说也显得尤为重要,构建出高精度的场景地图能给自动驾驶车辆更多的位置信息,让其了解周围的环境如何。除了车上的传感器之外,高质量的细节性地图也是必要的,因为没有地图就没办法进行大范围空间的定位。

新智驾:MapBox 有高精度地图的构建计划吗?

Morgan:我们正在构建高精度地图,我们称之为“轨迹地图”(Trajectory Map)——可以和自动驾驶车辆上的其他传感器结合起来。

通过轨迹地图,我们知道车辆是怎样在道路上运转的,比如车道连接的情况、车辆怎样通过十字路口、如何进/出高速等等。

而且因为我们是基于 GPS 数据的地图,所以能与其他传感器配合起来,不但能知道这是一个转弯,还知道这个转弯你的速度是多快,同时在这个弯道加速和减速的具体情况如何。地图里还包含很多 Ground Truth(地面实况)。

此外,一旦道路上出现什么样的意外,所有车辆的轨迹都朝一个地方去的时候,肯定预示着该地发生了什么事情,这些轨迹就会提醒其他的车辆,选择其他路线。

其目的就是让整个行车过程更为顺畅。当然这样的地图并不是要取代其他的车上传感器,而是作为一种补充的能力。

新智驾:MapBox 以后会自己去采集地图数据吗?

Paul:我们已经在做这件事情了,每天会有 2 亿英里的道路数据、交通情况数据被收集起来,来源于海量的用户。这些数据可以为我们的导航 API 提供助力。我们还有收集轨迹,比如高速公里的行车轨迹,所有的这些都实时在对这个世界进行描绘。

新智驾:MapBox 接下来有什么自动驾驶方面的计划吗?

Morgan:我们一直在看要把自动驾驶带向市场需要些什么。

Paul:我们正在和一些车企进行合作,和他们的自动驾驶的研发部门进行合作,在地图项目上进行共同的推进。Turn-by-turn 导航已经被客户在使用了,未来会有更多的产品推出。

而且我们正在加大投入,主要针对自动驾驶方面,特别是在拿了软银的投资之后。目前我们也在和 Unity 合作,在 AR、VR 地图方面进行相关的研发。

公司有 290 人的团队,180 人是工程师、研发人员,目前还在大力招人。

新智驾:进入中国市场的计划如何?为何选择进入中国?

Paul:在上海有办公室,在中国有合作伙伴易图通帮我们进行代理,我们已经获得授权来进行数据的收集和服务。从事的业务和在美国的业务相通,都是为地图开发者提供工具。

选择进入中国是因为中国很多的商业公司在全球范围内进行经营,全球化运作非常好,Mapbox 对这点很感兴趣。其二,中国消费者经常到全球各地旅游,所以对全球各地的基础设施地图有需求,构建一张全球性的地图是一项非常有意思的挑战。

雷锋网

旷视科技完成 4.6 亿美元 C 轮融资,刷新人工智能领域融资纪录

雷锋网 10 月 31 日消息,国内人工智能公司旷视科技(Face++)已于近期完成 C 轮融资,本轮融资金额约为 4.6 亿美元,本轮由中国国有资本风险投资基金(简称“国风投”)领投,蚂蚁金服、富士康集团联合领投。本轮融资由 C1、C2 两轮构成,同时引入包括中俄战略投资基金、阳光保险集团、SK 集团等新的重要投资者,腾达资本作为本轮融资独家财务顾问。本轮融资很可能会被用于加快在城市综合大脑及手机智能领域的技术落地,打造智慧城市。

值得一提的是,本轮的领投方中国国有资本风险投资基金是经过国务院授权批准成立,中俄战略投资基金由中俄两国主权财富基金共同设立,两家具有政府背景的基金投资,对于旷视科技在 B 端业务拓展方面,或能起到促进作用。

旷视科技成立于 2011 年,主要做计算机视觉相关技术研发与应用落地,创业之初获得了联想之星天使融资;2013 年获得创新工场百万美元 A 轮投资;2015 年获得来自启明创投、创新工场 2200 万美元 B 轮融资;2016 年获得建银国际、富士康集团新一轮融资。而此次的 4.6 亿美元融资金额也刷新了人工智能领域融资纪录。

作为在国内计算机视觉领域最早创业的公司之一,旷视科技在技术实现、业务拓展方面都有自己的独特优势。

在技术方面,旷视科技最早从人脸识别技术切入,后拓展至计算机视觉其他领域。目前,旷视科技团队累计获得国际人工智能技术评测冠军 10 余项;揽获世界级奥林匹克金牌超过 70 枚。此外,旷视科技的国内外在申及授权专利已超过 500 件,并代表行业领先技术提供方参与了 15 项人工智能国家及行业标准制定,是国内最大原创人工智能企业之一。

雷锋网了解到,在 2017 年 MS COCO、Places 两项世界顶级竞赛中,旷视击败了 Google、微软、Facebook,成为第一个获得多项冠军的中国企业。

在业务方面,旷视科技目前的主要业务来自于安防、金融、移动应用三个领域。旷视科技以深度学习和物联传感技术为核心,致力于围绕用户核心需求为各行业提供全球领先的智能数据服务和安全易用的综合智能解决方案,核心合作伙伴包含国家公安部、国家身份证中心,以及阿里巴巴、蚂蚁金服、华为、联想、富士康、中信银行、招商银行、小米、vivo、万科、凯德等近千家企事业单位。

立足自有原创深度学习算法引擎 Brain++,旷视科技深耕金融安全,城市安防,手机智能,商业物联,工业机器人五大核心行业,并通过打造 MegCity 城市大脑数据平台助力智慧城市和平安城市建设。

在金融安全领域,作为中国最大的第三方实名验证平台,旷视科技旗下的 FaceID 平台已为全球 2.5 亿人完成远程实名身份验证,是支付宝、今日头条、滴滴出行等互联网大型企业重要人工智能服务提供商;在城市安防领域,旷视科技的智能安防系列解决方案已在全国 26 个省市上线并被中国公安部列入重点技术推广目录,作为国家公安部重大活动智能安保方案主要提供商,旷视科技在杭州 G20 峰会、厦门金砖峰会、海南博鳌论坛、上海劳力士大师赛等众多国际级峰会、赛事的安保工作中发挥了积极作用。

而在手机智能领域,旷视科技与 vivo、小米等国内一线手机厂商实现合作,领先苹果率先发布人脸解锁手机;在商业物联领域,旷视科技先后与阿里巴巴、小麦铺、缤果盒子等新零售企业联手,为智能零售概念品牌输出全面的视觉和感知技术。 

旷视科技所在的计算机视觉创业赛道竞争尤为激烈。今年7月,商汤科技宣布完成 4.1 亿美元 B 轮融资,这是当时全球范围内人工智能领域迄今最大的一笔单轮融资纪录,此轮融资有近 20 家顶级投资机构、战略伙伴参投。今年5月,依图科技也宣布完成 3.8 亿元 C 轮融资,由高瓴资本集团领投,云锋基金、红杉资本、高榕资本、真格基金跟投。

除了面临友商间的竞争,他们还面临与各行业的原有巨头玩家。以安防为例,从技术服务起家,旷视科技的技术、产品多是被集成到安防产品中,最终在项目中落地。而当前,诸如海康威视、大华等传统企业也在加强技术方面的投入。

据了解,旷视科技的核心团队由来自清华大学、美国哥伦比亚大学、微软亚洲研究院等国际顶级院校、科研机构的技术极客,与来自谷歌、阿里巴巴、华为、微软等跨国企业的产品、商务人员组成,包括前微软亚研院首席研究员孙剑、前Adobe首席科学家王珏在内的业内专家先后加入。

目前,旷视科技(Face++)已在北京、西雅图、南京设立独立研究院,并在十余个省会级城市设立分部。在“赋能机器之眼,构建城市大脑”的愿景下,推动人工智能技术在中国及全球范围的产业落地。

雷锋网有关旷视科技的报道如下:

《旷视科技成立 6 周年,我们和孙剑聊了聊》

《小麦公社推出智能便利店,旷视(Face++)要帮其解决这三大问题》

《商汤、旷视们“闯入”安防圈,传统安防巨头们怎么评价这些AI新贵?》

《旷视首席科学家孙剑:Face++的研发要从哪四大方向发力? | GAIR 2017》

《旷视科技孙剑:如何在大公司和创业公司做好计算机视觉研究(一)》

《孙剑亲自撰文:我在 Face++ 的这半年》

雷锋网

百度王辉:剑指智能金融,数据红利期互联网巨头的着眼与发力

 雷锋网AI金融评论报道,10月27日,为期一周的第二届香港金融科技周落幕。在27日以“智能金融,会取代华尔街吗”为题目的智能金融论坛上,百度金融战略管理负责人王辉分享了百度在智能金融时代,对于人工智能等科技与金融交流融合的战略思考,和对未来以流量实现价值变现的全新商业模式发展愿景的描绘。

他提出,金融和技术一脉相承的发展历程,到了今天已经步入了人工智能为主的深度合作新阶段。在人工智能科技主导的大背景下,百度通过利用大数据、区块链等技术手段,着眼在智能金融时代特征所所孕育萌发的拓展用户人群、提升效率、资产配置和金融业务线上化等四大机遇,并根据这四大机会为当今互联网巨头布局智能金融提出了四方面能力的新要求:

  • 1.独有数据去验证价值的能力。

  • 2.流量到服务转化的能力。

  • 3.新的技术能够通过工程化、产品化和商业化的能力。

  • 4.软性的。两拨不同的人,在跨界里面能不能形成非常好的文化,成为一个核心的竞争力。

据雷锋网AI金融评论在现场了解,在论及具体的数据应用方面,王辉特别提到,针对那些广大缺乏央行征信数据的人群,百度利用积累的线上大数据对传统金融机构进行补充说明及验证,由此构建大数据风控体系;甚至于更进一步,在进行用户边界扩展的时候,他认为,过度追求千人千面在目前技术现状之下不具有太大现实意义,百度尝试通过对已有大数据的深度分析,发现不同指标之间的内在联系,为用户的风险画像做出贡献,从而为这群潜在用户拟合征信数据。

以下为王辉演讲全文,雷锋网作了不改变原意的编辑:

如果从金融角度来看,其实金融的发展跟技术的发展是一脉相承的,其实金融的发展就是技术不断发展的历程。最早的时候,我们第一波是看到了电子化,原来都是打算盘,手工记账,慢慢的把所有的报告(report)都能够线上化,电子化的一个过程。

第二个阶段,移动化。移动化这个阶段,在中国的大陆其实已经蓬勃兴起,不管是移动支付也好,还是电商也好,不管是在借钱也好,还是在网上买投资理财的产品也好,可以看到,移动化的进程,伴随着2012年到2016年,移动互联网时代的到来,其实是非常有益的。

自从AlphaGo跟人类下棋赢了之后,在2016年的时候,我们就进入了人工智能的时代。我们的董事长李彦宏先生也宣布百度从一家移动互联网的公司,转变成了一家人工智能的公司,正式揭开了人工智能的大幕。但是,人工智能的基础也会推动金融,进入到这样新的时代,我们内部叫做智能金融的时代。

以人为本的智能金融时代:大数据和AI为核心创造价值

围绕“以人为本”凸显四大机会

这个时代会有什么样的特征呢?我们发现,前两个时代其实更多是以效率为核心的,不管是电子化还是移动化,基本上大部分的时间都在解决效率的问题:我如何能够支付得更快更便捷;我的线上的购买如何能够更加顺畅等等,更多地是在渠道层面、效率层面还有流程层面的一些变革,不管是基础设施的系统还是业务建造等等。但是真正到了人工智能时代之后,我们会发现人工智能的技术,帮助金融真正能够实现以人为中心。

什么叫以人为中心呢?就是大家俗称的千人千面,每个人在网上得到的服务,其实是不一样的。我们可以在市面上看到,多多少少都有或成熟或不成熟的一些应用,能够去体现以人为中心的概念。比如说图像识别,其实可以让大家去做大型的申请验证、身份证的核验,实名的认证可以通过图像识别的技术来实现。

ID Mapping,其实是我们在内部推的一个理念,当大家在虚拟世界里面,有多个身份(identity)的时候,可以通过这样的技术把所有的东西关联起来,能够去识别你是谁(who you are)。

我们经常说,在互联网特别是PC互联网时代,你不知道对面聊天的是谁,但在人工智能时代是可以的。因为这些信息的关联可以真正的让你证明你是你。所以,在虚拟世界里面,在人工智能的世界里面,“证明你是你”,这是一个非常重要的话题。

机器学习,智能服务其实可以帮助我们实现千人千面的理财的服务,因为每个人的风险偏好,每个人的投资和理财的需求是不一样的。

人脸识别。现在在百度的大厦里面,不管是移动的售卖机也好,还是食堂买饭也好,基本上都可以刷脸支付了。

区块链。其实百度发布了第一单基于区块链的ABS,区块链是一个底层的技术,它可以把非常长的涉及到多方的ABS交易架设到链上,能够让我们的认证和交易变得更加的便捷。

LBS我们也在探索,(还有)真正的UBI,对于保险科技(Insurtech)来说还比较遥远。但是LBS和UBI技术确实可以帮助机构去判定你的驾驶行为,从而能够产生出个性化的保险,每个人的保险的保费应该是不一样的。我们在畅想未来的保险是什么样子的时候,基于LBS和UBI的保险一定是一个不可脱离的话题。

所以,当人工智能的技术在往前发展的时候,我们会发现,原来相对比较大同小异的金融服务,会因为技术而变得更加以人为本。这是我们对于智能金融的理解。

往前看,在整个中国市场上,人工智能和金融的结合,也就是智能金融时代会有哪些机会?给大家分享一下我们的一些心得。

1、争取人群拓展的机会。我们可以看到,在整个中国,有8亿的经济活跃人口,但是真正在央行里面有征信报告的只有3亿人,所以有60-70%的机会。

我们的确看到,争取人群的拓展是一个巨大的机会。如果回到中小企业上面来,可以看到50%的中小企业是得不到贷款的。所以,随着征信人群的建设,这些都是在中国非常大的,能够帮助服务变现、能拓展的机会。

2、资产配置的机会。我们看这个市场,中国国人可投资的资产规模只有差不多160万亿,其中,大众富裕,也就是个人可投资的资产占60万以上的,占2000万人。如果从结构的角度来看,中国的整个资产配置里面,金融的资产占比重的12%,美国比我们差不多36%。很多人就说,比例的差异有非常多的房产的因素在里面,但是这个差距仍然太大了。

所以整个中国的资产配置,特别是针对于中产阶级的资产配置是一个巨大的机会。在原来,大众的理财产品基本上是被满足的特别好,银行理财20多万亿元,有年化5-6%的收益率。私人银行其实也被服务的特别好,非常多的银行都有私人银行,但中间这层,新兴的中产阶级(新秀)其实没有得到差异化的服务。

 右边我们可以看,中国的保险市场,应该是仅次于美国,但是从保险的密度和保险的深度来讲,离发达国家还有很大的差距。

在香港推广书里面,保险科技也被列为一个重要的发展方向。可以看到,保险在中国的发展前景是非常大的,是我们碰到的第二个机会。

3、线上化的机会。刚才讲了一个关于移动支付的问题,其实在支付领域线上化已经很全了,但是我们在金融领域看到了更大的市场:线上化的比例是非常低的。所有的互联网公司都会从线上化找机会,因为现在流量非常贵,有了流量做基础的话,不仅可以创造很多业务上的奇迹,也可以创造很多基本市场的奇迹。

所以,就线上化的机会而言,对于流量的巨头,其实还有很多跟金融结合的空间。其中,理财是最高的,因为我们可以看到,银行理财除了第一次要线下面签以外,后续的购买都可以在网上去实现,所以理财的购买,包括陆金所还有其他的一些互联网巨头,反而线上化达到10%。

信贷其实还没有那么高,只有6%。保险更低,保险基本上是一些标准化的产品,像意外险或者是一些在现场购买的标准化的产品,寿险还相对比较难。这个数字一定会有巨大的提升。

4、效率提升的机会。中国内地所有的银行、保险等等这些上市公司,去看他们的成份,运营和客服加起来应该有万亿级的成本。我们内部粗算了一下,如果这些成本通过技术的手段、用新的技术来继续提升他们的效率,可以被压缩50%以上。

在百度,我们在内部做了一些关于智能客服的测试。发现差不多80%的标准化的问题,都可以通过智能客服的手段去解决;还有70%的质检的工作,可以通过智能质检的方式来解决。判断一个客服人员的回答是不是标准,是不是符合规范,超过70%的都可以通过技术的手段来去解决。这个进一步说明了,新的技术如何去压缩成本,提高效率。

所以,在整个金融市场上,我们看到,会有拓展征信人群的机会,让更多的人可以享受到金融服务,会有资产配置的机会,也会有线上化的机会,更有进一步的效率提升的机会。

智能金融时代互联网巨头的四大发力点

为了去把握这四个机会,其实我们认为有四个方面的能力是非常关键的。

能力一:相对独特的数据。在人工智能的时代里面,所有人都在讲,数据是非常重要的资产,有没有独特的数据,以及这个数据能不能在你从事的领域,比如说金融领域得到发挥,是一个非常关键的话题。

在百度,我们做股份金融和人群拓展的时候,用我们的数据做了非常多的维度的画像。我们可以把一个申请人的学历、职业、年龄、资产和收入都进行画像(基本上在百度的记忆的账号里面),通过去识别你是谁,以及你从事什么样的工作,你是什么样的年龄段,以及有什么样的资产,什么样的收入,基本的规模可以拿到差不多E级的水平,准确率都是在80%以上。

这个其实可以从另外一个角度去证明:即使你没有在传统的征信体系里面有记录,但如果你是有这些比较重要的风控表现的标签的话,你仍然可以去做到非常好的信用的水平。然后,我们可以把这些人进行不同的分层,我们会把他们分成A、B、C、D、E,不同的层级代表了不同的方向的标签,也会得到不同的利率和不同的额度。

目前看起来,我们能够去拟合出来的名单已经达到了2亿。这2亿不仅包括了有央行征信的记录,还有相当的一部分是没有央行记录,或者是央行记录相对有些瑕疵、或者比较薄的一些人群,这些其实是我们能够去做普惠金融的非常重要的一个基础。所以,(获取)独有的数据、进行风险标签的拟合,(从而)去判断风险水平,然后再开展业务是非常重要的基础,这是第一个能力。(详见下文)

能力二:流量劳动服务的转化能力。所有的人都在想一个问题,关于流量,不管是搜索也好,还是点击也好,这个东西怎么能够去生成一个金融的资产,中间的路径其实是非常长的。有一些公司已经明白这点了,有一些给传统金融机构倒流的公司,其实可以走到中间这一段,就是从流量能够形成一个有效的申请,把所有的基本信息填下来之后,再把用户的基本信息倒给金融机构。

这其实只是做了中间这一段,后面这段资产生成的部分其实是金融机构在做的。那如果我们从互联网的角度再往前看一步,如何能够从一个有效的申请再到资产生成的过程,中间还是要走非常多的步骤:

第一个被验证的价值是关于智能获客的价值。非常多的传统金融机构会有一个很大的痛点,这个痛点是相对比较低频的金融服务,我不知道什么时候我会买房,我也不知道什么时候我会买车。保险也会非常低频,包括教育、医疗、美容、装修和旅游,它不像支付每天都在发生,具有低频的特性。

所以,在什么时间能够把握住这个人的需求会变得非常重要,在我们内部叫做响应。当你出现一个需求的时候,你会对某个金融服务产生响应,这件事情就变得异常的重要。传统的金融机构会受限于他们的门店,也受限于他们对客户的生命周期的把控,在寻找时点的时候,会变得非常头疼,这是他们一个很大的痛点。

当我们每天打开微信或者是其他的移动互联网的APP的时候,我们都是在互联网进行一些需求的表达。当你能够表达出这个需求的时候,就能够通过大数据和人工智能的技术更好地来去捕捉这个时点。

内部百度有一个响应的模型,这个模型的最下层是刚才我们把不同的人按信用进行的分布。你可以把它简单理解为信用好的人和信用相对差一点的人。传统金融机构里面,一个比较大的痛点就是,信用相对比较好的人,或者相对比较有钱的人,他的需求是非常不易捕捉的。而我们通过响应模型去看,他对于某一个金融产品的响应的率能够超过10%,就意味着每来100个类似于这个评级的人,我能够捕捉到超过10个有潜在的金融的需求的人。这比你在线下茫茫大海去找这样一个人,和找他这样的时点会轻松。这是第一个被验证的价值,就是如何能够更加智能地去获取客户,捕捉他们的需求。

第二个价值,我们内部有一张癌症图,每一个节点都代表一个机构,是正常的表现的话会看到,分布相对比较均匀。不同的节点之间连起来有一些异常现象的话,都会用彩色标注出来。

在正常的表现里面,其实人和人之间没有那么多的异常现象。所以你会发现,这其实存在欺诈,欺诈基本上都是线下行为,通过某一些线上化表现,不管是通过电话也好,短信也好,还是通过其他的行为也好,把所有这些异常的人都联系起来,如果其中的一个节点我们判断为有黑或者疑似黑的特征,一串的人都会拉出来。所以,正中间的话,我们会发现某一些机构就会存在欺诈,而且它扩展的范围有多少。

最后,把所有存在异常的机构放出来,看它们的预期表现,就能看到这些机构欺诈的程度。而这个反欺诈的网络,我们内部叫福尔摩斯,基本上是抓坏蛋的。

所以,在我们在跟机构合作借助服务的分期贷款的时候,对于机构风险的把控我们会建设成一个巨大的关联网络,而且这个关联网络是在线上实时运行的,它可以保证我们在第一时间对一些潜在的欺诈风险进行预警,从而去避免更多的损失,这是第二个被验证的价值。

在中国的市场,欺诈的风险和信用的风险的比例是8:2,在成熟的市场是2:8,是倒过来的。所以,在中国反欺诈和反黑,其实是更重要的一个话题。

 第三个价值,信用的风险。我们一直在尝试证明一件事情,就是百度的互联网的数据,跟央行的征信数据之间到底有什么样的关系,他们之间叠加能不能产生比例关系(delta),能不能产生额外价值贡献(extra value contribution)。

央行征信数据,关于风险已经是非常强的的状况说明,每提升哪怕千分之一的比重都是非常难的。在我们内部的实验证明,互联网的数据和传统的数据之间是有化学反应的。他们之间可以创造出更多的delta出来,对于那些没有央行征信的人群,我们内部的模型线和KS值能够超过30%,这已经是相当不错的水平了。

所以,对于没有央行征信的,通过互联网的行为数据,可以拟合出来一个你的征信水平,从而使金融有了至少一个可能性,这个是第三个价值。

所以,当我们在讲从流量到金融资产的时候,中间路程其实是非常漫长的。它会经过画像,我得知道你是谁;知道响应,在某个时点,对于某个金融产品,会有比较好的表达;会通过有效的渠道找到客户,然后去验证你是你,再往上证明你真的是你,去做反欺诈和风控;最后,把不同的产品匹配给客户,完成整个过程。

只有管理者能把这整个过程所有的能力一层一层建设起来,才能够真正地把流量–互联网上哪怕一个点击的行为,转化成最后的金融服务,这是我们在尝试去做的非常重要的一个能力。

能力三:是从工程化到产品化到商业化的过程。这个是什么意思?就是有非常多的金融科技的概念还停留在基础层面,但是从技术到真正的应用,能够跟产品融为一体还是需要相对比较长的过程,我们内部把它叫做“能用”、“好用”和“真用”。

“能用”是从基础层面上,能解决非常多的问题。比如说,人脸识别里面,光线变暗的时候,你去加点底;照片模糊的时候,你去保存照片;脸部遮挡的时候,你可以体现语音提示播报,这些都是feature层面的。

“好用”的意思是说,在我们内部的场景里面,因为大家有信任,相对来说保证这些金融科技的概念顺畅好用。

“真用”是什么?是金融机构能够为此而付钱,能够形成一个商业化的合同。

所以,从能用到好用到真用,是整个科技能够形成真正的生产力必不可少的过程,也是金融科技能够嵌在从流量到服务里面去建立能力(capability)的非常重要的路径。但是这个能力并不容易去打造,因为互联网和金融的结合本身就是两拨人在共同创造一个新生事物,在这里面会存在非常多的沟通成本,和大家互相去学习和借鉴的地方。

能力四:文化。我们常讲,互联网人是一帮野蛮人,他们都在讲网络效应,做事都非常大胆,也敢试错,讲究个体的成长,很熟悉互联网,非常务实。而金融人,我们会觉得他们是文明人,都觉得风险是有边界的,所有的收益都会有滞后效应的,讲究目标和规划的,一定要把房子搭好。所以,当一帮野蛮人和一帮文明人放在一起的时候,文化的磨合就会变得特别重要。

在过去的两年里面,我们的金融和人工智能的会议室基本上算是百度最吵闹的会议室,有非常多的人在里面争论。但是经过这样一个过程,双方都在互相学习和成长,能够更加开放,更加学习向上的文化,在今天,这会成为交叉学科和跨界非常重要的核心竞争力。

所以,总体而言,在中国市场上会有四个机会,为了把握这四个机会,也会有四个非常重要的能力:

  • 1.独有数据去验证价值的能力。

  • 2.流量到服务转化的能力。

  • 3.新的技术能够通过工程化、产品化和商业化的能力。

  • 4.软性的。两拨不同的人,在跨界里面能不能形成非常好的文化,成为一个核心的竞争力。

全新的商业模式:流量通过服务价值变现

在今天的金融科技或者是智能金融领域里面,我们在验证一种新的商业模式。如果你去看互联网里面的变现,有两种模式被证明了,一种是广告,一种是游戏。如果今天从流量能够去生成资产,生成资金,在线上真的能够去完成一个全闭环的金融服务的时候,我们真的是创造了一种新的,按照服务来进行价值变现的一种新的商业模式,它不是简单的广告,也不是简单的变现。

人工智能时代数据红利期下的大数据风控体系构筑

线上数据与传统数据的互补

在中国相对成熟的经济体系下,人工智能有一个红利期。流量的红利期大家认为已经过去了,但数据的红利期还在持续。数据的红利期持续背后有几个原因:第一个原因,整个中国的移动互联网的发展领先于其他国家,所以数据的沉淀本身在新兴领域更加丰富;另外一个,有好有不好,监管还没出台更严苛的措施。

在这样的前提下来看,为什么BATJ这样的大公司会去大规模地去投资很多新兴的公司?其实是在买入和实践的背后积累很多数据的资源。数据是实现AI的必经途径,没有了数据,AI就是无源之水,没有办法去做。

再回到大数据的风控。其实我们在内部,一直在回答两个问题:百度的数据,能否和央行的征信数据、传统金融机构积累的金融数据产生化学效应?如果不能产生化学效应,产生delta,是没有办法形成差异化优势的。我们证明是有的,一个人非常多的行为,是能够说明(Indicate)这个人的。当你的征信是有瑕疵的时候,这些行为是能够补充说明他的一些特征。比如说,搜索行为、交易行为、阅读行为等等,当用户为了得到一个金融服务,授权(服务商)这些行为,去证明(prove)在防范意愿和防范能力上是有潜力(potential)的时候,它们是能和传统金融数据产生互补效应。这是我们内部在进行数据应用回答的第一个问题。

设定风险强标签拟合征信数据

第二,当我们在进行(用户)人群边界拓展的时候,我们能不能对于那些没有征信的人群模拟出他们的征信状况来?也是可以的。LBS等可以定义一个人(something about you),我们发现,同样的年龄、同样学历的人群,比如都是大专学历,年龄基于25至30岁之间,大概模拟出他们同样的收入水平,工作的稳定性是非常重要的一个指标(indicator)。

我们发现,有的人是相对典型的两点一线,有相对比较稳定的工作;有的人在整个行为轨迹上是非常的飘忽随机(random),这样我们就不太能判断这群人的工作稳定性,在一段时间里面拉长的表现,比如说半年,这群人的(还贷)逾期率就是工作稳定性的三倍。所以这些(指标)都可以拟合一个人的风险画像,从而能够判断他的额度和利率水平。

百度也做不到具体到每个人去做风险定价,过度去做千人千面也没太大效果,一个人的年化收益率是10.21或者10.22其实没有太大差别(difference)。但百度一定会针对某一个客群,在他们的风控里面设定一个强标签。比如上述提到的工作稳定性,什么是稳定的?我们会设定一个预值,然后把它映射(map)到个人行为上面去,(对于这个群体而言),这样一个细分的处理结果(settlement)具体到每个间隔区间(granularity)的时候,是可以做到精准识别(identify)的,如果要继续到个体上的划分(differentiate),就没有意义了。

正如开始所说的,在中国,目前因为监管(regulation)的关系,因为移动互联网和AI的发展的关系,还处在数据的红利期。数据的红利期还能继续往前推进一段时间,但是所有公司都负有保护用户隐私、合理应用数据以及公众教育的义务。在这个基础上,正确地应用这些数据、更好地去刻画一个人的风险水平,才能够去让普惠金融“普遍惠及”的愿景得到实现。

雷锋网

林德康:做语音助手,这条路是最好的

回国创业一年半,林德康几乎每个礼拜都会去看一次母亲,母亲经常问他,现在公司怎么样,把 Google 的工作辞了后不后悔?林总是笑着说,现在很好。

类似的问题还有不少人问过。8 年 Alberta 大学教授,12 年 Google Research 科学家,林当时的选择无论在工作层面,还是在生活层面,都跳出了自己的舒适区。

这一点与他交流也能感知。林说话时总会出现奇怪的停顿,他小组成员邢家远就说,“德康老师断句特别明显,说话时总要先想一想,内心活动一定是‘这句话在中文里怎么说’。”

总之,在很多人看来,林原本有更好的选择。

有人曾在知乎上问,NLP(自然语言处理)界有哪些神级人物?作为华人圈屈指可数的 ACL Fellow 之一,林德康(DeKang LIN)的名字被多人提及。有人还补充道,“DeKang LIN. 从 Google 回国,竟然没选择去清华教书,也没接受 BAT 的邀请,而是做了一个小小的 Startup,奇点机智。”

当事人显然不认为这个决定有多不划算。林告诉雷锋网,在硅谷时就经常有创业的想法,也和很多人聊过,虽然离开 Google 是个很难的决定,但一旦有了能让自己“exciting”的想法,下决心还是挺快的。

伙伴

2014 年,林德康好友邬霄云从 Google 离职,为创业做着各种准备,到年底开始组建自己的团队。

林和邬相识于 2006 年,那时候邬刚加入Google ,和林一样,也是 Google 研究院的科学家。同为华人,再加上工作与生活的交集,两人走得很近。据奇点机智软件工程师 Scenny 所说,“德康老师跟霄云合作的 8 年中,是他们 Team 里最亲密的人。”

这似乎不难解释,为什么林最终会选择和邬一起创业。但实际上,林加入奇点机智时,已经是公司成立一年以后,这么长的决策过程在一定程度上可以说明,二人会师并不是一件理所当然的事情。

“霄云单对单(说服)能力特别强,”邢家远说,公司的技术骨干几乎都是被他一个个说服加入,有人甚至是在完全不认识的情况下通过搭讪而来。但即使如此,在一些初创员工看来,邬想拉林入伙几乎不可能。

Scenny 是奇点机智第一个员工。2014 年年底,他同时拿到了 Facebook 和 Google 的 offer,通过朋友找到邬霄云时,想让对方帮忙挑一下组。当时邬推荐 Scenny 去林的小组,也跟他说了自己要做的事情。

“如果看简历的话,德康老师肯定不会选我。”Scenny 说,“Google 录取的人,简历会放到一个池里,所有 Team 的 Leader 可以在这里招人。德康老师是研究院出来,基本上只招 PHD,所以按照他的标准,我觉得他不可能招一个北大本科生。”

虽然邬随时与 Scenny 同步把林挖来的进展,并表示,“德康 80% 的概率会出来创业,如果他回中国,100% 会来奇点。”但在 Scenny 看来,林加入奇点的可能依然极低,所以即使自己已经加入奇点,他也和林谈好了日后加入 Google 的事情。

转机出现在 2015 年下半年。

林之前的犹豫在于奇点的业务方向,他告诉雷锋网,“霄云一开始做的是深度分享,这样的话,我其实掺和不上什么,所以就没有关注。”而奇点机智开始做输入法后,Scenny 能明显感觉到,在公司里见到林的频率越来越高了。

直到 2015 年圣诞前夕,邬回美国和林在 Google 总部见面,并表示公司业务将转向语言助手时,林才终于下决心离开 Google。“创业很难,如果不是全职做,成功率很低很低。”林告诉雷锋网,他的目标也一直很清晰——将自然语言处理技术应用到实际生活中,让用户感觉这个有用。

不过,这还解释不了为什么不留在 Google。

一个很正确的决定

时至今日,学术大牛进入企业已经成为一种潮流,但林在 2004 年加入 Google 前,这种事极为罕见。

2003 年 10 月,还在 Alberta 任教授的林开始考虑学术假去向,于是联系了 Google 研究总监 Peter Norvig,Peter 对此十分欢迎,林便将二人往来邮件作为申请材料交给了学校,并很快获得了批准。

可等到来年 3 月,学期快结束时,林又联系了微软研究院。他曾经在夏季假期待过微软亚洲研究院,相对 Google 来说,与微软的人更熟,对方动作也快,次日便发来了 offer。

另外,微软研究院在西雅图,Google 研究院在旧金山,学术假将近一年,林考虑到家人不会随自己一起过去,与埃德蒙顿( Alberta 大学所在地)有直飞航班的西雅图显然更方便一些。于是他向 Peter 表明了自己的选择,但没想到 Peter 对他说,“别急着做这个决定,你过来看看,把家人也带来看看。”

今天或许很难想象学术界与工业界之间的泾渭分明,但在十多年前,林还在 Alberta 大学任教时,“当教授就意味着一辈子在学校,一般会一直干到退休。”也有朋友对林说,二十岁就能看到六十岁。

林倒没有觉得这有多不好,“至少在学校做的事情都挺有意思,那样的生活让人满足,只不过不知道后面会撞到什么机会。比如 Google。”他说。

林至今毫不掩饰第一次到 Google 时的兴奋,“我特别喜欢这个地方,大家做的事情也特别棒,好像能将 NLP(自然语言处理)应用得更直接。”Peter 顺势问他,愿不愿意全职过来,而不仅仅是学术假。就这样,拜访变成了面试,双方很快达成了一致。

如果没有 Peter 这番邀请,林去微软研究院便是定局,而如果去了微软,据林估计,学术假结束后,自己最终还是会回到学校。所以现在回想起自己当时的选择,林认为,“这是一个很正确的决定”。

没有“记忆”的Google

“Dekang(德康),you have a PhD,dont you?”Alberta 前同事发现林在 Google 没有独立办公室后戏谑道。这句话在某种程度上点出了林从 Alberta 到 Google 的变化。当然,他喜欢这种变化。

即使同样是发表论文,在 Alberta 和 Google 差别很大。林告诉雷锋网,在学校是必须发表论文,因为那是每年的考核标准,但在 Google,没人鼓励你写,也没人不让你写。动机是推动类似 TensorFlow 这样的开源项目,对行业做贡献,占领从业者认知。

而在操作层面,“发表学术论文一定要说服别人,所以得花很多时间把其他的可能性再做一遍,这种事纯粹是为了写文章,而在 Google 写论文,只要说服自己,这样的文章反而是确实想说的,而不是浪费时间。”

虽然累计发表了 90 余篇论文,论文也被引用过 14000 余次,但林已经不记得自己最后一次以第一作者署名发表论文是什么时候了。

这与他加入 Google 的初衷有关,也是他 2013 年从 Google Research 转到工程部门的原因。“真正有用的东西,自然而然就不想写文章,产品是最能体现研究成果的,如果能把产品做出来,为什么还要写文章帮助别人复制你的产品?”

Google Research 没有产品出口则无疑让林感到尴尬,当他还在研究院做问答系统时,必须找工程部门谈产品化,“但 Google 的人都很聪明,什么东西都觉得自己能做出来,所以不愿意用别人的方案,即使用了也比较外围。”

更让人崩溃的是,“工程部门的产品周期都比较短,时间长了这拨人就去做别的东西,而找到下一拨人一起做时,这中间是没有记忆的,又要解决很多同样的问题。”谈到这些,林离开 Google 的原因便呼之欲出了。他告诉雷锋网:

“大公司惯性很大,Google 做语音助手也是,主要是把已有的服务放到对话框里,这种事最容易,大家也喜欢做,要是做一个全新的东西,其实总要踩这个人的脚,或者那个人的脚。要是在一个创业公司,我们就可以完全掌控,自己想做什么就做什么。”

于是 2016 年 3 月,新年过后,林德康办好了 Google 的离职手续,4 月以 CTO 身份正式加入奇点机智,5 月便代表公司对 A 轮投资人说,“我们要做语音助手,而不是深度分享。”

这条路是最好的

林德康接受雷锋网采访那天,科技圈头条是 AlphaGo Zero 完虐 AlphaGo,“无监督学习论”甚嚣尘上。林否定了这种论调,并表示,即使 19 × 19 的棋盘可能性再多,也有边界,而对包括自然语言交互在内的 AI 来说,最难的地方便是不知道边界在哪。

所以奇点机智的语音助手——小不点,一直没以仿人的姿态示人,与 Siri、Cortana 相比,交互的针对性也更强,“小不点是在应用里帮用户做事,应用场景很明确,猜中用户意图的概率会高很多。”

虽然用完全不同的方式,实现了自然语言技术的产品化,但林毫不避讳与巨头处在同一赛道的残酷。在他看来,语音助手不可能在很窄的领域成功,要么很大,要么不存在。至于小不点会成为炮灰还是杀出血路,他没有直说,而是告诉雷锋网,

“从历史的角度看,Siri 这种接后台服务的语音助手发展慢,多少年也覆盖不了多少功能,我们比它快很多。而语音助手只要帮助用户的频率足够高,哪怕它不是全能,用户也更愿意用。”

实际上奇点也不可能像大公司那样做平台,做生态,虽然林身上有不少光环加持,但他始终保持一份创业者的自觉,“如果我们像 Google、苹果那样搭一个平台,谁来接入?”所以无论从哪个角度看,林都认为,小不点现在走的这条路,“是最好的。”

“当然,失败的可能性也大,”林笑道,“如果失败概率小的话,这个事也轮不到我们来做。”而在他看来,炮灰与否又与他个人选择的正确性毫无干系,“因为成功的不可控因素太多,所以对输赢来说没什么参考价值,反正只要是自己喜欢做这件事,就不会输,只会有赢得更多或更少的问题。”

雷锋网

NVIDIA论文:用GAN生成高清图像 | ICLR 2018

虽然ICLR 2018将公开评审改成了评审人和作者相互不知道双方信息的双盲评审,但论文的投稿者仍然可以通过其他公开渠道对其论文进行推广。尤其对于大公司研究院来说,早早公开自己的论文能比盲审有额外加成,例如雷锋网就注意到,就在上周五ICLR论文投递截止后不久,NVIDIA在Blog上就发布了一篇通过生成对抗网络(GAN)产生独特面孔的新方法,这篇论文正是NVIDIA投递到ICLR的论文之一。

论文题目:Progressive Growing of GANs for Improved Quality, Stability, and Variation

摘要:在本文中,我们描述了生成对抗网络(GAN)的新的训练方法。 关键思想是通过渐进的方式训练生成器和鉴别器:从低分辨率开始,我们逐步添加新的层次,从而在训练进展中增加更精细的细节。 这既加快了训练速度,又能增加训练的稳定性,从而使我们能够制作出前所未有的质量的图像,例如用1024×1024像素的CelebA图像(雷锋网注:CelebA是香港中文大学发布的20多万的名人人脸数据库,被很多算法用来训练)制作更高精度的数据集。 我们还提出了一种增加生成图像变化的简单方法,并且在无监督的CIFAR10中实现了创记录的8.80的初始分数。 此外,我们描述了几个实现细节,这些细节对于抑制生成器和鉴别器之间的不健康竞争非常重要。 最后,我们提出了一个新的衡量GAN结果的指标,无论是在图像质量和变化方面。 作为额外的贡献,我们构建了更高质量的CelebA数据集。

在论文中NVIDIA称,在从高维数据分布生成新样本的方法在图像领域中被广泛使用,主流算法包括自回归模型(Autoregressive Models)、变化自动编码器(VAE)和生成对抗网络(GAN)。这几种算法都有着各自的优势和劣势:自回归模型(如PixelCNN)能产生清晰的图像,但评估速度较慢,而且由于其直接对像素的条件分布直接建模,因此没有潜在的表征,这也进一步限制了其适用性;VAE易于训练,但生成的结果往往是模糊的;GAN可以生成清晰的图像,但在分辨率上只能有小范围的变化,而且质量一直不稳定;混合方法可以结合上述三种方法的优势,但在图像质量上仍落后于GAN。

NVIDIA的主要改进方法是使用改进的Wasserstein Loss(关于用Wasserstein GAN生成图片请参阅雷锋网之前文章:《令人拍案叫绝的Wasserstein GAN》),同时也尝试最小二乘法损失。由于生成高分辨率图像之所以困难是因为这一过程中会极大放大梯度问题,而且由于内存的限制,大图片还要分割成若干块分别计算,从而影响了训练的稳定性。而NVIDIA的做法是从简单的低分辨率图像开始,在训练时逐步添加更高分辨率细节的层次,从而大大加快了训练和提高高分辨率的稳定性。

让我们来看一下图片生成的效果。

下图是训练开始2个多小时候,8X8的效果。

经过11个多小时训练后,生成图片分辨率提升为32×32,已经能看出面孔的轮廓了;

训练16天后的1024×1024分辨率图片:

NVIDIA还专门准备了一部关于这篇论文的说明短片,更加直观说明了这一算法的具体效果:


据雷锋网了解,这一方法也可以用来生成非常精细的物体和风景照片、以及图像软件中的变化效果等。

雷锋网

关于未来交通,这些大咖在未来论坛上的讨论火花四溅

雷锋网新智驾按:2017 年 10 月 28 日,“未来论坛”2017 年会在京举行,一场关于智慧城市、人类交通的大讨论率先碰撞出火花。参与讨论的既有王印海这样的学界专家,又有李开复、杜江凌、沈晖这些业界新老势力,主持这场讨论的则是余凯。各自的观点在交换过程中产生了非常有意思的对抗,值得大家品读与思考。

从左至右依次为:

  • 地平线机器人创始人 余凯

  • 通用汽车中国科学研究院院长 杜江凌

  • 创新工场董事长兼 CEO 李开复

  • 威马汽车创始人、董事长兼 CEO 沈晖

  • 华盛顿大学(西雅图)教授 王印海

雷锋网新智驾对讨论内容进行了不改变原意的编辑:

余凯:杜院长与沈总是汽车行业老兵,首先谈谈新能源汽车。

最近这个行业非常热,尤其是中国,不知不觉成为新能源汽车第一大国,我们政府对新能源汽车的推动力量在全球范围内可以说是最强烈的。但是,几年前我还在百度负责自动驾驶项目时,其实跟传统汽车行业有不少交流,比如宝马,他们对于新能源汽车持保守意见。今天争论依然在,既然是争论,是不是趋近于共识?还是有不同的看法?每位嘉宾都可以分享自己的观点。

王印海:其实人类对交通的需求是显而易见的,我们需要清洁、高效、安全的交通系统,如果从这几点考虑出发,我觉得传统的燃油车显然有弊端,从能量转化来讲就是瓶颈,20% 的转化率,80% 的能量要被浪费掉。在世界能源是有限资情况下,我觉得发展可持续或清洁能源汽车有它的历史意义以及必要性。

这些年,电动车的整体成本在曲线下降,我本人比较看好电动车,现在高端电动车和普通的燃油车价格差不多,性能、安全性好一些,将来维护成本也低一些。

托尼·赛巴写过一本书,对整个汽车能源领域产生的颠覆性科技做了阐述,他预测 2022 年,电动车的成本将低于经济适用车辆,那个时候大家更容易选择。

沈晖:我觉得有争论好,因为传统汽车也一心一意搞电动车,我们就没办法混了,希望他们争论多一点,慢慢多考虑几年。

因为我是传统汽车出来的,我知道传统汽车公司的整个决策流程,不管跨国企业还是自主品牌,(对于发展电动车)他们有一部分还在考虑当中,有一些是口头讲讲,但是心里没有转型,可以理解,船大难调头,越成功的车厂越难转型。

在传统的动力总成里面的投入,老汽车公司绝对是重中之重,发动机、变速箱是汽车公司的心脏。今年法兰克福车展,德国巨头展出电动车,很多朋友说这是“狼来了”,我不这么认为。所有的巨头都在说什么电动车平台,我们认为电动车完全是不同的东西,不管从设计、操控体验还是后续的服务模式上,跟传统汽车有巨大差异。如果他们只是借鉴传统汽车平台,打造对应的电动车平台,我认为我们就有希望了,他们还是没有想清楚的是,电动汽是不一样的东西。

余凯:您以前在沃尔沃,是传统车企,现在到新能源汽车领域,这个发展会不会导致一个产业的平衡被打破,甚至是重构,比如说传统车厂跟新的玩家会站在同一起跑线上去竞争?还有一个我很关心的,德国的传统汽车产业特别强大,中国相对落后,是不是这个平衡也会被打破?

沈晖:是一个机会。中国是传统汽车的大国,不是强国,正因为这样,我们走电气化、智能化、自动化道路更加坚决、包袱更轻。整个中国在互联网这一块走在世界前列,应用方面正好在自动化、智能化方面有巨大的基础技术储备,在车内的应用推动更快,正是因为我们是后发,所以我认为在这一拨汽车的互联网化、电动化过程当中,中国更容易走到前面去。

余凯:中国有机会在这一拨技术浪潮里面成为汽车产业的世界强国?

沈晖:我们公司的名字(威马,Weltmeister)来历就是这样的,德语意思是“世界冠军”。传统汽车领域,毫无疑问“世界冠军”是德国,但在智能汽车、电动车领域,“世界冠军”肯定是中国。

余凯:李开复老师,可能我们两个背景有点像,是从信息产业、互联网产业,闯进汽车产业,被称为“野蛮人”。显然我们是文明人,信息技术跟汽车产业碰撞,跟新能源车紧密联系在一起,针对新能源车这样的新兴产业,您怎么样看其未来?

李开复:大家考虑新能源的问题,总会想到两件事情:一个就是更便宜,在它的应用方面,产生的代价和维护成本是更低的;另外一个问题就是制造成本什么时候能够降下来。如果先抛弃这两个问题思考一下,传统和创新公司的竞争,从信息产业来说有一个词叫做“创新者的窘境”,传统产业越成功的时候接受一个新技术反而更困难,因为要把过去的包袱和成功要放下。

为什么柯达在进入数字时代后,放不下过去而破产,就是这个道理。并不是传统企业技术落后,而是他们可能放不下过去的包袱。

信息产业,一切都是用户需求导向,其实新能源可以在很多领域产生价值。新能源汽车的普及有多个不同的点可以切入,并不一定要走特斯拉模式,从豪华汽车开始做。

每一个新的产品来临,一定要重新思考它的整个架构和设计,比如摩拜与传统单车差别很大,轮胎不用打气,没有链子——都是传统单车最容易坏的地方。为新的需求设计产品的时候,不能固化思考,未来无人驾驶来临,会为新能源车带来新的需求、新的设计,所以不能固化思维。

余凯:杜院长现在还在传统的汽车企业,并且是巨头,对于新能源车,怎么看这个进程,是不是有时间表,最终在哪一年全部实现新能源汽车?

杜江凌:首先回答你最开始的问题,新能源汽车这件事搞不搞没有疑问了,不存在什么还有谁在等,或者观望,因为很明显,中国政府在一个月之内,已经颁布了双积分政策,传统汽车必须要保证油耗在一个很低的数值上面,新能源车 2019 年占总车辆 10%,2020 年是 12%,已经吹响了新能源汽车的号角。

沈总现在基本上已经没有什么优势了,新能源车企一开始可能占点先机,趁着传统车企犹豫。现在没有犹豫了,通用汽车全力以赴,把所有的过去经验,加上新的能力,全部用在新能源车的生产之上。在今后几年里会推出非常多款新能源汽车。

我有点不同意见,跟王老师也有不同意见。王老师说根据一个文献上面讲的 2022 年新能源汽车的价格跟传统汽车是一样的,这个是大大乐观了,根据我们对整个产品的分析,新能源汽车还是贵,最重要的原因是电池。

所以今天借这个机会,因为是未来论坛,在座很多年轻人,电池领域绝对是一个值得年轻人去努力学习、研究出成果的地方。

电池是非常有意思的东西,原因是什么?它是一个多维最优化问题:电池做得好,首先电池能量密度要做得高,车充一次电才能跑得远;同时希望要是快充,充电时间最好跟加一次油一样,5-10 分钟能够把电充满。要是快充的话,使得锂电池的离子在负极上做沉积,使得电池寿命大大降低,这两个东西首先是矛盾的。电池寿命又是电池的第三个维度,我们希望电池循环次数起码两千转以上,才能使得我们的车能够使用时间长,尤其是以后到了共享情况下,白天黑夜车不停地跑,不断地要充电,电池循环次数很重要。再就是电池安全,锂硫电池能量密度做到 600W 每小时,但是硫有毒。毋庸置疑,让电池拥有多元功能非常难。

希望同学们有志气在这个领域多努力,在这方面能够创造出新的有诺贝尔奖价值的研究成果。

余凯:未来如果新能源车大行其道的话,电池问题会不会导致环境污染问题?这个问题有多大?

杜江凌:这牵涉到另一个问题,电池必须要进行整个生命周期的管理和研究。

电池首先用到汽车上,然后下面就是阶梯利用,比如最近有一个宽带无线公司,他们的基站蓄电池都是铅酸的,他们发现如果电动车的电池退役下来,作为基站的蓄电池非常合适,它的大小、能量密度、寿命等等,都是非常适合的。中国有千千万万的基站,都需要这样的蓄电池,有可能是它阶梯利用的一个很好的地方。

再往下一定要做二次应用,如何把锂电池的锂提取出来,金属提取出来,或者极片的层次上进行再处理,循环利用,提高能量密度。中国已经有创业公司在做相关技术,所以这方面肯定要通盘考虑。

沈晖:首先我要强调,传统车企做电动汽车是从零开始的,我认为做的不是一个东西,开复老师刚才讲的是对的,电动汽车是一个完全新的东西,只有新东西才能突破。我们最近的新造车企业,喜欢对标,我们搞了两辆通用刚上市的电动车,派了几个人跑到美国去,用灰色的手段,拆了以后发现,二者不是一个东西,并非同一个目标客户群。

讲到电池,我和杜院长的观点相反,我认为王教授保守了。中国现在创业搞电池已经晚了,中国电池甚至有点产能过剩,我觉得产能过剩是好事情,很多事情只是中国人不做,只要一做就一哄而上,成本直接下降。我们内部电池供应商定了三家,但是十几家在后面等着,我们天天测,我很有信心,2020 年前后,同样标准的电池,成本比发动机下降得更快,因为现在太多人在做这件事情。

电池的二次利用确实是比较新的创业方向,目前很多企业刚开始做。因为法规要求,在美国、中国、欧盟,汽车公司必须负责电池的回收,这点我比较乐观。针对电池的梯次利用也有很多企业在做,包括特斯拉,股价上得这么快,就是因为其作为能源公司,电池的二次利用做得很极致,每个家庭储能都在用,这个市场远远大于汽车。二次利用是金矿,很多人在做。

余凯:下一个问题是关于自动驾驶,我们看到两派意见:一派是谷歌,包括典型的互联网公司,还有互联网背景的创业公司做自动驾驶,都相信一步到位,直接奔向无人驾驶,应该跳过中间人机共同控制的环节;相对来讲,传统车厂一般采用渐进式的发展策略,现在主流是辅助驾驶,到 2019 年、2020 年,很多车厂推出半自动驾驶,自动驾驶可能到 2025 年。

杜江凌:首先挑战一下主持人,你刚才提问是错的,传统车厂不是只做渐进,因为渐进是主业,所以肯定在做,但是同时也和创新公司一样,在做 L4,我们已经在美国开始了大规模自动驾驶汽车量产测试。

最近几年一个很重要的问题,就是传统车厂的研发模式是一步一步走,互联网公司则是快速迭代。两个东西怎么结合在一起?我们最后发明了这样一个创新方法:把车的硬件彻底固化,出来就是量产车,符合安全要求,符合功能安全,但是这个车是空的,有关智能驾驶,把软件装上以后,在城市里跑,快速迭代,功力见长非常快。传统厂商也是两个方面同时发力。

我们现在做的是 L2 的超级巡航,不需要用户把手放在方向盘上,单个高速路上开,不能变道,我们自诩为全世界第一个解放驾驶员双手的辅助驾驶车。我们用了人脸识别的技术,一直监视着人脸,包括戴眼镜、墨镜都能看眼球,一旦发现你不看前方了,振动提醒你,如果不听,通过安吉星远程控制,把泵灯打起来,告诉后面的车这辆车有毛病。

李开复:首先讲一下观点,我们看创新、看技术等等,可以说谷歌最先进,几位嘉宾走不同的道路,各自有不同的技术优势。什么样的公司才有背水一战的精神以及商业模式的必然性,让未来真正的无人驾驶能够发生?

如果我们都相信 L4 和 L5 是最后目标的话,这辆车为什么要有方向盘,为什么不是一项服务。从这个观点跳出来,如果真的实现无人驾驶,人是无用的,人机协同不可能;人有情绪化,会带来危险。无论未来几年以后,真正厉害的无人车哪个公司最先造出来?

大概有三种公司在做这样的事情,算是四种公司。

第一种、第二种合并在一起,因为都是造车的。这些公司有很大的挑战,还是在思考,我的车是要卖给一个人,这个人想做司机,他需要一个功能,要辅助他驾驶。

第二种纯高科技公司,比如谷歌、百度,一切都是跳跃性的,做软件、操作系统卖给车厂。这两个公司有很大的挑战,但没有必要性把这个事情做好,他们都挣很多钱、股票涨着,车做好了很好,做不好拉倒,没有这么多动力。

第三种公司不能忽视,真正背水一战,做不好完蛋,做得好成为最伟大的公司,就是 Uber 和滴滴。这两家必须把司机的成本降下去,才能达到盈利,要不然每单都是巨赔的。这两个公司有超级大的经济动力,推动他们一定要把真正的无人车做好,虽然今天这两个公司并不是世界第一,但是我会觉得商业必然性和强大的利益推动导致这两个公司或者类似的公司可能成为真正 L4、L5 的推动者。

余凯:出行即服务,并不是买卖关系。

沈晖:其实开复老师对我们公司不了解。我们为了用户效率造产品,将来评估不是以每一年生产多少辆车为标准,我们针对共享化,意味着路上的车数量越来越少,我没有亏,刚刚起步,路上少一两百万辆,没有什么问题;传统车厂少一两百万辆,活不下去,我们车要共享化、电动化、智能化、自动化,共享化要提高效率,我们来讲是两个:2C端,用户愿意订我们的车;C2M 更多地订他需要的功能。人买一个车,其实大部分时间是浪费;还有一个浪费,正常人买车,花的钱很多,功能是没用的,也是巨大浪费。

杜江凌:沈总也不太了解传统公司,开复是两个都不了解。沈总属于了解他们自己,对我们还是不了解。其实我觉得这个时代真的是大家都一样,其实没有人傻。通用也有共享的东西,现在这个世界都知道电气化、共享化、智能化以及互联化。

王印海:刚才杜院长说,开复老师不太了解两个公司,刚才主持人的问题是,在自动驾驶的路径上,两个不同路径,其实主要是用户,你们没有说用户,到底什么路径到目标,不是你们决定的。自动驾驶的车,比如 L4 的车,老百姓买不买,是一个问题;会不会物尽其用,也是一个问题。

有一个调查,调查不同国家的消费者对于自动驾驶车辆的接受程度,中国和巴西接受程度都是很高的,巴西是 90% 以上,日本和美国很低。但是关键的一点,如果不能够一步到位,或者买了完全自动驾驶车辆以后不能够发挥百分之百的作用,肯定要考虑如何在这个过程当中满足用户的需求。自动驾驶车辆和普通车辆并存是必然的。

沈晖:开复是认为自动驾驶车不是卖给用户,天生为共享出行而生的。

王印海:无论出行即服务还是交通即服务,仅仅是车性能发生改变,服务对象没有变。

李开复:不是一步到位,大家都不买车了,这是肯定的。我很了解你们两个公司,技术都很厉害,你们没有了解我的观点。我的观点是:再厉害的公司当董事会面临传统的产业收入一千亿,新的产业收入一个亿,传统的真的就砍掉吗?支持新的吗?历史上没有发生过。

沈晖:我认为杜院长没有听懂开复老师讲的核心,他说的是谁是背水一战,我们天天想着生存,生存的话肯定不一样,生存的时候才能真的突破、创新。

杜江凌:不管通用也好,还是福特也好,当局者都知道明天这个公司就可能消亡,因为他们对现在整个发展形势都很清楚,出行即服务,车的销量会越来越少。谷歌出来一套整体解决方案,百度出来一套整体解决方案,明天找富士康,一把把所有车厂甩到一边。大家都一样,全在一个起跑线上,玩命干吧。

雷锋网新智驾推荐阅读:《华盛顿大学教授王印海:这八大技术将颠覆交通出行》

雷锋网

浙大睿医人工智能研究中心吴福理:我眼中医疗人工智能的现状

资本大量涌入医疗人工智能领域,截至2017年8月份,根据亿欧智库的统计,国内医疗人工智能公司中有104家累积融资额已超过180亿人民币。

从这几个数字中也可看出当今医疗AI的火爆程度。那么在这个领域中到底什么才是最为关键的因素?医疗厂商、算法亦或是数据?

在近日由深圳市福田区人民政府指导,晶泰科技、腾讯主办,辉瑞制药、北京大学深圳研究院、科辉创新承办的2017人工智能+医药健康创新峰会上,浙江大学睿医人工智能研究中心副主任吴福理谈了谈他的看法。

在吴福理看来,技术是提供给医生的工具,而非用来取代医生的。他认为AI最后的智慧会达到全人类整体的平均水平但不会超过人类,因为医疗是开放性问题,不像围棋属于封闭式问题。

除此之外,他还多次提到标准化数据的重要性。

吴福理表示,没有标准化的数据,AI就无从谈起。现阶段所有AI公司都在笼聚一些大型三甲医院,形成数据联盟。未来的医疗数据,尤其是临床数据,会像今天移动支付领域的数据一样,在大家使用后,国家会成立类似金融“网联”一样的医疗数据连接中心将这些数据聚集起来,并统一制定数据标准、标注标准,病种影像数据标准。

提及对医疗AI的展望,吴福理表示,关于服务医生、医院、用户端,所有的信息技术都会往云上走,往AI上靠。

如今,所有医院的信息系统都在升级,通过传感器收集更多病人数据。人工智能最终是想让患者了解自己,让医生更了解患者,让医疗过程更加精准,让第三方服务更科学,医疗管理更科学。所有公司都会朝这个方向发展,不限于APP或PC,不限于移动还是非移动,不限于云端还是终端。

随后,吴福理也谈到了睿医人工智能研究中心,他们的愿景是以人工智能为翼助力医疗服务,从检测的量化到诊断评估到干预治疗。

以下是吴福理现场演讲文稿,雷锋网做了不改变原意的修改与编辑:

我在浙大睿医人工智能研究中心任职,今天给大家分享下这几方面的经验:

  • 第一是医学人工智能现状。

  • 第二是医学人工智能展望,有哪些领域容易突破,计算机技术能辅助医生做些什么?这个领域到底哪些组成比较关键?

  • 第三是谈谈浙大睿医人工智能研究中心的状况。

医学人工智能现状

从数据角度看,国家在这方面已有不少的布局和规划。关于人工智能的讨论,以“自动驾驶出了事故到底是谁负责”这一问题为例,国家已颁布了相关规范。那么在医疗人工智能领域,如果机器出了问题,到底是谁的责任?

医生?机器?医院?

人出错,人们往往可以能忍受,认为情有可原,但机器出错,很多人无法容忍。这其实是一个误解。

目前浙江省、福建、江西,已经有一定的标准去建立第三方影像中心。现在一个商用CT器械,如西门子的双源CT,拍一个人可以出2000张数据。而200张数据大概就200MB,如果一个医院一年数据达数十个TB,十个医院、一个城市的数据就是几个PB级,这么庞大的数据怎么分析?

如果有了足够的数据和明确规范,成立“国家队”机构也不无可能。

现在所有的AI公司都会笼聚一些大三甲医院,形成数据联盟。未来的医疗数据,尤其是临床的各种数据,会像今天移动支付领域的数据一样,在大家使用之后,国家会成立类似金融“网联”一样的医疗数据连接中心将这些数据聚集起来,形成数据标准、标注标准,病种影像数据标准。

我认为会朝这个方向发展。

如今大大小小的公司都在不同领域解决医生、医院各种各样的痛点。会看到计算机领域大量创业公司利用大量APP抢不同的入口:院内、院外或者病人健康数据、医疗健康、诊断、医药,再到平时跟老百姓直接相关的。这些APP更多服务于老百姓,服务于医生群体的反而比较少。

现在大家都在讲用人工智能、大数据解决医院的问题。但实际现状是相关技术及设备只在北上广深、沿海城市有所应用,在西部甚至有的三乙医院连信息化都没有完全做到,数据都没有标准化。

没有标准化的数据,怎么做大数据AI?举例说,大家听到最多的就是让AI阅片。一个病人拍了双源CT,200张到2000张的数据,医生开始看片子,看到有病灶,开始写报告并给病人。这个数据对AI公司一点作用都没有,因为并不知道是在哪一张图片上面有病灶。

这里我们就会发现,现在数据非常稀缺,稀缺到AI公司会去大三甲医院花费100元买一张带标注的数据,光买数据就要花上千万。在这形势下,创业公司怎么跟BAT竞争。

再者就是数据安全问题。医疗上80%是影像数据,而影像数据一个案例都有几百兆。大部分人都在讲云端处理,我个人更倾向于数据,计算机的AI学习在云端,而最后的推理一定是在终端。

关于AI的工具,慢慢偏向于终端发展。我觉得在医疗领域,终端比云端更重要,因为云端是学习推理能力,未来如果数据标准化,所有AI公司都拿到,标准级数据不再那么贵时,你在终端的推理能力可能变得更加重要。当然,在中国把这个做框架推导的,还没有这样的实力。硅谷已经把AI学习框架全部公开。现在相对来说算法是比较平了,尤其是在工程领域。

下面讲讲几个巨头在医疗人工智能上的进展:

  • IBM Watson大家很熟悉,它像一个搜索引擎,更多做文本分析,但并没有太多的结合对应的各种影像学数据和病理学数据。

  • Google在糖网方向做得比较好,他们有很多数据是花钱购入的。医疗门槛比较高,最近一段时间大部分创业公司或者BAT开始买医疗数据,或者以联合建实验室的方式变相买数据。

  • 从国内来说,腾讯在医疗领域布局比较多,全国有三家互联网医疗方面的公司走得比较前面,这三家公司全都得到了腾讯的投资。

与他们合作的医院我都会关心有没有结合医疗流程。对于医生或者病人来说,我并不介意是不是AI为我看的病,对医生来说更介意的是会不会影响正常的医疗流程。大部分做影像AI公司都会另做一套系统,而医生平时每天用的系统在中国是被上百家小厂商(HIS厂商、EMR厂商、PACS/RIS厂商、集成系统厂商等等)控制的,。你可以想象这样的AI落地有多困难。对医生来说,不可能今天在医院用那个系统,突然跳到另外一个系统用AI再来阅片有没有毛病,告诉我提示什么,我再反过来用现在的系统。

医学人工智能的展望

关于服务医生、医院、用户端,所有的信息技术都往云上走,往AI上靠。所有医院的信息系统在升级,通过传感器收集更多病人的数据。人工智能最终是想患者了解自己、医生更清楚患者、让医疗过程更加精准、让第三方服务更科学、医疗管理更科学。所有的公司都是朝这个方向发展,不限于用APP或者什么技术,是移动还是非移动,云端还是终端。

想要做好这五点,每一点都要投入大量的工作,当你收集足够多的数据后,就会有用户画像。一个人一生的数据沉淀不是在一个医院,而是在一个城市,从你在一个城市出生,妇产科、儿科再到普通科室。这些云如果能以城市级别的信息收集,个人的健康数据会更加全,对AI更有作用。

大家谈到的医药,新药实验,医学知识图谱,人工智能辅助分析,眼科。把这些管理全部数据化,当有大量数据时就可以做很多工作,比如最典型的医保欺诈。如果我知道城市级别整个医保数据,通过数据挖掘和可视化的手段就可以探测到欺诈,可视化领域不仅仅有这个作用。当然,医疗是其中一个应用而已。

做辅助诊断,拿睿医来说,因为我们是一个隶属于浙江大学的科研机构,我们的研究更多偏向于解决问题来医生辅助,不追逐市场热点。所以说,在甲状腺、前列腺、宫颈癌、肺这方面和医院合作会比公司稍微有优势,因为我们和医院科研合作方面可以得到更加高质量的数据。有数据显示我国医疗影像诊断错误的比例,在某些地区和某些诊断领域高达35%,个别基层医院的误诊率甚至更高。AI能提升到50%就非常有意义,因为能提升基层医疗医生的医疗水平。

健康方面的检测,比如医疗保险,这都是跟学术相关的,不做详细解读。

睿医人工智能研究中心

我们的愿景是人工智能助力医疗服务。在几个领域都已做了一些工作,从检测的量化到诊断评估到干预治疗。

第一件需要做的事是标准化的工具。我可以提供一个标准化工具让医生标注哪儿的数据有问题。再过两个月之后成立一个数据联盟,联合一些大的医院,形成一个标准化规范化标注结果。虽然你在各种医疗AI大赛看到一些数据,但那些影像的数据对放射科医生来说没多大作用,因为标注太简单了。比如肺结节,下面分六种类型,如果计算机没有足够的六种类型的详细标注数据,现在的深度学习技术不能精确判断,那么医生还要重新看,AI的实际作用大大打折扣。

可以做AR/VR工具,增强病患沟通。也可以做免费问诊,这里做一些问诊匹配,已经做得相对还可以。在TOP1能达到30%多。这个结果对全科医生很有用。做精准匹配,对病人来说口述是什么,搜索相关医生或者科室给他推荐。在一级科室分类准确率比较低,二级科室TOP5已经可以使用。

关于眼底检测,做到四方面专利。眼底检测可以判断一般患者80%的慢性疾病。如果通过非侵入式的检查患者的眼底,通云端或终端设备判断给出建议,这个比一般的侵入式检查好很多。

视网膜病变,分辨率是90%,精确度已经达到75%。两年前我们做这件事的还不多,现在有不少公司在做。我们跟北京同仁医院合作了很久。

骨龄领域做了一些工作,骨龄是判断小孩发育成长快和慢的。如果这个小孩只有六岁,骨龄关节闭合程度达到7岁,就发育过快了。医生有一个图谱,收集大量图,会看两个图的对比。这个图谱是多少年来形成的,会有一定的误差,医生读片误差一般在一岁,而计算机误差在三个月以下。当然,有些科研数据已经精确到一个月了。有些领域是可以快速的做初筛,减少医生大量重复的劳动,整个提升医疗的水平。雷锋网雷锋网

雷锋网

我们评测了几百款机器人产品 发现五个问题看到无数机会

雷锋网按:9月21日,由科沃斯蒲公英孵化加速器和机器人创始人联盟RFC联合发起的2017全国双创周压轴大戏——“2017人工智能机器人创新论坛”圆满落幕。门罗机器人CEO杨兴义围绕“中国服务机器人评测和跨界创新”做了主题分享,雷锋网整理如下:

门罗机器人CEO杨兴义

评测

我们实地走访了数百家AI和机器人企业,实际评测了几百款机器人的产品,做了大量的评测报告,但是只有很少的评测报告对外公布了。在这个过程中我们发现了五点问题是普遍存在的。

关于用户需求,很多机器人公司从技术和产品经理角度去定义它的产品,喜欢从研发方面去想是不是要做这样的功能,但是市场和用户的需求呢?很多人做出来自己满意的产品但是市场不接受用户不买单,这个问题很大。

有关工业设计,最早的国内机器人公司在模仿国外的工业设计,把国外著名的机器人形象都模仿了一遍,这个结束后不能再模仿了,所以后来出现的国内机器人公司开始模仿前面机器人公司。我们觉得这是不对的,我们应该鼓励原创的工业设计,根据不同的定义做自己的形象。

第三个部分关于产品质量,从评测实际的结果我们发现了很多问题。首先有很多公司产品还只是一个手办就开始猛烈宣传,拍的视频很厉害感觉这个机器人无所不能,能够看孩子能够和所有家电连接。实际上一两年后这个产品都没有上市,即使用户拿到手后发现跟宣传的功能也完全不一样。第二点问题是产品的品质和零部件的规格不太高,可能因为对供应链不够了解,所以选用的零部件在使用了一段时间后就不行了,可能是电源不行了,也可能接口不行了。第三个问题是对生产工艺不够重视,机器人公司的团队里面没有懂供应链的人,没有懂生产工艺的人是非常大的缺陷。

有关应用场景,曾经有一家公司董事长亲自给我演示产品,他给我演示了十个功能,可是很尴尬的是每项功能都不行,我看的也很痛苦,他也很尴尬。所以我们到底想做什么样的产品?这个产品在实际的过程中到底可以解决什么样的需求要想清楚。比如做儿童机器人,曾经有个投资人发给我自己投的一家公司的新闻稿,这个稿子是这么宣传的,这个儿童机器人可以满足0-12岁的孩子,当时我就觉得不太可信一个机器人怎么可能同时满足0-12岁小孩的需求?所以说建议大家做精准的场景。

关于用户体验,用户体验是非常系统化的一个点,我们能把用户体验做得好,需要不断的去迭代,即使现在非常成功的公司也是在不断地迭代,所以我们的评测也很看重动态的评测。每一个版本更新我们都会去跟踪,只从一个版本看这个团队看这个产品都是不够的,从功能实现到用户定位到产品易用性,它使用起来的感觉是不是舒服这都是很重要的。

中国优势

虽然前面说了很多问题,但是中国的机会特别特别大,尤其是在服务机器人,因为我们供应链非常成熟,在全球都很具有竞争力。然后就是市场空间大,并且竞争非常激烈。我们曾经做过一百款儿童机器人和智能玩具的横向评测,适者生存最后一定是强者杀出来,如果他可以拿下中国市场,在海外成功的可能性也会很大。中国人非常勤奋,所以我们一直在不断地迭代硬件和软件。还有我们比较厉害的是,有非常多的创业团队在做很多不同方向,细分品类非常齐全。我们和行业垂直结合,有很多落地的应用,并且我们现在落地应用很快。

一点建议

无论是公司内部还是请外面的评测公司,一定要加强多维度的评测,从单品到系统,从用户体验到技术,从实验室到真正的场景,从单纯的功能到内容服务,从内部检测到外部评测。这样才能在走向市场的时候让用户觉得这个东西是好的。

门罗机器人在做的

我们最近一直在做能力的建设,在不断地进化和迭代,可以看到在中间还提到了专利。我们希望机器人团队在未来加强知识产权的重视度,这是金字塔的顶端。如果计划未来走向国际市场 ,现在一定要重视知识产权和专利,国外很多大公司在运动、语音、语义都进行了布局,未来走出去肯定会遇到很大的竞争。

跨界创新

第一个创新我认为叫IP创新,我曾经去拜访科沃斯钱董事长第一个机器人博物馆,我说多么希望门口不再是一个哆啦A梦而是可以出现一个有中国特色的IP。

在过去我们长期受美国日本影视影响,除了影视IP现在还有游戏IP动漫IP。像初音未来作为一个虚拟人物在上海开演唱会参加的人爆满,我们做产品做技术服务未来要走向人民的生活,所以我们要理解下一代人在想什么,他们需要什么。像我们在推崇的格斗电竞关于机器人的,我认为机器人的娱乐化会更快走向大众,国外的机器人格斗有二十多年历史,中国最近我们也在推动机器人格斗比赛,年底会推出一款机器人格斗的真人秀节目。还有音乐IP我们公司也在15年创造了一首机器人主题歌,名字叫做《创造世界》我们也希望可以推进很多跨界合作。  

产品跨界创新

未来工业机器人我们希望可以让它娱乐化、服务化。最近有个餐厅希望可以在餐厅里用工业机器人臂,我们现在可以看到已经有了冰激凌机器人、调酒机器人,未来工业机器人是可以娱乐化、服务化的,是可以走向大众的。

在快消品行业我也曾经建议一个白酒企业把宣传人物形象做成机器人,他很赞同我们就尝试希望做一个江小白机器人,所以在快消品行业也有很多合作的机会。

我们看到无人机、无人驾驶在很多细分品类都有很多市场空间,我认为还有很多细分品类是非常有价值的,有很多细分的专业的场景也取得了不错的成绩。比如水下机器人的一个公司刚刚拿到一笔海外订单,一笔就是两千多万。这都是非常好的机会,还有像机器人的舞台剧,我们公司最近就在排练一个叫拯救爸爸的舞台剧,预计在十月在重庆首映,我们希望更多的机器人公司来参与,可以提供更多让小孩子接触机器人的场景。关于行业的跨界创新,我们认为时代的大机会,就是AI+机器人+不同的行业,比如说医疗、金融、汽车、房地产都是有巨大机会的。

渠道跨界创新

现在已经有很多新的渠道诞生,比如机场高铁的窗口渠道,在深圳机场就有专门展示机器人产品的门店;比如卖场渠道,小米之前是互联网公司,但是现在也在推广自己的线下店,包括很多渠道都在融合;像行业定制比如幼教行业定制,这样的定制机器人可能比2C机器人更快的可以进入市场;像行业展会,这一点我想提个建议,少参加机器人展会,多参加所在领域的展会。从市场角度看我们要和客户和行业去融合。

还有军民融合我们有巨大的机会从海洋到陆地,市场前景也很可观。在国际市场,国内竞争比较激烈,我们可以去开拓国际市场,很多国际市场是空白的,我们国内企业要努力去占据全球百分之七十以上的份额。线上渠道像无人机、扫地机,成熟的产品不多,更多的是非标准化的产品,但是在未来细分品类标准化会更成熟,更多消费者会接受,线上渠道也会爆发。


更多机器人资讯,可关注雷锋网旗下公众号“新智造”。

雷锋网

Hinton的Capsule论文全公开!首发《胶囊间的动态路由》原文精译

雷锋网AI研习社按:日前,深度学习教父Geoffrey Hinton关于Capsule(胶囊)的新论文一发出,马上引起了热烈讨论。雷锋字幕组趁热对论文做了全文翻译,想了解具体细节的读者欢迎仔细阅读。有翻译不当的地方欢迎指出,更期待您可以加入我们(申请加入,联系微信 julylihuaijiang)。

胶囊间的动态路由

摘要

本论文所研究的胶囊意为一组神经元,其激活向量反映了某类特定实体(可能是整体也可能是部分)的表征。本论文使用激活向量的模长来描述实体存在的概率,用激活向量的方向表征对应实例的参数。某一层级的活跃胶囊通过矩阵变换做出预测,预测结果会用来给更高层级的胶囊提供实例参数。当多个预测值达成一致时,一个高层级的胶囊就会被激活。论文中展示了差异化训练的多层胶囊系统可以在MNIST上达到当前最高水平的表现,在识别高度重叠的数字上也要比卷积网络要好得多。网络的实现中运用迭代的一致性路由机制:当低层级的胶囊的预测向量和高层级胶囊的激活向量有较大的标量积时,这个低层级胶囊就会倾向于向高层级胶囊输出。

一、简介

人类视觉通过使用仔细确定的固定点序列来忽略不相关的细节,以确保只有极小部分的光学阵列以最高的分辨率被处理。要理解我们对场景的多少知识来自固定序列,以及我们从单个固定点中能收集到多少知识,内省不是一个好的指导,但是在本文中,我们假设单个固定点给我们提供的不仅仅是一个单一的识别对象及其属性。我们假设多层视觉系统在每个固定点上都会创建一个类似解析树这样的东西,并且单一固定解析树在多个固定点中如何协调的问题会被我们忽略掉。

解析树通常通过动态分配内存来快速构建,但根据Hinton等人的论文「Learning to parse images,2000」,我们假设,对于单个固定点,从固定的多层神经网络中构建出一个解析树,就像从一块岩石雕刻出一个雕塑一样(雷锋网 AI 科技评论注: 意为只保留了部分树枝)。每个层被分成许多神经元组,这些组被称为“胶囊”(Hinton等人「Transforming auto-encoders,2011」),解析树中的每个节点就对应着一个活动的胶囊。通过一个迭代路由过程,每个活动胶囊将在更高的层中选择一个胶囊作为其在树中的父结点。对于更高层次的视觉系统,这样的迭代过程就很有潜力解决一个物体的部分如何层层组合成整体的问题。

一个活动的胶囊内的神经元活动表示了图像中出现的特定实体的各种属性。这些属性可以包括许多不同类型的实例化参数,例如姿态(位置,大小,方向),变形,速度,反照率,色相,纹理等。一个非常特殊的属性是图像中某个类别的实例的存在。表示存在的一个简明的方法是使用一个单独的逻辑回归单元,它的输出数值大小就是实体存在的概率(雷锋网 AI 科技评论注: 输出范围在0到1之间,0就是没出现,1就是出现了)。在本文中,作者们探索了一个有趣的替代方法,用实例的参数向量的模长来表示实体存在的概率,同时要求网络用向量的方向表示实体的属性。为了确保胶囊的向量输出的模长不超过1,通过应用一个非线性的方式使矢量的方向保持不变,同时缩小其模长。

胶囊的输出是一个向量,这一设定使得用强大的动态路由机制来确保胶囊的输出被发送到上述层中的适当的父节点成为可能。最初,输出经过耦合总和为1的系数缩小后,路由到所有可能的父节点。对于每个可能的父结点,胶囊通过将其自身的输出乘以权重矩阵来计算“预测向量”。如果这一预测向量和一个可能的父节点的输出的标量积很大,则存在自上而下的反馈,其具有加大该父节点的耦合系数并减小其他父结点耦合系数的效果。这就加大了胶囊对那一个父节点的贡献,并进一步增加了胶囊预测向量和该父节点输出的标量积。这种类型的“按协议路由”应该比通过最大池化实现的非常原始的路由形式更有效,其中除了保留本地池中最活跃的特征检测器外,忽略了下一层中所有的特征检测器。作者们论证了,对于实现分割高度重叠对象所需的“解释”,动态路由机制是一个有效的方式。

卷积神经网络(CNN)使用学习得到的特征检测器的转移副本,这使得他们能够将图片中一个位置获得的有关好的权重值的知识,迁移到其他位置。这对图像解释的极大帮助已经得到证明。尽管作者们此次用矢量输出胶囊和按协议路由的最大池化替代CNN的标量输出特征检测器,他们仍然希望能够在整个空间中复制已习得的知识,所以文中构建的模型除了最后一层胶囊之外,其余的胶囊层都是卷积。与CNN一样,更高级别的胶囊得以覆盖较大的图像区域,但与最大池化不同,胶囊中不会丢弃该区域内实体精确位置的信息。对于低层级的胶囊,位置信息通过活跃的胶囊来进行“地点编码”。当来到越高的层级,越多的位置信息在胶囊输出向量的实值分量中被“速率编码”。这种从位置编码到速率编码的转变,加上高级别胶囊能够用更多自由度、表征更复杂实体的特性,表明更高层级的胶囊也相应地需要更高的维度。

二、如何计算一个胶囊的向量输入和输出

已经有很多方法可以实现胶囊的大致思路。这篇文章的目的,不是去探究所有可能的方法,而只是表明非常简单直接的方式就可以取得很好的效果,而且动态路由也可以起到帮助。

作者们用胶囊输出向量的模长来表示一个胶囊所表征的实体在输入中出现的概率。因此作者们采用一个非线性函数对向量进行“压缩”,短向量被压缩到几乎为零,长向量也被压缩到1以下长度。判别学习中充分利用这个非线性函数。

(式1)

其中vj是胶囊j的输出向量,sj是它的全部输入。

除了第一层胶囊,胶囊sj的全部输入是对预测向量uj|i的加权求和。这些预测向量都是由低一层的胶囊产生,通过胶囊的输出ui 和一个权重矩阵Wij相乘得来。

  (式2)

其中cij是由迭代的动态路径过程决定的耦合系数。

胶囊i和其上一层中所有胶囊的耦合系数的和为1,并由“routing softmax”决定。这个“routing softmax”的初始逻辑值bij 是胶囊i耦合于胶囊j的对数先验概率。

(式3)

这个对数先验可以和其他权重一起被判别学习。他们由两个胶囊的位置和类型决定,而不是当前的输入图像决定。耦合系数会从初始值开始迭代,通过测量每个高一层胶囊j的当前输出vi和低一层胶囊i的预测值ui|j之间的一致性。

所述一致性是简单的点积aij=vj . ui|j。这个一致性可被看做最大似然值,并在计算出所有将胶囊i连接到更高层胶囊得到的新耦合值前,加到初始逻辑值bi,j上。

在卷积胶囊层中,胶囊内每一个单元都是一个卷积单元。因此每一个胶囊都会输出一个向量网格而不是一个简单的向量。

路由计算的伪码如下图

三、某类数字是否存在的边缘损失

作者们用实例化向量的模长来表示胶囊要表征的实体是否存在。所以当且仅当图片里出现属于类别k的数字时,作者们希望类别k的最高层胶囊的实例化向量模长很大。为了允许一张图里有多个数字,作者们对每一个表征数字k的胶囊分别给出单独的边缘损失函数(margin loss):

作者们用实例化向量的模长来表示胶囊要表征的实体是否存在。所以当且仅当图片里出现属于类别k的数字时,作者们希望类别k的最高层胶囊的实例化向量模长很大。为了允许一张图里有多个数字,作者们对每一个表征数字k的胶囊分别给出单独的边缘损失函数(margin loss):

(式4)

其中Tc=1当且仅当图片中有属于类别C的数字,m+=0.9,m-=0.1。是为了减小某类的数字没有出现时的损失,防止刚开始学习就把所有数字胶囊的激活向量模长都压缩了。作者们推荐选用 λ = 0.5。总损失就是简单地把每个数字胶囊的损失加起来的总和。

四、CapsNet 结构


图1:一个简单的3层CapsNet。这个模型的结果能和深层卷积网络(比如. Batch-normalized maxout network in network,2015)的结果媲美。DigitCaps层每个胶囊的激活向量模长给出了每个类的实例是否存在,并且用来计算分类损失。 是PrimaryCapsules中连接每个 ui, i ∈ (1, 32 × 6 × 6) 和每个vj , j ∈ (1, 10)的权重矩阵。


图2:从DigitCaps层来重构数字的解码结构。训练过程中极小化图像和Sigmoid层的输出之间的欧氏距离。训练中作者们用真实的标签作为重构的目标。

图1展示的是一个简单的CapsNet结构。 这是一个很浅的网络,只有2个卷积层和1个全连接层。Conv1有256个9*9的卷积核,步长取1,激活函数为ReLU。这层把像素亮度转化成局部特征检测器的激活,接下去这个值会被用来作为原始胶囊(primary capsules)的输入。

原始胶囊是多维实体的最底层。这个过程和图形生成的视角相反,激活了一个原始胶囊就和刚好是图形渲染的逆过程。与先分别计算实例的不同部分再拼在一起形成熟悉的总体理解(图像中的每个区域都会首先激活整个网络而后再进行组合)不同,这是一种非常不同的计算方式。而胶囊的设计就很适合这样的计算。

第二层PrimaryCapsules是一个卷积胶囊层,有32个通道,每个通道有一个8维卷积胶囊(也就是说原始胶囊有8个卷积单元,9*9的卷积核,步长为2)。这一层中的胶囊能看到感受野和这个胶囊的中心重合的所有256*81 Conv1单元的输出。PrimaryCapsules一共有[32,6,6]个输出(每个输出是一个8维向量),[6,6]网格中的每个胶囊彼此共享权重。由于具有区块非线性,可以把PrimaryCapsules视作一个符合式1的卷积层。最后一层(DigitCaps)有对每个数字类有一个16维的胶囊,所有低一层的胶囊都可以是这一层胶囊的输入。

作者们只在两个连续的胶囊层(比如PrimaryCapsules和DigitCaps)之间做路由。因为Conv1的输出是1维的,它所在的空间中不存在方向可以和高层的向量方向达成一致性。所以在Conv1和PrimaryCapsules之间没有路由。所有的路由逻辑值(bij)被初始化为0。因此,一开始一个胶囊的输出(ui)会以相同的概率(cij)传入到所有的母胶囊(v0,v1,…,v10)。作者们用TensorFlow实现了这个网络,选择了Adam优化器和TensorFlow的默认参数,包括指数衰减的学习率用来优化式4的边缘损失的总和。

4.1 为了正则化效果而做的重构工作

作者们使用了一个额外的重构损失,希望数字胶囊能对输入数字的实例化参数做编码。在训练过程中,作者们用掩蔽的方法只把正确的数字胶囊的激活向量保留下来。然后用这个激活向量来做重构。数字胶囊的输出会传入一个由3个全连接层组成的解码器,它的结构如图2,用来建模像素密度。

作者们极小化回归单元的输出和原来图片的像素亮度之间的平方误差,并把重构误差收缩到原来的0.0005倍,这样才不会在训练过程中盖过边缘误差的作用。如图3所示,CapsNet的16维输出的重构是鲁棒的,同时也只保留了重要的细节。

五、把 Capsule 用在MNIST上

使用 28×28 MNIST的图片集进行训练,训练前这些图片在每个方向不留白地平移了2个像素。除此之外,没有进行其他的数据增改或者转换。在MNIST数据库中,6万张图片用于训练,另外1万张用于测试。 

图3: 利用3次路由迭代学习的CapsNet对MNIST中的测试照片进行重构。(l, p, r)分别代表真实标签、模型预测和重建结果。最右两列展示的是重建失败的例子,解释了模型是如何混淆了图片中的“5”和“3”。其他列属于被正确分类了的,展示了模型可以识别图像中的细节,同时降低噪声。

表1:CapsNet 分类MNIST数字测试准确度。结果包含了三次测试得到的平均数和标准差。

测试中作者使用的是单一模型,没有进行“综合”或者明显的数据扩增方法。(Wan等人在「Regularization of neural networks using dropconnect」中通过“综合”及数据扩增实现了0.21%的错误率,而未使用这两种方法时的错误率是0.57%)作者们通过3层神经网络实现了较低的错误率(0.25%),这一错误率以往只有更深的网络才能达到。表1展现的是不同设置的CasNet在NMIST数据库上的测试错误率,表明了路由以及正则器重构的重要性。其基线是一个标准的三层神经网络(CNN),分别具有256、256及128个通道。每个通道具有5×5的卷积核,卷积步长为1。接着有两个全连接层,大小分别为328、192。最后的全连接层通过dropout连接到带有交叉熵损失的10个分类输出的softmax层。

5.1 capsule的单个维度表示什么

由于模型中只向DigitCaps层的胶囊传递一个数字的编码并置零其他数字,所以这些胶囊应该学会了在这个类别已经具有一个实例的基础上拓展了变化空间。这些变化包括笔画粗细、倾斜和宽度。还包括不同数字中特定的变化,如数字2尾部的长度。通过使用解码器网络可以看到单个维度表示什么。在计算正确的数字胶囊的激活向量之后,可以将这个激活向量的扰动反馈给解码器网络,并观察扰动如何影响重建。这些扰动的例子如图4所示。可以看到,胶囊的一个维度(总数为16)几乎总是代表数字的宽度。有些维度表示了全局变化的组合,而有些维度表示数字的局部变化。例如,字母6上部分的长度和下部分圈的大小使用了不同的维度。


图4:维度扰动。每一行表示DigitCaps16个维度表示中的一个维度在[-0.25, 0.25]范围,步长0.05时的重构结果

5.2  仿射变换的鲁棒性

实验表明,每个DigitCaps层的胶囊都比传统卷积网络学到了每个类的更鲁棒的表示。由于手写数字的倾斜、旋转、风格等方面存在自然差异,训练好的CapsNet对训练数据小范围的仿射变换具有一定的鲁棒性。

为了测试CapsNet对仿真变换的鲁棒性,作者们首先基于MNIST训练集创造了一个新的训练集,其中每个样本都是随机放在40× 40像素的黑色背景上的MNIST数字。然后用这样的训练集训练了一个CapsNet和一个传统的卷积网络(包含MaxPooling和DropOut)。

然后,作者们在affNIST数据集上测试了这个网络,其中,每个样本都是一个具有随机小范围仿射变换的MNIST数字。模型并没有在任何放射变换,甚至标准MNIST自然变换的训练集合上训练过,但一个训练好的带有早期停止机制(early stop)的CapsNet,在拓展的MNIST测试集上实现了99.23%的准确度,在仿射测试集上实现了79%的准确性。具有类似参数数量的传统卷积模型在扩展的MNIST测试集上实现了类似的准确度(99.22%),在仿射测试集上却只达到了66%。

六、高度重叠数字的分割

动态路由可以视为平行的注意力机制,允许同层级的胶囊参与处理低层级的活动胶囊,并忽略其他胶囊。理论上允许模型识别图像中的多个对象,即使对象重叠。Hinton等人的目的是分割并识别高度重合数字对象(「 Learning to parse images,2000」中提出,其它人也在类似的领域实验过他们的网络,Goodfellow等人在「Multi-digit number recognition from street view imagery using deep convolutional neural networks,2013」中,Ba等人在「Multiple object recognition with visual attention,2014」中,Greff等人在「Tagger: Deep unsupervised perceptual grouping,2016」中)。一致性路由使利用对象的形状的先验知识帮助进行分割成为了可能,并避免在像素领域进行更高级别的细分。

6.1 MultiMNIST数据集

作者们通过在数字上覆盖另一个来自相同集合(训练或测试)但不同类别的数字来生成MultiMNIST训练测试数据集。每个数字在每个方向上最多移动4个像素,产生36*36像素的图像。考虑到28*28像素图像中的数字是以20*20像素的范围作为边框,两个数字的边框内范围平均有80%的重合部分。MNIST数据集中的每个数字都会生成1K MultiMNIST示例。训练集的大小为60M,测试集的大小为10M。

6.2 MultiMNIST数据集上的结果

作者用MultiMNIST的训练数据中重新训练得到的3层CapsNet模型,比基线卷积模型获得了更高的分类测试准确率。相较于Ba等人在「Multiple object recognition with visual attention,2014」的序列注意力模型,他们执行的是更简单的、数字交叠远远更小的任务(本文的测试数据中,两个数字的外框交叠率达到80%,而Ba等人的只有4%),而本文的模型在高度交叠的数字对中获得了与他们同样的5%的错误率。测试图片由测试集中的成对的图片构成。作者们把两个最活跃的数字胶囊看作胶囊网络产生的分类结果。在重建过程中,作者们每次选择一个数字,用它对应的数字胶囊的激活向量来重建这个数字的图像(已经知道这个图像是什么,因为作者们预先用它来生成合成的图像)。与上文MNIST测试中模型的唯一不同在于,现在把将学习率的衰减步数提高到了原来的10倍,这是因为训练数据集更大。

图5:一个经3次路由迭代的CapsNet在MultiMNIST测试数据集上的样本重建结果

如图中靠下的图像所示,两个重建出的互相交叠的数字分别显示为绿色和红色的。靠上的图显示的是输入的图像。表示图像中两个数字的标签;表示用于重建的两个数字。最右边的两列显示了从标签和从预测重建的两个错误分类样例。在例子中,模型将8错判成7;在的例子中,模型将9错判成0。其他的列都分类正确并且显示了模型不仅仅考虑了所有的像素同时能够在非常困难的场景下将一个像素分配给两个数字(1-4列)。值得说明的是,在数据集产生的过程中,像素的值都会被剪裁到1以内。两个含“*”的列显示了重建的数字既不是标签值也不是预测值。这些列显示模型不仅仅找到了所有存在的数字的最佳匹配,甚至还考虑了图像中不存在的数字。所以在的例子中,模型并不能重建数字7,是因为模型知道数字对5和0是最佳匹配,而且也已经用到了所有的像素。的例子也是类似的,数字8的环并没有触发为0的判断,因为该数字已经被当做8了。因此,如果两个数字都没有其他额外的支持的话,模型并不会将一个像素分配给这两个数字。

图5中的重构表明,CapsNet 能够把图片分割成两个原来的数字。因为这一分割并非是直接的像素分割,所以可以观察到,模型可以准确处理重叠的部分(即一个像素同时出现在多个数字上),同时也利用到所有像素。每个数字的位置和风格在DigitCaps中都得到了编码。给定一个被编码数字,解码器也学会了去重构这一数字。解码器能够无视重叠进行重构的特性表明,每个数字胶囊都能从PrimaryCapsules层接收到的不同激活向量来获取位置和风格。

表1 也着重表现了这一任务中胶囊之间路由的重要性。作为CapsNet分类器准确率的对比基线,作者们一开始先训练了带有两层卷积层和两层全连接层的卷积神经网络。 第一层有512个大小为9*9的卷积核,步长为1;第二层有256个大小为5*5的卷积核,步长为1。在每个卷积层后,模型都连接了一个2*2大小,步长2的池化层。 第三层是一个1024维的全连接层。

所有的这三层都有ReLU非线性处理。 最后10个单元的层也是全连接。 我们用TF默认的Adam优化器来训练最后输出层的Sigmoid交叉熵损失。 这一模型有24.56M参数,是CapsNet的11.36M参数的两倍多。作者们从一个小点的CNN(32和64个大小为5*5的卷积核,步幅为1,以及一个512维的全连接层)开始,然后逐渐增大网络的宽度,直到他们在MultiMNIST的10K子集上达到最好的测试精度。他们也在10K的验证集上搜索了正确的学习率衰减步数。

作者们一次解码了两个最活跃的DigitCaps胶囊,得到了两张图片。然后把所有非零的像素分配给不同的数字,就得到了每个数字的分割结果。

七、其它数据集

作者们在 CIFAR10 的数据及上测试了胶囊模型,在用了不同的超参和7个模型集成(其中每个模型都通过图像中24×24的小块进行三次路由迭代)后得到10.6%的错误率。这里的图片都是三个颜色通道的,作者们一共用了64种不同的 primary capsule,除此之外每个模型都和在 MNIST 数据集中用的一模一样。作者们还发现胶囊能够帮助路由softmax增加一个“以上皆非”的分类种类,因为不能指望10个 capsules 的最后一层就能够解释图片里的一切信息。在测试集上有 10.6% 的错误率差不多也是标准的卷积网络初次应用到 CIFAR10 上能达到的效果。

和生成模型一个一样的缺点是,Capsules 倾向于解释图片中的一切。所以当能够对杂乱的背景建模时,它比在动态路由中只用一个额外的类别来的效果好。在 CIFAR-10 中,背景对大小固定的模型来说变化太大,因此模型表现也不好。

作者们还用了和 MNIST 中一样的模型测试了 smallNORB 数据集,可以得到目前最好的 的 2.7% 的错误率。smallNORB 数据集由 96×96的双通道灰度图组成。作者们把图片缩放到 48×48 像素,并且在训练时从中随机裁剪 32×32 的大小。而在测试时,直接取中间 32×32 的部分。

作者们还在 SVHN 的 73257 张图片的小训练集上训练了一个小型网络。我们把第一个卷积层的通道数减少到 64个,primary capsule 层为 16 个 6维胶囊,最后一个胶囊层为8维的。最后测试集错误率为 4.3%.

八、讨论以及以往工作

30年来, 语音识别的最新进展使用了以高斯混合作为输出分布的隐马尔可夫模型。这些模型虽然易于在一些计算机上学习,但是存在一个致命的缺陷:他们使用的“n种中的某一种”的表示方法的效率是呈指数下降的,分布式递归神经网络的效率就比这种方法高得多。为了使隐马尔可夫模型能够记住的迄今它所生成字符的信息倍增,需要使用的隐藏节点数目需要增加到原来的平方。而对于循环神经网络来说,只需要两倍的隐藏神经元的数量即可。

现在卷积神经网络已经成为物体识别的主流方法,理所当然要问是其中是否也会有效率的指数下降,从而引发这种方法的式微。一个可能性是卷积网络在新类别上泛化能力的困难度。卷积网络中处理平移变换的能力是内置的,但对于仿射变换的其他维度就必须进行选择,要么在网格中复制特征检测器,网格的大小随着维度数目指数增长,要么同样以指数方式增加的标注训练集的大小。胶囊通过将像素强度转换为识别到的片段中的实例化参数向量,然后将变换矩阵应用于片段,以预测更大的片段的实例化参数,从而避免了效率的指数下降。学到了部分和整体之间固有的空间关系的转换矩阵构成了具有视角不变性的知识,从而可以自动泛化到的视角中。

胶囊使得我们可以做出一个非常具有表征意义的假设:在图像的每一个位置,至多只有一个胶囊所表征的实体的实例。这种假设是由一种称为“crowding”(Pelli等人「Crowding is unlike ordinary masking: Distinguishing feature integration from detection,2004」) 的感知现象驱动的,它消除了绑定问题,并允许一个胶囊使用分布式表示(它的激活向量)来对给定位置的该类型实体的实例化参数进行编码。这种分布式表示比通过在高维网格上激活一个点来编码实例化参数的效率要高得多,并且通过正确的分布式表示,胶囊可以充分利用空间关系可以由矩阵乘法来建模的特点。

胶囊中采用的神经活动会随着视角的变化而变化,而不是试图消除神经活动中视角变化带来的影响。这使它们比“归一化”法(如Jaderberg等「Spatial transformer networks,2015」)更具有优势:它们可以同时处理多个不同仿射变换或不同对象的不同部件。

胶囊同时也非常擅长处理图像分割这样的另一种视觉上最困难的问题之一,因为实例化参数的矢量允许它们使用在本文中演示的那样的一致性路由。对胶囊的研究目前正处于一个与本世纪初研究用于语音识别的递归神经网络类似的阶段。根据基础表征性的特点,已经有理由相信这是一种更好的方法,但它可能需要一些更多的在细节上的洞察力才能把它变成一种可以投入应用的高度发达的技术。一个简单的胶囊系统已经在分割数字图像上提供了无与伦比的表现,这表明了胶囊是一个值得探索的方向。

(完)

关注AI研习社,回复【论文】即可获取论文原文及翻译。

欢迎各界朋友加入字幕组,让雷锋字幕组翻译水平更上一层楼。组长微信:julylihuaijiang。

雷锋字幕组翻译 / 熊浪涛、小颖同学、sophie、Clay、李振、孟庆淳、Jackie、小耗子在南京、张小彬、Moonsea、陈智敏

审校 / 晓凡

统筹 / 囧囧、凡江

雷锋网