离开百度,他们在自动驾驶战场上拼杀

从2013年百度成立深度学习研究院(IDL)拉开了内部研发自动驾驶的序幕,到今年7月李彦宏亲自搭乘自动驾驶汽车上五环,正好是四年之隔。

这四年里,我们见证了百度自动驾驶汽车开上五环,也目睹了百度自动驾驶事业部(ADU)的成立,最终又被智能驾驶事业群(IDG)取代,其背后是L3与L4的路线之争。我们还有幸正在亲历百度开放自动驾驶技术,力推阿波罗(Apollo)计划,欲打造自动驾驶领域的“安卓”。

同样在这四年中,百度的自动驾驶团队也因世殊时异而物是人非。

2015年,百度IDL最早的发起人余凯离职,创办地平线机器人;2016年,百度早期自动驾驶研发主要的领导人倪凯出走,加盟乐视(倪凯在几个月前又有了新的动向,这是后话);2017年,百度自动驾驶的一把手王劲,在陆奇统辖百度智能驾驶业务后,与老东家分手,如今新成立的景驰科技风生水起。

无论是百度国内团队还是百度美研,众多的一流人才都选择了创立新公司,奔向自动驾驶的最前线。

王劲 – 景驰科技

陆奇治下百度重新整合智能驾驶事业群之后,王劲被“休假”了。随后,他在2017年3月27日洪泰基金的CEO春分大会上最终宣布自己离职创业的消息。

再后来,我们知道,他创办的公司名为“景驰科技”,总部位于美国湾区的Sunnyvale,目标锁定自动驾驶。目前,新公司正在国内和硅谷组建团队,同时也在引进投资。

景驰科技CTO Tony Han(韩旭)此前是百度自动驾驶事业部首席科学家,是王劲的老同事。韩旭长期活跃在计算机视觉与机器学习领域,在业内知名的识别、检测大赛上获得过无数奖。加入景驰后,他负责公司所有研发相关的工作。

景驰科技成立一个月后,王劲又找来自己的老朋友——已经从激光雷达生产商Velodyne离职的Qing Lu担任公司的CFO,负责融资事宜。这二位也颇有渊源,2016年,百度联合福特向Velodyne注资1.5亿美元,当时还是百度自动驾驶事业部总经理的王劲力推此事,而Velodyne方面负责此次注资谈判的就是Qing Lu。

另据了解,景驰科技还接收了一部分来自神州优车硅谷实验室的技术人员,其中就包括了首席架构师Li Yan。

6月18日,景驰科技顺利拿下在加州道路上测试自动驾驶汽车的资格。这意味着景驰的自动驾驶大业步入正轨。期待这家公司接下来有更多好消息公布。

余凯 – 地平线机器人

在创办地平线机器人之前,百度余凯早已名声在外。

他曾是百度深度学习研究院执行院长,领导过百度深度学习研究院(IDL)、多媒体技术部、图片搜索产品部等团队,还是百度内部自动驾驶的发起人和早期领导者。因这些成就,他曾连续三次获得“百度最高奖”。

2015年年中,余凯告别百度,拉着百度IDL主任架构师黄畅、Facebook FAIR创始人杨铭、前诺基亚副总裁方懿以及前华为芯片架构师周峰共同创立地平线机器人,目标是打造万物智能的大脑。

2016年,地平线机器人公布专门针对汽车的解决方案平台——“雨果”,与此同时,地平线机器人还将ADAS作为重点业务方向。2016年,地平线宣布为奇点汽车打造ADAS原型系统、为包括博世在内的Tier 1提供包括算法在内的ADAS解决方案、与英特尔合作研发ADAS系统。今年,他们还将与多家Tier 1、OEM展开前装ADAS的合作。

2017年3月28日,地平线上海研发中心成立,上海的团队将主攻ADAS和自动驾驶解决方案。与此同时,地平线计划在今年部署50辆自动驾驶汽车,明年部署1000辆自动驾驶汽车,通过这些车辆收集测试数据,建设业界最大的驾驶数据库。

楼天城、彭军 – Pony.ai

2016年12月,被前百度首席科学家吴恩达称为“世界上最好的编程者之一”的楼天城以及时任百度无人车首席架构师的彭军(James Peng)双双离职,联手创业,拉来8、9人的核心团队,共同创办了自动驾驶公司Pony.ai。尽管当时极其低调,但作为百度T10和T11级别的工程师,他俩的公司吸引了诸多眼球。

楼天城是清华大学计算机博士,图灵奖得主姚期智的得意门生,“楼教主”曾连续两年夺得谷歌全球编程挑战赛冠军。实力超群的他在2016年被王劲招入百度美国研究中心自动驾驶团队。此外,楼天城还在谷歌无人车项目中工作过。

彭军则是百度美国研究中心引入的第一位大神级工程师,也是后来百度硅谷自动驾驶团队的早期成员。他曾在谷歌工作七年,2012年进入百度,担任过主任架构师,在广告、大数据、 云计算多个领域负责架构设计。2015年,百度自动驾驶事业部成立,彭军出任首席架构师。

目前这家公司正在不断扩充队伍,广泛吸纳顶级工程师,还在北京和硅谷设立了办公室,但依然显得很神秘。今年6月,Pony.ai获得了加州自动驾驶汽车路测的许可。

佟显乔、衡量、周光 – Roadstar.ai

2016年4月,佟显乔从百度离职,与另外两位同事共同创办了自动驾驶公司Roadstar.ai。

三位联合创始人:佟显乔(CEO)、衡量(CTO)、周光(首席机器人专家)履历光鲜,曾在谷歌、苹果、特斯拉、英伟达、百度等公司就职,有着丰富的自动驾驶实战经验,都是自动驾驶研发的中坚力量。

佟显乔曾在百度硅谷团队担任无人车定位和地图技术组 Tech Lead;衡量曾在百度自动驾驶项目组(ADU)技术委员会任核心委员,担任 Sensing 组经理和 Tech Lead;周光曾在百度硅谷无人车团队负责标定、感知等方面的工作。可见,百度烙印极其明显。

目前,这家初创公司获得了来自云启资本、松禾资本、银泰资本以及耀途资本等机构千万美元的天使轮融资。

考虑到各种不同传感器的特性互补,Roadstar.ai选择多传感器融合软硬件结合的解决方案,这既可以提升无人车算法的能力,又可以提升算法的鲁棒性和无人车的安全性。

他们认为,多传感器融合在算法上的优势以及使用相对便宜的传感器(比如使用性价比高的国产激光雷达),可以快速推进 Level 4 自动驾驶技术的商业化。对于这一套多传感器融合技术的具体方案,Roadstar.ai 将会在未来逐步对外公开。

在具体业务上,Roadstar.ai 将与整车厂商和供应商合作,为他们定型开发相应的 Level 4 级别无人驾驶系统,其中包括多传感器融合技术、软件以及提供自动驾驶车辆需要的高精度地图服务。

Roadstar.ai 已经在硅谷和深圳设立研发中心,一方面吸收硅谷最新科技融入产品;另一方面针对中国市场做落地实践。在明年年初,这家公司开发的自动驾驶原型车将正式上路。

刘少山 – PerceptIn

2016年3月份,刘少山和另一位联合创始人张哲先后辞去了令外界羡慕的高薪工作,创办了机器人领域的创业公司PerceptIn,意在为机器人提供更好的感知世界的能力。

PerceptIn是硅谷最典型的技术创业公司。两位创始人张哲和刘少山从国内来到美国求学深造,拿到计算机博士学位之后进入科技巨头微软工作,从事机器人项目以及Windows Phone的研发工作,数年之后又先后来到硅谷加入不同的科技公司。

在辞职之前,刘少山在百度硅谷研究院担任高级架构师,从事无人车项目的操作系统和硬件交互研发,而张哲是硅谷最热的AR增强现实创业公司Magic Leap的首席工程师。

倪凯 – ? 

2016年3月,百度深度学习研究院高级科学家、百度无人驾驶汽车团队负责人倪凯从百度离职加盟乐视,负责自动驾驶相关项目。

倪凯是清华大学本硕,后在美国最好的理工学院之一佐治亚理工学院取得计算机博士。倪凯无论在上学期间还是在工作期间都参与了众多人工智能项目,包括清华无人车研发项目、微软三维地图和HoloLens增强现实眼镜的研发项目。

后来倪凯加盟百度,成为百度无人驾驶项目的技术领军人物,从项目成立开始倪凯全程主导了百度无人驾驶项目,并通过百度在高精度地图、定位、感知、智能决策与控制四大模块以及人脸识别等技术方面的优势,在短短两年时间内达成上路测试的目标。

2016年3月16日,乐视宣布原百度无人驾驶负责人倪凯加盟乐视汽车,任乐视超级汽车(中国)智能驾驶副总裁。

8月,雷锋网承办的首届CCF-GAIR大会上,演讲嘉宾倪凯透露了乐视在自动驾驶领域的研发内容,包括人机交互、传感器、感知与规划技术等。

当年的世界机器人大会上,乐视无人车亮相,可供观众体验。这是乐视“FF & LeFuture”人工智能研究院首次向外界展示的阶段性成果。雷锋网新智驾当时还体验了这款自动驾驶汽车,最大的感受是技术的成熟度还不算太高。

如今,乐视自身的处境堪忧,乐视汽车的前途也更加扑朔迷离。很多消息称,倪凯已经从乐视离职,并且目前正在准备自己创业,方向也是自动驾驶领域。

Bao Junwei – 激光雷达创业公司

Bao Junwei的名声当然没有前面几位大,他曾是百度硅谷研发中心计算基础设施负责人。

2016年2月,当时还在百度担任首席科学家的吴恩达接受媒体采访时说,百度硅谷研发中心正在组建技术团队,研发专门支持商用无人驾驶车的高速计算硬件平台。那时候,百度自动驾驶事业部由王劲掌管,而这一举措在当时标志着百度自动驾驶汽车向三年商用的目标进一步推进。而这个新的技术团队,正是由Bao Junwei负责。

Bao Junwei 2014年加入百度,担任硅谷研发中心的计算基础设施负责人,此前曾做过大量数据中心相关工作,拥有丰富的经验。当时的报道显示,新团队将与百度深度学习实验室和北京其他自动驾驶研发团队一道,在王劲的统一领导下协同研发。

目前,关于Junwei Bao的公开信息甚少,但是他很可能已经从百度离职,加入了一家自动驾驶创业公司。这一点可以从他的领英个人信息中得知。

目前这家创业公司还处在保密阶段,地址位于旧金山湾区,主要从事自动驾驶汽车的传感器及传感器融合方案的研发。当然,我们也期待着这家公司亮相的那一刻。

贾相飞 – 瑞特森科技

在雷锋网新智驾的深挖过程,我们发现,贾相飞曾在百度公司名下联合申请过一系列专利,这些专利很多与道路三维建模有关,包括车道线分割和车道线图像识别等。种种迹象表明他可能在百度的无人车团队或者是地图团队工作过。

后来,贾相飞也从百度离开。

2016年10月31日,他创办了“北京瑞特森传感科技有限公司”,专注于3D视觉感知的硬、软件解决方案,致力于量产的固态高清面阵激光雷达传感器的研发,并通过人工智能技术,实现三维重建、物体识别、分类与跟踪,给无人驾驶车一双“眼睛”,使无人驾驶的感知系统具备全天候,全类别交通要素认知的能力。

贾相飞在最近的一次媒体采访中表示,公司近期重点是做好3D图像传感器,同时在商业化上会从近距离、低精度的视觉应用场景切入,比如VR内容制作中的定位。随后再切入远距离、高精度的视觉应用场景。今年,瑞特森计划谈下1-2家无人驾驶汽车厂商,产品希望明年能达到商用级别。

James Wu – DeepMap

James Wu中文名为吴夏青,曾是谷歌地图核心技术人员,参与了苹果地图发布,在创立DeepMap之前,他是百度自动驾驶高精地图的首席架构师。

DeepMap总部设在Palo Alto,去年年初成立,公司CTO马克·维勒(Mark Wheeler)也曾在谷歌担任过软件工作程师,还曾是苹果的高级研究员;COO 罗威(Wei Luo)曾在谷歌多个项目中担任产品经理,包括谷歌地图与谷歌地球项目。团队中还有激光雷达领域的技术老将,他们都曾在一线为自动驾驶汽车提供技术方案支持。

按照DeepMap的官方阐述,其提供的是服务于自动驾驶汽车的、在复杂而不可预测的真实世界中自主导航的技术能力。

目前,DeepMap正与一些汽车产业链的厂商合作,帮助他们逐步提升自动驾驶技术能力,使得车企能够按照既定的时间表达到相应的自动驾驶水平。

2017年5月, DeepMap获得了一笔2500万美元的A轮融资,由风投公司Accel领投, Andreessen Horowitz和GSR Ventures跟投。加之DeepMap去年获得的700万美元种子轮融资,目前这家公司的融资总额达到3200万美元。

此轮融资后,DeepMap将进一步扩大和优化其高精度绘图和定位技术平台,并继续吸纳地图测绘和自动驾驶领域的人才以扩充团队规模。

雷锋网

光速中国韩彦:我们看AI项目的方法,是根本不把它当AI项目来看

随着人工智能风口渐起,资本也开始对这个领域越发重视,无论是之前的互联网、智能硬件的创业潮还是今天的人工智能领域,资本对于创业者们的支持与影响都十分重要。

今年7月7日,由中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办的第二届CCF-GAIR 2017全球人工智能与机器人峰会召开。在7月8日下午的AI+创投专场上,光速中国基金创始合伙人韩彦参与了《AI投资的变与不变》的圆桌讨论,会上他讲述了自己对于这个领域的观点,包括看好什么样的人工智能企业,人工智能企业如何提升商业化能力,以及为人工智能企业指出雷区。

光速中国是一家专注于中国市场的早期创业投资基金,目前管理着三支美元基金和一支人民币基金,聚焦互联网、传统行业变革的“互联网+”以及企业服务等领域。

在这次CCF-GAIR大会上,由雷锋网联合旗下新智造频道,共同推出的人工智能与机器人创新公司榜单“2017 新智造成长榜”揭晓,光速中国投资的助理来也、小鱼在家以及e成科技榜上有名,由此可以看出光速中国在投资AI创新公司的成果。

会后雷锋网采访了韩彦,与他聊了聊人工智能领域投资的相关话题,以下是访谈实录的摘编。

雷锋网:就投资而言,你更看好技术型团队厚积薄发,还是更看好资源整合性团队?

韩彦:从投资角度来看,在一些领域中只有很少的几家能做大,而这些成功的团队,对于各自领域理解、对商业的感受都非常深刻。

比如我们关注的在医疗领域做得非常好的医疗AI项目,并不是因为这个团队的医疗知识最好,或是创始人是多少年的医学博士,反而是因为这个团队可能对互联网和医疗双边都有了解,并且对商业本质理解深度很成熟,这种企业更可能赢。

回过头来说,在人工智能领域没有技术、没有数据,项目也很难做出来,但如果让投资人来选,我会先选对行业、商业化有较深的理解的团队,因为其他的都可以后补。

在CCF-GAIR大会上有个嘉宾的分享我非常赞同,再过几年,AI这个领域会在各个领域都有人脱颖而出,但技术不会成为门槛,到时候排名靠前的几家公司在技术层面肯定会有差距,只是这个差距不会太大,不会是1-100的差距,可能是1-5的差距,所以说技术是可以后补的。而数据是有壁垒的,能不能拿到是跟天然资源相关的。

但最开始还要要求创始人对商业的理解。

总得来说,创业者一定要在领域内有比常人更深的理解才行,一个创业者或团队不可能做到大而全,认清自己的长短板在哪里即可。

雷锋网:AI赛道细分领域这么多,光速中国在投资的时候选择的标准是什么?

韩彦:不同阶段的投资人(天使、A轮、B轮)看项目的角度可能不一样,在我看来过去三年中国的AI投资大多是赌团队。

如果关注过这个行业,你就会发现,很多领域团队非常厉害,初出茅庐就能融上亿美金,但这个行业才刚刚开始,投资者肯定不是赌它的收入能力,所以大家基本都是更注重团队多一点。

拿光速投的三家「新智造成长榜」企业来说,助理来也的创始人一个是普林斯顿大学的博士,一个是宾夕法尼亚大学的博士,之前创业曾把公司卖给了百度,在百度的AI团队也积累了经验,我们对他们能力是看好的。

而小鱼在家的团队原来做过YY和Polycom,在音频和硬件上都是有积累的,团队很有实力。

而我们投资e成,更看好的是整个行业的商业机会。

HR行业多年来都是媒体属性的商业模式,e成就是用AI的方式来提升大家的效率。

综上所述,我们对AI领域的创业公司的选择标准来说,是多方面结合的,团队、商业模式都在考量范围之内。

一句话也许也能说清楚,就是找创业公司的长板。

雷锋网:之前光速中国在TMT和互联网领域投资了很多公司,在这些案例中有没有什么经验和方法是可以迁移到人工智能投资上来的?

韩彦:我们看人工智能项目的方法,就是没有把它当做人工智能来看。

光速过去十几年,都在看各个大行业里面的下一个机会,以前大行业的机会可能是线上线下的融合,所以出现了O2O等,现在还是不变,我们还是在看金融、教育、物流、医疗、房地产、消费等等,大方向没有变过,只不过是今天的这些行业机会可能通过跟数据、人工智能结合。

比如刚才说过的e成,HR这个大行业我们一直都在看,没有大数据之前我们也一直在看那些偏媒体属性的招聘网站等等,我们觉得不够颠覆,但是现在AI起来了,数据和算力都上来了,我们就觉得这个会是HR整个大行业的下一个突破点,所以我们投了e成。

我们没有因为「有人工智能机会了」才来看项目,而是一直沉在各个行业里面看机会,我们在投初创公司的时候也不会看他是不是一个AI公司,而是看他能不能把应用和AI融合,从而提升效率、节约成本等等,能不能带来更好的行业机会或突破。

雷锋网:对于AI公司来说,选择方向(2B或2C)对创业成功有什么影响?

韩彦:关于创业的成功,个人觉得创业者不能在创业第一天就想着要像滴滴那样的成功,这是不现实的。

我觉得能成功的初创公司,都是切入口非常小的。

在今天中国的创业环境里面,除了BAT,其他领域里面也都有领头的公司,比如新闻领域今日头条,其他一些领域也都有第一名出来的情况下,创业的切口一定要小、要专注,这把尖刀一定要插得深,才有可能赢。

AI 这个领域不会像互联网那样,2C的崛起非常快。AI还需要多方资源的整合发展。比如无人驾驶领域,都是小公司和大公司合作,小公司的收入也多是从大公司那里来的,再比如医疗AI创业公司里面大多也是服务医院和医疗机构的,让医院和医疗机构效率更高。

因为这个行业发展所需要的时间会比较长,会需要大的B端去孵化这个领域,提供一些资源,所以目前看来,人工智能领域会在B端崛起。C端会在未来慢慢成熟和崛起,比如无人驾驶车,但是时间还会很长。

雷锋网:如何看待今天人工智能风口?从投资的角度看,哪块领域会先落地?

韩彦:对创业者来说,首先不要想着哪块会是一个大风口,没有那么多风口,现在大多都是伪风口 。其次,我觉得唯一能成为未来大风口的领域,都是今天看来是很荒谬、很小、非常不令人理解、切入点很尖但是「很未来」的东西。

很多行业的AI落地可能性是慢慢起来的,比如医疗行业的AI应用,因为我们发现医疗AI的效率确实提升了五倍以上,一般来说,新技术提升一两倍不足以撼动这个行业的流程、关系链、生态,而五倍就有可能撼动了,所以医疗AI落地的可能性很大。

由此而言,我们在看行业项目时对一个项目能否落地的判断是,哪些行业是有可能被项目撼动的,并且未来商业化的可能性是高的。这种就更容易落地。

当然,无论哪个领域,人工智能的落地都还得慢慢来,现在刚刚起步,也不可能说有一个团队自己就具备了所有的资源,大家还得互相合作才行。


雷锋网

专访彭军:直奔L4无人驾驶,这有一份Pony.ai创立半年来的体会

彭军与楼天城

2016年年末,彭军和楼天城双双从百度美研离职。半年后,由两人创立的自动驾驶技术公司Pony.ai已经有30多位顶尖的工程师,并且拿到了加州自动驾驶路测的牌照。

彭军是百度美研最早的拓荒者,在内部他的技术级别曾是T11;而楼天城则以卓越的编程能力被圈内称为“楼教主”,吴恩达更是盛赞“楼是最顶尖的程序员”。像楼天城一样,Pony.ai今天30多人的队伍里吸纳了很多以一当多的人才——彭军称他们是最优秀,最能解决问题的人。

本周,彭军在北京接受了雷锋网 · 新智驾的采访,我们聊到了Pony.ai成立半年的成果。Pony.ai选择的直奔L4无人驾驶这条路径,显然是现有的自动驾驶技术研发中最难的一条路径。但彭军和楼天城前后也几次提到,实现L4无人驾驶对人们、对世界的影响(impact)也是最大的。

下面是彭军与雷锋网 · 新智驾(公众号AI-Drive)的采访实录,新智驾作了不影响原意的编辑。

新智驾:无人驾驶是一个比过去复杂很多的新系统,你们在开发的时候有没有碰到一些比较困难的地方?

彭军:我们的目标就是要在完全开放、真实的道路上实现无人驾驶。整个研发过程中,样车在路上遇到的情况,很多都是不可预测的,中间会碰到方方面面新的问题。

这也是为什么我们在招人的时候,强调最重要的一点是解决问题的能力。我觉得最关键的就是需要能够解决问题的人。

新智驾:Pony.ai成立大概有半年时间了,这半年Pony.ai主要做了哪些事?

彭军:这半年,从我的角度来总结,核心就是几件事。

一方面是组建团队,吸引最优秀、最能解决问题,同时价值观跟大家都合的一批人;另一方面,从做事本身来讲,就是把样车做出来,在开放道路上实现很好的、安全的无人驾驶。

所有的事情其实都是围绕把样车做好展开。

新智驾:Pony.ai选择直接做L4高速的无人驾驶,这个方向是怎么决定的?

彭军:首先这是所有出行领域中最大的一块, 然后这也是最难的一块。我们希望做一个最难最通用的解决方案。在整个公司成立之初,我们就决定了要分两条腿走路:

首先,一定要做最好最难最优秀的技术。我认为在所有的垂直化的应用场景里,技术的相通性实际上是非常高的。比如说,像低速的园区车、无人送货车、清洁车、农用车、矿产车等等。通用平台做好之后,实现这些方向的应用其实都很容易。

而且,一些垂直化的应用并不见得比通用的方案更成熟,比如说怎么把五万块钱的车控制地很好,这比在50万的车上实现要难很多,因为车辆的控制不精准。

我反而认为在高端车上实现无人驾驶是要比低端车容易的。

新智驾:实现L4的无人驾驶,需要很多的数据,那怎么去获取很多的数据?

彭军:离不开实测,很多数据还是必须要我们自己采,自己去测。

我认为,数据和数据之间是不一样的,就是说不同家采集的数据是不太相通的。举个例子,像特斯拉辅助驾驶采集的数据,对于做L4无人驾驶的意义其实没有那么大。各家采集数据的密度、种类都不一样,至少在早期我们认为必须自己去实测。

其实无人驾驶数据的采集积累是蛮快的,还有一个更大的挑战在于如何收集、清洗和标注这些数据。很多数据标注的工作量是比较可观的,好的算法可以帮你自动标注一些,也有外包的解决方案来做这方面的事。

新智驾:之前提到,无人驾驶技术设计应该用平台化的方式,这如何理解?

彭军:平台化的设计,跟两条腿走路是一个意思,是做一个相对通用的解决方案,接口都更标准化。这样的话,通用平台在垂直化的领域上应用会更容易。

新智驾:之前你的访谈里描述了这样的观点,将无人驾驶技术卖给车厂是行不通的。为什么?

彭军:这可能有一点误读。无人驾驶技术,不像传统车厂与Tier 1、Tier 2所熟悉的方式,它实际上是一个软硬件整体的解决方案,跟车辆车型本身又是深度绑定,需要专门适配的。早期的无人驾驶应用,或者说无人车的商业化,一定不是把无人驾驶解决方案像过去Tier 1卖零部件一样卖给车厂。

这有几个原因:第一,从技术上讲,无人驾驶整体解决方案是深度定制化的,它不是一个标准化的事物,不容易按照零部件的方式去卖。当然里面某些技术点,比如地图生产方式、线上模拟的环境等等,这是可以商榷的。

其次,在车厂经营的这么多年里,以及围绕车辆建立的法律法规,整个解决方案要达到车规级的标准需要时间。而无人驾驶本身是一个不断迭代,靠数据驱动来更新的事物。

基于这几个考虑,早期无人驾驶的产品形态,不应该是以解决方案的形式卖给车厂。

 新智驾:Pony.ai跟一些新车企已经建立了合作,这方面的合作具体是做什么?

 彭军:我们目前没有要互联网造车,至少还没有这个规划。所以跟车厂合作,是希望他们提供车辆平台,我们来提供无人驾驶技术,共同打造无人车。

新智驾:无人车是一个全新的系统,之前你认为需要大量软硬件的定制化的工作。具体我们怎样去定制这些软件、硬件?

彭军:硬件方面,我们主要是在已有的传感器的基础上,适当做一些定制化。举个例子,摄像头的模组,包括了CMOS,摄像头的生产,控制件的生产以及图像预处理芯片等等,我们就会提出要求希望达到一个怎样的配置。

再比如激光雷达,那就是多少线的,什么类型的激光雷达,部署在什么位置,怎样的调校要求,基本上是这样去操作。

新智驾:据说Pony的同学重写了一版ROS?

彭军:不是重写了,而是去掉了ROS。ROS更多是作为进程间通信协调的中间件,它原本是为机器人设计的,因为机器人有不同的组件,而车本身是一个协调的整体,它的感知控制应该是一体化的。用一个给机器人做的系统放在车上,会有很多冗余的过程,所以效率会比较低。而我们自己做了一套系统,效率可以提高20倍,放到一辆车上,也就是在这个过程里减少了20倍的延迟。

我们做的改进,其实主要是把进程间的通信改成线程间的通信。ROS更多是为了机器人和更通用的应用研究准备的,而我们做了一个针对无人车用的定制化的软件。无人车本身市场规模足够大,可以承载很多定制化的东西。产品做得好不好,最终是看细节的打磨。

新智驾:你比较看好什么样的新车企?

彭军:我觉得互联网造车,虽然不像无人车一样早期,但也在刚刚开始的阶段。市面上比较突出的几家新车企,都有各自的优点和缺点,任何几家做得非常好,对这个市场都是一件好事。我相信随着我们的发展,我们和车企之间的合作会越来越多。

新智驾:我们有没有一个比较明确的规划,未来的无人车是Pony.ai来运营,还是由造车企业销售给消费者?

彭军:无人车早期是数据驱动的,我觉得直接卖给消费者肯定不是最早能实现的。

那么,最早的场景肯定是类似于出租车运营这样的场景。当然是由我们来运营、还是车企来运营,还是第三方公司运营,我觉得还太早了。但运营的形态,从技术和商业可行性上讲,一定比卖车更现实。

新智驾:到今年结束,你觉得Pony.ai会做到怎么样?

彭军:继续打磨技术,把原型车做得更好,在更多、更复杂的场景下能够开得更好,把驾乘的体验,舒适度做得更好。做出来和做得好,其实之间差距还很大,甚至一个简单的拐弯,怎样拐得舒服,是需要很多打磨的地方。 

新智驾:今年国内大部分的团队,应该说做的比较好的团队,都开始做一些较早能落地的技术,比如封闭的园区车或者是无人配送,你怎么看呢?

彭军:任何技术的推广和成熟一定是由简到繁,由局部到整体,这个路径我觉得是正常的。而且我估计我们以后可能会走这样的路径。只不过具体是怎么定义封闭园区,选择一个垂直领域还是多个垂直领域,这个是可以商榷的。因为我的判断是技术绝大部分是相通的。

雷锋网推荐阅读:离开百度,他们在自动驾驶战场上拼杀

雷锋网

智能物流如何改变商业未来?产学研专家聚首谈行业发展|CCF-GAIR 2017

照片中从左往右依次为孙宇、朱礼君、王亚莉、郑勇

2017年7月7日至9日,由CCF中国计算机学会主办、雷锋网与香港中文大学(深圳)承办的全球人工智能与机器人峰会CCF-GAIR大会在深圳举行。

在9日下午的智能物流专场中,由美国南佛罗里达大学孙宇教授主持,硅谷人工智能专家王亚莉博士、菜鸟网络高级算法专家朱礼君博士、极智嘉CEO郑勇四位产学研专家带来了主题为“智能物流和仓储改变商业未来”的圆桌讨论。

讨论刚开始,孙宇教授就提出“AI解决物流问题距离理想状态还有多远”的问题。对此,王亚莉博士给出了解答,她认为,虽然AI技术发展很久,但智能物流商业化落地时间还不长,还有很多难点需要攻破。

随后,孙宇教授还就这个问题进行了补充,他提出,如今中国智能物流发展与国外相比有哪些优势和劣势?在王亚莉博士看来,国内的优势是,由于起步较晚,各种弯路已经有人走过了,也已经有许多优秀的解决方案,性能佳的硬件可以供业内人士拿来就用;国内的劣势是,包括在人工智能方面的人才的缺乏、智能物流解决方案少且回报周期长、缺乏能与英伟达对抗的性能优异的国产计算设备等。

“智能物流的“最后一公里”问题如何解决?如何对人做优化?”紧接着孙宇教授又向朱礼君博士提出一串疑问。朱礼君博士回答说,具体有两种方法,第一种方法是收集实际数据的方式在模型里加入新的部分,求得新解;第二种方法是结合概率求最优解。

他希望他们的算法有自适应的能力,对于许多类似但不完全相同的问题,是不可能用大批量的算法工程师去一个一个地解决的。在这种时候,机器学习的方法就可以自适应地针对不同的问题自动学习不同的特征和解法。朱礼君博士也说,这样的做法可能会让机器学习模型取代算法工程师,但他觉得,“如果做一件事是在革自己的命,那这件事就是做对了”。

而后,孙宇教授还提问了郑勇关于“对未来AGV的看法”。郑勇对此进行了详细的解答,总结起来有三点,AGV应当有更强感知、更强决策、更强执行能力。

在后续的问答中,嘉宾们还根据自己的研究方向,分别表达了现在研发的技术和算法可以用来优化其他传统领域和生活中的问题、带来新的产品和效率提升的观点。

以下是圆桌讨论全文文稿,雷锋网作了不改变原意的编辑:

孙宇教授:现在的智能物流到底发展到了哪一步?距离极致还有多远?

王亚莉博士:人工智能技术由来已久,自1956年达特茅斯会议出现至今已经走了六十多年时间,而在这个过程中,大部分时间是国外科学家做理论铺垫,在中国商业化应用是最近几年才兴起的。

从学术角度来说,我们才刚刚起步,智能化在人类生活中的应用也才刚刚开始,距离极致还有很长的路要走,我们还有很多工作需要去做。

孙宇教授:在智能物流中,人的因素是如何考虑进去的?

朱礼君博士:在物流领域,建模的时候厂家会有很多简化性的假设,要尽量描述完整现实物流商业性运作情况,里面会包含很多人的因素。

人的因素主要是不确定性因素。

不确定性因素有两种方法来解决。第一种方法是通过收集反馈数据来分析,比如在做车辆路径规划的时候,我们会去收集该车的运动轨迹,有时候我们甚至会跟司机一起去开这个车,我们会坐在副驾驶上,跟着他的车走一圈,途中遇到的问题都会考虑进去;另外,在行业中,对于解决不确定性也有比较成熟的方案。

孙宇教授:如果把人的因素都忽略,建设无人仓或者说整个物流过程都用无人机或者无人车,这种可能性有多大?

极智嘉CEO郑勇:无人仓距离我们其实不远了,就拿极智嘉来说,目前做的产品是仓储物流公司机器人,用这些产品和解决方案就可以构建一个无人仓,前提是功能需求比较简单。现实是更多的仓库现在不仅是要移动式机器人,还需要类似机械手形式的机器人或者自动化设备。

从目前的技术发展来看,要构造一个无人仓并不难。我们研究更多的是如何把技术与业务真正结合在一起,所以我们一直在做产业化思考以及技术实践。比如,传统AGV只是做固定路径导航,今天我们需要让机器人更自由地去规划路径,这就需要应用视觉导航技术去防止碰撞,防止交通拥堵等问题;另外,如今的系统不仅仅是单机机器人,是一大群机器人一起实现物流搬运工作,所以我们还要解决多机器人之间的协调、机器融合以及相互之间的学习和自适应,这些都对机器人系统提出了更高的智能化要求。

孙宇教授:亚马逊有自己的物流,有自己的电商,国内的物流行业或者电商行业跟亚马逊或者类似的行业翘楚比较的话,有什么优势?有什么不足?

王亚莉博士:亚马逊可以说是中国物流圈的方向标,他们的每个产品和动态都吸引着从业人士的关注。在我个人看来,基于其强大的技术储备及资源积累,它应该在很早之前就开始布局这种无人智慧项目。

但我个人觉得国内物流也有很多优势,潜力很大。相对国外我们起步较晚,但就是因为晚,在布局时市场上就已经有非常成熟的设备、算法,别人走完的弯路都已经非常清晰了,一上来拿到的都已经是最好的,各方面都是最成熟的,先人载树后人乘凉,我们可以在短期内运用很好的智能设备。

孙宇教授:有没有什么劣势?

王亚莉博士:在人才这块,中国相对短缺,这一点美国硅谷占有一定优势。

孙宇教授:刚才朱博士提到了很多优化算法,优化里面有很多问题是NP-hard,有无最优解?在用深度学习的时候就有一定的优势,很多人也关心深度学习的应用,能不能讲一下?

朱礼君博士:今天只是稍微提到了一下我们在用深度学习和机器学习优化算法的经验,我们为什么要做这个事情呢?我们现在是一个平台,解答的问题非常多,就拿路径规划来说,像生鲜配送、农村配送、城市门店的配送,它的问题基本一样,但是细节不同,而这就得为每一类问题设计一个算法。

至于NP-hard,找最优化是不现实的。但算法可以改善很多问题,传统方法是需要工程师一个一个地去调试各种各样的特征,最后看哪个特征对图像分类更好,而优化了算法就不用这么机械式的解决问题。

到后来,我们用到了深度学习,很多问题的约束不同、目标也不一样,但是用到的都是底层的优化算法,算法之间非常类似,所以,我们就写了几十种启发式算法,运用深度学习、机器学习、强化学习等技术,算法就能自适应学习来解决特定问题。从某种程度来说,这可以节省人力、提高效率。

孙宇教授:通过解释我们得出一个结论,将来不光是体力劳动的人会被机器人取代,连算法工程师也会被深度学习机器人取代。

朱礼君博士:我觉得做一个事情,如果你在想方设法革自己的命,你可能就做对了。

孙宇教授:下一代的AGV会是什么样的?有什么可以憧憬?

极智嘉CEO郑勇:对于一个AGV或者移动机器人,通常会关注三方面能力:感知能力、决策能力和执行能力。

移动式机器人需要做定位导航,导航定位能力就是感知能力,在这个过程中可以看到很多场合追求工业可靠性。基于此,我们应用单线、多线的激光雷达及摄像头,这些传感器的融合会让机器的感知能力更强,不管是在室内还是室外都可以精确导航。另外,像无人驾驶也可以认为是一种AGV,只不过是室外环境的,我们今天说的AGV更多的是在室内环境。

第二个是决策能力,像路径规划,拥堵管理或者避障,这些都需要机器不断做决策。我们在做产业化应用的时候,AGV还遇到一个问题,怎么让客户更加方便地使用AGV,减少在现场的配置、设置,这时候就需要机器人有更好的自适应能力,去完成客户所需,这也是在决策能力上的要求。

最后是执行能力,执行能力就需要要机器足够“聪明”,背后需要依靠强大的算法作支撑,如何做运动控制、如何保持更好的平衡。不知道大家有没有注意到波士顿动力推出的一款机器人,双足是用轮子代替,非常敏捷,从这个角度来看也是一种AGV,代表的可能是下一代AGV的雏形,它能实现的就是高速、高负载,而且高精度,这是我们对下一代AGV的看法。

孙宇教授: 除了仓储之外,AGV还有哪些比较好的应用场景?前景如何?

极智嘉CEO郑勇:其实我们公司之所以定位在物流这个方向,我们觉得物流有非常大的潜力,物流一方面是仓储,一方面是配送,刚才主持人也提到包括有一些无人机的配送或者快递小车的配送,包括在无人驾驶里面也有物流车的配送,其实这些在我看来跟AGV都是一脉相承的技术。因此,除了在物流领域,它会更多地走到室外,帮助人类的生活变得更加便利,包括也会用同样的技术变成我们家庭服务机器人。我们说AGV代表的是机器人的移动能力,这种移动能力在未来的机器人跟人类的交互性方面,发挥的作用是巨大的。

孙宇教授:所以说这是小到蔬菜果盆,大到火箭卫星都可以包括进来?

极智嘉CEO郑勇:对。

孙宇教授:朱博士能否讲一讲智能物流技术给其他领域带来的影响?

朱礼君博士:现在智能物流领域用到的技术可以用到传统的供应链管理,往上游的话包括整个产销的过程;其次是工业生产,其中会涉及一些调度问题,解决这些问题的方法都比较类似。

孙宇教授:时间也到了,大家掌声感谢三位嘉宾的精彩分享。

主持人:随着三位大咖的分享结束,智能物流专场也落下帷幕。感谢各位参加由雷锋网承办的2017CCF-GAIR峰会,明年再会。

雷锋网

乂学教育栗浩洋:教育机器人如何利用AI提升10倍教学效率丨CCF-GAIR 2017

乂学教育&朋友印象创始人:栗浩洋

在由中国计算机学会(CCF)主办,雷锋网(公众号:雷锋网)和香港中文大学(深圳)联合承办的CCF-GAIR全球人工智能和机器人峰会的机器人专场上,乂学教育&朋友印象创始人栗浩洋也发表了其“用人工智能打造教学机器人提升十倍教育效率”的主题演讲。

在演讲中,栗浩洋介绍了其对传统学习和教育的看法。栗浩洋认为,过去的学习为什么这么痛苦?因为无论是公立学校,还是其他教辅机构都是无区别的对待所有学生和他们需要掌握的知识点。所以,乂学教育通过采用人工智能、机器学习的算法来对知识点进行纳米级别的标注,从而为学生提供一套真正适合的学习方案。

据栗浩洋介绍,乂学智适应系统可为每一位学生建立适配的知识空间地图,并跟随学生的学习过程而不断调整学习推荐路径,从而真正实现“有教无类、教无定法和因材施教”。

同时,栗浩洋也指出,在解决前序很多问题之后,如何不断保持和提升学生的关注度也成了一个难题,这一过程需要不断地优化知识点来给学生获得持续的成就感和兴奋度,这也是智适应系统需要解决的一个难题。

以下是栗浩洋本次演讲实录,雷锋网做了不改变原意的编辑。

栗浩洋:人工智能在中国刚刚火了一年,然而我们是在三年前开始做这个行业的。当时,很多人质疑我们,说怎么选了一个这么不成熟的行业来做?事实上,直到今天人工智能仍然不成熟,真正能够上路的人工智能又有多少?大家在大会上讲的更多是愿景,但是我们是想真正把人工智能落地,并将其实现大规模商业化使用。

如果谈到商业使用,科大讯飞90%多的收入都和人工智能没有关系。但是对我们做AI+教育的来说,先从商业角度来看,乂学教育打造的教学机器人在第一年就有了上亿的销售额。而从社会角度上来说,人工智能正在给这个社会带来翻天覆地的变化。

为什么过去的学习这么痛苦?

为什么过去的学习这么痛苦?因为无论是公立学校,还是其他教辅机构都是无区别的对待所有学生和他们需要掌握的知识点。但是,我们都清楚,课堂中每一个学生的起点不一样。所以,我们希望借助人工智能的测试,将学生的知识点掌握情况构建成一张知识地图。

乂学智适应教育系统:精准定位

乂学智适应系统主要针对K-12领域的学生,首先开发了七、八、九年级三个年级,未来会覆盖12个年级。不管对于学霸还是学渣都适用。通过AI算法的优化,我们像基因检测那样精准找到知识掌握的薄弱点,给学生推荐最适合他的知识点,通过这样的学习,可以改变过去教育统一划齐的状态。

· 知识空间理论

乂学教育开始做效率提升的时候发现一个问题,如果我们用非常粗糙的知识点进行定位,定位出来的效果也不好,而当我们将知识地图的点标的越小教育就越精准

比如,过去的个性化教育,如果检测到学生对冠词不了解,就机械地让他学习5个小时,而乂学教育系统会告诉学生是不定冠词的哪种用法不会,学生只需几分钟就可以学完,学习效率更高。

· 个性化匹配

虽然知识点分拆可以解决精准定位的问题,但是这也直接造成知识点的标注比之前多了30倍。过去的高考中考,知识点只会考到8%左右,但也需要测试10个小时以上。但当我们有100倍知识点之后,测试的时间可能会长达1万小时,这一数据没有一个学生能承受得了。

那么,我们如何去做?事实上,通过精准的知识地图和信息论的方式,我们也在不断地通过知识点之间的网状关系、和每个知识点是否处在最大信息节点、尽量用最少的测试量通过算法来衡量学生每个知识点掌握的概率,而这个概率的精准度需要我们通过机器学习不断地优化。而且不同学生遇到同样的知识点哪怕是都掌握的状态,由于各种能力因素或者情绪因素等等都可能会因为不同的原因出错,这也是AI未来一定会超过特级教师的原因,因为机器对知识点、题目、错因等各种复杂状态的的掌握能力是无限的。

我们当时发现,现在教育巨大的差距,在知识点侦测这一个简单事情上,就可以通过人工智能的方式给每个孩子提升10倍、20倍的效率。

· 教育测量学&认知诊断理论

每一个孩子到底需要多长时间才能学会这个知识点?我们根本一无所知。针对这一问题,我们决定采用AI预测的方式,来给学生设置不同的学习路径和步骤。然而,给每一个学生画像,并不是简单的脸部特征,而是要记录和侦测每一个知识点的状态。乂学教育智适应平台通过人工智能专家和教育专家的结合,以及借助过去大量的试验,可以给学生提供越来越精准的画像匹配。

· 个性化学习路径推荐

如何给一个学生做不同的个性化路线推荐?这是一个非常复杂的难题。比如,日本有一个病人被专家诊断完差一点死了,IBM Waston却判断出这是一个罕见病的类型,应该用不同的方案,两个月后这个病人出现大幅度好转。事实上,乂学教育智适应系统也一样,平台上的科学家也在不断去研究和琢磨这个问题。教育领域的机器学习不单单是算法而已、也不仅仅只是识别对和错,还牵扯到认知学、心理学、教育学和各种场景复杂的交织,不是一个科学家可以解决的。

所以我们做个性化推荐的时候,针对每一个学生我们都做了一个全景信息的知识地图,并都做了清晰的标注,这种标注的难度非常高,但是对未来进行课题研究、未来画像和课程推荐非常重要。

乂学智适应系统会在学生的学习过程中不断推荐最合适的学习材料,随时调整学习内容和路径,建立个性化学习档案,不断大量采集和分析学习数据。很快,系统甚至可以精准地预测学生的学习进程和期末的成绩。

· 利用AI和机器学习,建立学生个人画像

中国教育一直讲三个词,即有教无类、教无定法、因材施教,几千年都没有真正实现,而现在人工智能却真正做到了。

我们通过学生的各种各样的学习数据来判断,当然这个学习数据又是一个问题,到底用什么题测试知识点?我们公司自己专门为系统精编制作的题目测试精度很高,但市场上绝大多数的题都不行,因为涵盖了多个知识点并且标注错误或者标注不完全导致判断错误。还有些题学生不是因为知识点不会,而是有意想不到的错因,我们有一道语文阅读题CTO做错了,他的错误原因是觉得这个题政治不正确,所以每一个学生的情况千差万别,我们如何综合考虑到这个情况建立这些数据,同时不断推给相对最优的答案,这是每一个特级教师也不可能做到全量掌握和精准匹配的。

如何保持和提升学生的专注度?

当所有前序问题都解决掉,如何提升学生的专注度也成为一大难题。很多时候大家都说学霸永远学得好,学渣永远学不好,其实不是,学渣什么时候学得好?有成就感的时候。所以,在乂学教育的系统里,我们给学渣安排了非常简单的题,当他们突然发现自己百分之八九十都能做对,自然而然就会收获成就感。所以我们要不断提升这个知识点,让他们持续获得成就感。

Alpha Go&在线教育的共同启示

曾经有人说,今年的人机对弈,AlphaGo是故意算好赢面的概率,精准地只赢了柯洁半目,这让业界一阵颤栗。就像现在的智适应平台,也需要设置“懂得故意输、懂得照顾学生”的程序。我们给学生的个性化的推荐,就像今日头条给你的个性化新闻一样,只不过教育推荐的难度和复杂度要高出很多。所以我们在驱动机器学习的时候遇到很大的困难,因为AI需要依赖大数据,但是有两大领域都很难取得大数据——教育和医疗,所以在用算法和机器学习驱动这两个领域的发展也面临很多困难。

李开复曾经说,中国的人工智能在未来可以超过美国。事实上,我们在从欧美挖来教育领域最顶尖的科学家和跟人工智能最尖端的实验室SRI斯坦福研究中心一起合作之外,已经投入大量人力物力财力在教育的独特场景的落地应用研究,并且自主研发出很多超越欧美同行的专利和know-how 。在教育AI+的很多细分领域已经是全球领先。

希望大家一起创造一个更加美好的未来。让每个孩子的学习更有效、同时更轻松十倍!

雷锋网

新创公司如雨后春笋,深度剖析激光雷达淘金热

雷锋网按:对自动驾驶汽车来说,激光雷达、计算机视觉和雷达是躲避障碍物的三大重要传感器,其中 LiDAR) 是 Light Detection And Ranging(激光探测与测量)的首字母缩写,现在它几乎成了自动驾驶技术的同义词。不过,随着研发工作的深入,研究人员为该技术找到了更多的应用场景,一场融资竞赛正在轰轰烈烈的进行中。

市场研究公司 CB Insights 的数据显示,去年汽车技术新创公司共拿到 10.49 亿美元的投资,同比增幅高达91%,激光雷达在其中扮演了重要的角色。

在去年的 87 笔投资中,真正的大赢家是 Velodyne,该公司拿到了来自福特和百度的 1.5 亿美元。而转入 2017 年后,Waymo 和 Uber 也因为激光雷达技术而撕破脸皮,从合作者变成了竞争者。

除了新来的科技公司,主导汽车市场多年的制造商们也没有懈怠,就连一向以驾驶乐趣为卖点的保时捷也在硅谷设了新办公室。Porsche Digital 总经理 Thilo Koslowski 在声明中表示:“汽车将成为未来的终极移动设备,而毫无疑问未来将在硅谷诞生。”

当然,保时捷是否也要打入激光雷达市场现在还是个未知数,但可以肯定的是,这家德国传奇运动性能车制造商正在自动驾驶行业奋力打拼。

在 Quanergy Systems 公司 CEO Louay Eldada 看来,外界对激光雷达研发的关注和投入并不令人惊讶。这家桑尼韦尔的激光雷达公司已经得到了戴姆勒、德尔福、三星等巨头共计 1.2 亿美元的投资。

“激光雷达可以算的上是最强悍的传感器了,不过由于价格和可靠性等原因,它离普及还有很远的距离。”Louay Eldada 说道。“我们能获得如此高的关注度就是因为解决了以上两大难题。Quanergy 的激光雷达采用固态设计且基于台积电的 CMOS 工艺开发,因此可靠性和成本都有较大优势。”

其实大多数的激光雷达新创公司都是没有生产线的半导体公司,其传感器芯片都要靠台积电等公司帮忙代工。“我们自行完成设计后,就将生产任务外包给类似台积电这样的公司。”Eldada 强调道。

三星是 Quanergy 最大的投资者之一,除了自动驾驶汽车,它还想将激光雷达融合进智能手机。同时,Quanergy 的传感技术未来可能还会成为三星家用电器的标配。

“大量的资金让许多创业者红了眼,他们纷纷进军激光雷达市场,不过鱼龙混杂的市场开始让投资者感到迷惑,但 Quanergy 并不认为这是什么大威胁。”Eldada 说道。

拿到哥伦比亚大学博士学位后,Eldada 钻研激光雷达技术已经 27 年了,而 Quanergy 也是一家创立 15 年的老公司了。

除了成为自动驾驶行业的“掌上明珠”,激光雷达还逐渐在其他市场展开。加州的 Cepton Technologies 就在英伟达的 GPU 技术大会上推出了自家的广角激光雷达产品,这款产品能同时兼顾汽车和工业应用。Cepton 表示,它的激光雷达产品能探测到 200 米外的物体。

不过,这只是刚刚开始。“我们的终极目标是将整个世界绘制成 3D 数字地图,为自动驾驶汽车、无人机和机器人提供服务。”Pierre Cambou 说道,他是 Yole Developpement 的活动策划者。“自动驾驶反而成了次要目标,因为无论是否自动驾驶,路上的汽车都会成为数字地图数据库的用户和数据采集者。”

自动驾驶汽车是个幻觉吗?

那么,自动驾驶汽车能在进入幻觉破灭期前达到 Gartner 所谓的“期望膨胀期的顶峰”吗?

“对于 Gartner 勾画的发展规律周期,我不太敢苟同。”Cambou 说道。“在我看来,哈佛大学教授 Clayton Christensen 提出的‘破坏模型’更适合现在的情景。”

“ADAS 的概念已经逐渐被大众接受,它能有效降低事故率,而且已经渗透到了许多车辆之中,因此该技术未来不会进入幻灭期。”Cambou 解释道。“不过与 ADAS 相比,自动驾驶是一种完全不同的事物。作为该行业的领先者,Waymo 的技术确实令人兴奋。当你第一次在路上见到自动驾驶汽车,那种感受就像第一次看到了电影或见到了汽车。所以,我迫不及待想见到这项技术尽快普及。”

有人认为,眼下物联网技术已经进入了幻觉破灭期,自动驾驶技术是否也会重蹈覆辙?

对于这一观点,Cambou 无法认同,他表示:“有谁能清楚的定义物联网是什么吗?既然都没有明确的定义,怎么能判断它进入幻觉破灭期呢?而与物联网相比,自动驾驶是一种定义明确的应用,它有自己的市场。因此这项技术并没有幻灭的可能。”

那么自动驾驶技术对现有技术到底有多大的“破坏性”?

在解答这个问题时,Yole 有自己完整的一套理论,它会看新技术是否会催生新的应用,能否在现有市场之外开辟新市场。当然,新市场是否能引起外界重视也是一项重要的指标。

“在我看来,ADAS 并不是传统技术的威胁,但自动驾驶是。其影响力相当巨大,未来将有大批跟不上脚步的汽车制造商倒掉。”Cambou 说道。“英特尔花 150 亿美元收购 Mobileye 就是最好的佐证,芯片巨头正在谋求转型,而转型原因就是它一手打造的个人计算时代已经被移动计算取而代之,而自动驾驶正在复制智能手机的崛起之路。”

在 Cambou 眼中,人工智能也是自动驾驶汽车上的关键技术。“每家芯片制造商都想分一块蛋糕,但想抢占市场你还必须手握强大的视觉传感器。”Cambou 说。

值得注意的是,虽然大量技术都来源于美国公司,但投资在激光雷达市场的资金并没有地域限制。

据雷锋网了解,拿到融资的企业中还有较为知名的 Civil Maps,这家基于激光雷达采集地图的新创公司在种子轮中拿到了福特等多家公司的 660 万美元投资。

除此之外,一些国家的政府也参与了投资,澳大利亚的 Baraja 公司就拿到了该国联邦政府的 100 万美元投资。当然,一直在该领域处于领先地位的以色列也诞生了多家激光雷达新创公司。

雷锋网推荐阅读:

独家 | Velodyne最新进展:交付周期压缩至8周,新款32线激光雷达开始生产

雷锋网

深度丨110亿美金还不够,阿里使用这种AI手段创造更多广告收入(附PPT下载)丨CCF-GAIR 2017

7月9日,虽然已是中国计算机学会(CCF)主办,雷锋网和香港中文大学(深圳)承办的第二届CCF-GAIR全球人工智能与机器人峰会的最后一天,但仍然不影响各位童鞋到场学习的激情。机器人专场不仅满座,连走道上都挤满了小伙伴。继Facebook田渊栋结束其演讲之后,阿里妈妈精准展示广告技术总监盖坤作为第二场主题演讲嘉宾,也上台为大家分享了在过去5、6年间阿里巴巴基于互联网大数据做的机器学习模型方面的一些探索,以及一些研究成果背后的思考。

盖坤这次给大家带来的演讲主题是《互联网大数据下的模型结构挑战》,主要分为以下几个部分:

1、互联网数据和经典模型

2、分片线性模型和学习算法MLR模型

3、大规模ID特征+MLR实践

4、深层用户兴趣分布网络

(因为盖坤讲的非常干货,所以这次雷锋网将其演讲全文和PPT都贴在了下文,以便未能到场的童鞋也能直观的“听”演讲。)

以下是盖坤本次主题演讲的原文,雷锋网做了不改变原意的编辑:

盖坤:大家好,非常高兴能来到CCF-GAIR的会场。今天想跟大家分享的是过去5、6年间在阿里做的基于互联网数据的机器学习模型方面的一些探索,还有除了研究结果之外背后的一些思考。

这是我今天主题分享的提纲。我会先介绍一下互联网大数据,因为自身主要做电商互联网的用户行为数据。那么,在这个经典业界处理方式下,阿里都做了哪些改进?其中主要包括提出分片线性机器学习算法,也称MLR。之后,我会讲一下大规模ID特征和MLR算法配合在业务里面的应用实践。最后,我会分享这两年,我们在深度学习网络上的一些进展,介绍下深层用户兴趣分布网络。

一、互联网数据和经典模型

典型问题:CTR预估

机器学习可以让互联网数据发挥出巨大价值,而其在工业界应用最早也最成功的一个案例,就是点击率(CTR)预估。CTR预估在广告、推荐、搜索等都是比较重要的业务,对业务指标和收入指标的影响非常巨大。

以CTR预估为例,在此有三种经典做法:

简单线性模型Logistic Regression

稀疏正则L1-Norm特征筛选

处理非线性:人工特征工程

经典方法一:ID特征

ID特征,这里指的是稀疏鉴别式特征。举个例子,假如有1亿个用户,可以把1亿个用户表示为1亿维的01向量,01向量的第一个用户就命中第一维,第二个用户就命中为第二维,所以一种特征可以用这种ID类表示展现成一个非常长的01稀疏向量。如果有很多组特征,就可以把这些向量拼起来,形成一个更长的向量。

就原始特征而言,一般用户量大的公司可能是上亿级,而大的互联网公司,是上亿、上十亿甚至上百亿级的。所以原始ID特征在表示上,可以轻松将其表示成十几亿或者几十亿级。此外,我们还可以做特征的交叉组合,只要工程能力够,可以轻松上千亿,这个特征维度很大。

经典方法二:逻辑回归

逻辑回归是线性模型加上非线性的变换,变成一个概率形式。逻辑回归在工业界使用的方式很不一样。第一,它能处理非常大规模的数据,所以其模型和数据都必须是并行处理的,这对工程和算法上的要求都特别高。第二,对于特别大的特征来讲,通常我们会用稀疏正则L1-Norm特征筛选的方法。

经典方法三:人工特征工程

如果想用这个经典方法将更多有用的信息尤其是非线性的压榨出来,还需要用到人工特征工程的方法。比如刚才说的两个特征,如果两个特征的交互对目标影响很大,那么拼起来的线性模型可能不够,我们就要做交叉等很多特征。

这些方法是我在5、6年前刚进阿里时看到的一个状态,那时候国内大多数公司基本上都在沿用这套方法做研发。但是这里面有两个问题

1、人工能力有限,很难对非线性模式完全挖掘充分。

2、依赖人力和领域经验,方法推广到其他问题的代价太大,不够智能。

Kernel、Tree based、矩阵分解和分解机器模型和其存在的问题

1、Kernel方法:不适用工业界

Kernel方法是当时学术界使用的一些主流的非线性方法。为什么Kernel方法在工业界不怎么用?因为计算不可行。一般Kernel方法,其矩阵是数据量的平方级。当数据量特别大的时候,工业界只能使用线性级别。

2、Tree based方法:在ID特征上表现不够好

Tree based方法在一些低维的强特征上效果特别好,但在ID特征上反而作用不太好。

这里举一个例子:在推荐场景中,需要预估一个用户和一个宝贝的点击率,先不取历史行为就用用户ID和宝贝ID两种特征。有这两个特征,对于协同过滤的方法就已经够了。但是,如果用Tree based方法,要建树就会带来很多麻烦,树根到树叶的路径等价于是否是某个用户和是否是某个宝贝的联合判断。在这种情况下,它已经变成了一个历史记忆。这就是为什么Tree based的方法在稀疏大规模ID数据上表现不行的原因。

Facebook也做了一个方法,就是在强特征上用Tree based方法做数据筛选,再用一些LR聚合类的方法利用弱特征。

3、矩阵分解和分解机器模型:无法处理高阶关系

矩阵分解和分解机器模型,这两类模型其实有点共通。以分解机器模型为例,它主要处理的是有限次关系,经典的方法是二次关系。对于一些高阶关系是没法处理的。

二、分片线性模型和学习算法MLR模型

分片线性模型:优点、使用模型形式和其他

1、优点:可在大规模数据中挖掘推广性好的非线性模式

分片线性模型MLR是2011年我在阿里提出的方法。该模型的优点在于,可将整个数据分成不同的区域,在每个不同区域都用一个简单的模型预测,再将全部信息聚合起来,得到可以比较复杂的分片线性模型。如此一来,就能平衡欠拟合和过拟合的问题,从而在大规模数据中挖掘出推广性好的非线性信息。而其一个基本原则,就在于要使每分片对应足够量的样本。

如上图所示,我们训练了一些数据。其显示为一个菱形的分界面,用MLR模型能够得到一个很好的结果。这里稍微插一句,这个例子只是为了展示,其实这个例子非常不好学。分片线性模型里分片隶属度一般用软的非离散的函数,这种锐角折线而非平滑曲线会使得隶属度在局部变化非常剧烈而在其它地方又很平坦,给学习造成严重的局部极值问题,所以学习到这个结果是挺不容易的。

2、使用的模型形式:分而治之

上图这个模型我们参考了MOE的模型,不过我们的形式更加泛化。借此我们用一个函数做整个空间的区域划分,在其中有参数可以跟进数据自动学习,每个区域划分都含有一个预测器。当区域划分选择Softmax时,区域内则有LR预测,这是我们主要在用的模型之一。还有一种,是MOE&LR级联,这个模型也是我们非常主要使用的模型。

从神经网络的视角看,整个特征会学到表示所有分片隶属度的的向量,也会学到每个预测器的值,不同预测器会组成一个向量,最后是两个向量作为一个内积,变成一个预估值。这其实很像神经网络的Embedding方法,或者基本上可以判断是Embedding 方法的一种。

3、如何学习参数?

一个复杂的模型,实际上对于机器学习而言,重要的是这个模型是否工作,能不能学习?这个学习也和转化形式有关。其实跟逻辑回归一样,对于特别高维度的特征而言,我们希望学习的时候也有稀疏和泛化的作用并能做特征选择,所以选择了L21范数正则做分组稀疏

为什么要分组稀疏?因为每维特征对应一组参数,这组参数在训练的时候要同时为0,这个特征才真的意味着我们在使用的时候不用了,才能做特征选择。如果这个参数里面有任何一个不为0,这个特征是不能被过滤掉的,于是我们用分组稀疏。这是机器学习里面非常经典的方法,经验损失加上正则,用L1和L21范数同时做正则。

4、目标函数分析

存在难度和挑战:非凸、非光滑、高维度

有了这个目标函数,下面最关键的是怎么优化。这里的挑战在于,前面是一个非凸函数,后面的L1范数和L21范数都是非光滑函数,就会导致困难耦合不太好解。而如果是凸问题不可导,数学上凸问题都会有次梯度,可以用次梯度方法。但是这里不是凸问题,所以次梯度不存在。

为什么不用EM算法?

并且,在大规模的互联网大数据的情况下,维度也非常高。我们如何才能找到一个快速的求解方法?EM很经典,为什么不像传统MOE一样使用EM算法?

因为EM算法只适用于概率连乘的模型形式,而我们的方法对非正则部分可导的形式通用。其实EM算法是用E-Step把一个非凸问题变成一个凸问题,用M-Step来解这个问题,如果容易求解,EM就是合适。如果局限于MOE模型,它就会转化成凸问题,它的正则还是带着的,就变成一个参数量非常大的非光滑的凸问题,维度特别高。然而,超大维度非光滑的凸问题非常不好求解。所以这个非凸问题用EM转化并不比原始问题好求解。我们也就没有用EM,因为其并不能给实际求解带来任何的便利性。

MLR算法的特性和实验

这个算法适用于一般的经验损失加上L21正则再加上1范数正则的函数,在此其中,其关键点在于怎样求解。首先,我们证明了这个函数是处处方向可导的,虽然它可能不是处处可导的,但是它处处方向可导。这种情况下,就可以用这个方法。

为什么处处方向可导?

比如说L21范数在数学上会形成一个圆锥点,圆锥点那个点是没有切面的,所以它不可导。但是从它出发沿任何一个方向都有切线,所以其方向可导,而所有部分都方向可导,叠加起来就是处处方向可导。

这个证明也可以从我们的论文里求证,借此我们就能求出方向可导的最速下降方向。在此用最速下降方向代替梯度,用LBFGS做一个二阶加速。在其中,如OWL-QN,这是LR+L1正则,是微软提出的一个经典方法。我们像它一样进行象限约束,约束一次更新最多到达象限边界,下一次才能跨到这个象限。而Line Search是一个经典方法。我们会对收敛性做一个强保证,如果二阶加速不能下降,会直接用最速下降方向进行补偿搜索,直到两种方法都不能下降的时候才停止。

1、MLR特性:5大特点

结合前文,可将MLR的特点总结如下五点:

分而治之;

分片数足够多时,有非常强的非线性能力;

模型复杂度可控:有较好泛化能力;

具有自动特征选择作用;

可以适用于大规模高维度数据;

实验1:聚类和分类联动

如图,这是演示的一次实验,图中第一张图表示为原始数据。像逻辑回归、二阶方法,对于高度的非线性方法都不太适合,所以基本上其结果没有什么区分能力,但是MLR能够做到非常好的区分。而利用K-means先做聚类再做分类的方法,也没办法做很好的区域划分——我们先给K-means用4分片,但其区域怎么划分和后面怎么预测不联动,所以它就变成上图第二排第二个的分界面。我们再把K-means加上10分片,其实也没有变成一个很完美的分界面。

实验2:高阶拟合

这里是一个高阶拟合应用。我们用了一组数据来验证3个ID组合的方式。3个ID组合时,Libfm是没有办法很好抓住这个组合的特性的,但是借用MLR就可以很好的实现。

2、MLR 和LR 、GBDT模型的对比

如图,是一个实际业务数据的对比。在推荐场景里,我们的MLR和LR相比而言,在CTR预估和CVR(转化率)预估上的效果都有一个非常明显的提升。和GBDT(雷锋网注:一种迭代的决策树算法)对比,这是一个稠密数据的对比,大概是400多维的稠密数据。小维度稠密数据上GBDT表现还是不错的,到400多维的时候,MLR在预测性能上就已经优于GBDT。我们特意取了MLR还未收敛,训练集准确率和GBDT相同时候的模型,会发现测试集性能已经优于GBDT。

三、大规模ID特征+MLR实践

再来说说具体的实践。当用户用到宝贝维度时,对于阿里来讲是预估一个用户对一个宝贝的CTR或者转化率。在此其中的特征设计,一般设置的是ID特征。对于用户的行为,我们会用这些元素来表示:他访问、收藏、购买过哪个店铺、哪个类目等等,一系列的行为就会变成ID特征,来表示用户行为。用户除了行为之后,还有一个用户属性特征,比如性别、年龄、地域等等。

大规模ID特征:为什么不用用户ID?

如果用用户ID做特征的话,在建模的时候,每个用户ID会带来一个Embedding向量,这个向量可以称为用户的兴趣点。在训练的时候,通过用户兴趣点去拟合训练集中正样本宝贝的兴趣点。其实这个东西是在兴趣点的空间里做了一个历史记忆,虽然兴趣点本身会有一定的聚合作用,但其本质上还是历史记忆的作用。所以我们认为推广性并不好。

如果用行为ID去拟合正样本宝贝兴趣点,我们认为,从历史行为兴趣点到后续行为兴趣点这种模式的拟合是更具有推广意义,在实际业务中也会更有用。

那么,为什么会倾向于用户行为ID而不是用户ID。当然用户ID也有用,其是在训练的时候可帮助减少训练时的偏差,做一个偏置项。如果行为还不足够表达数据的全部特性,用户ID用来做偏置辅助训练,而我们在做预测的时候是完全用用户的行为ID来做的,这样才有更好的推广性。

如上图最下方所示,这是一个实际业务上的对比,MLR,也就是LS-PLM是第一行,LR是第二行。一般来讲,在工业界生产环境里面,训练集和测试集按时间分开,前一个时间段的数据做训练,后一个时间段做测试。上图显示的是连续7天的测试结果,MLR都在第一行,相比LR,其明显在AUC上都有提升1个点以上。

MLR如何能用的更好,就此我想给大家分享几招↓

MLR实践

▪  Trick One:结构化先验

首先是结构化先验。在实际应用中,我们一般只用用户特征做聚类,只用广告特征做分类,就会有非常好的直观意义。这样一来,就把用户分成不同的群体,每个群体做一个LR的预估。

实验显示,分组训练比不做分组全放开所有参数直接训练效果要好。后面我们在分组模型的基础上,再放开所有参数做refine效果更好。因为全放开寻优空间特别大,很难找到一个比较好的路径和比较好的点,所以通过结构化先验会使其找到一个比较好的点,在其基础上把参数全放开,会有更大的自由度,整个训练过程也会处理得更好。

前面也有提及,我们在实际应用的时候会有一个模型级联,在其中会有两种特征放在后面的级联里面:

▪  位置偏差:在预测的时候,为了计算考虑,我们不会考虑位置之间的协同性。比如说做一个位置归一的点击率排序,根据排序的顺序放在第一位、第二位、第三位,位置偏差只在训练时去偏置,使用时是不用的。

▪  强特征:有一些将用户行为序列的模型用来强特征,这些特征跟点击率非常相关。我们发现,如果直接放在原始特征里面去学,并没有直接和目标放在一个线性偏置里那么好。从模型能力上来讲,如果训练方法能够找到全局最优解那都可以放在非线性部分不用放在线性部分,但是我们发现,如果它跟最终目标有一个比较短的路径连接,对于整个寻优是更有帮助的。

▪  Trick Two:Common Feature

Common Feature是在使用过程中一个非常重要的方法。比如,在淘宝的场景中可能会推荐200个宝贝或者几十个宝贝,我们将一个用户和一个宝贝组成一个样本,这样对应几十或上百个样本。实际上,同一个用户在一天或一星期内或在一段时间之内可能会多次访问淘宝,其用户特征有大部分是冗余的。

我们发现,Common Feature在一些情况下其实可以不用展开,如果每个样本都展开表示成一个完整的向量,就需要多次复制用户特征。而在不展开的情况下,可以极大的节省存储空间。像MLR,在其背后运用的是矩阵运算,而Common Feature在矩阵运算部分计算也是共用的,可以节省。这样一来,不仅可以节省存储,也可以节省计算。

为此,我们还做了一次实际对比。我们用不展开的结构化数据来表示数据存储,结果表明,在训练算法里内存量的占用有一个非常明显的下降,每台机器从90GB下降到3GB,而每一轮时间也因为计算量减少从120s变成10s。

在过去几年,以MLR为核心的预估模型的持续迭代和优化,是直通车定向、钻展等业务线提升的主要动力之一。

四、新结构:深层用户兴趣网络分布

(注:如雷锋网此前报道,深度兴趣网络是盖坤团队在CTR预估方面利用深度学习达到的最新进展。通过观察阿里巴巴采集的用户历史行为数据,盖坤团队发现有两个指标对广告CTR预测准确率有重大影响,一个是“多样性(Diversity)”,一个用户可以对很多不同品类的东西感兴趣;另一个指标是“部分对应(Local activation)”,只有一部分的数据可以用来预测用户的点击偏好,比如系统自动向用户推荐的太阳镜会跟用户买的泳衣产生关联,但是跟用户买的书就没什么关系了。)

深度学习

最后一部分,我稍讲一下深度学习。

▪  如何看待深度学习?

其实前面也介绍了MLR从模型设计到算法设计到应用。模型设计和算法设计是耦合的。对复杂模型,加上设计优化方法整个工作是比较重的。如果有一个很好的模型,没有优化方法也是不行的。而深度学习一个很重要的特性,就是用户方法和模型是解耦的,这些方法和模型设计不是绑定的。

第一个是解耦,第二是模型设计组件化。组件化可以自己分层搭建,也可以自己设计,开发者也可以根据大牛事先设计组件来搭建,从而组合出以前完全不能想像的复杂模型。

借助深度学习的以上两点特征,可以Handle原来完全没法实现的复杂模型。

▪  复杂就足够了么?

如果只是拟合能力跟最终的应用效果有关,单隐层神经网络在数学上,其拟合能力是可以无限高的。虽然它拟合能力足够,记忆性非常强,但其泛化能力不够。深度学习里有两个非常关键的东西:

▪  第一是深度和宽度。相较而言,深度网络比宽度网络,至少在实际实践中的泛化推广能力更好。

▪  第二是模型结构和数据匹配度深度神经网络里面网络结构非常关键,比如图像中CNN几乎是主导,而LSTM在对应的应用领域就展现出非常好的性能。

这些都是整个学术界和业界已经有的基础能力,而在互联网行为数据上,我们还要考虑CNN、LSTM是否足够,这些模型结构和互联网行为数据并不是直接完全匹配的。那么,在互联网行为数据下,我们应该用什么样的网络结构组件?

用户兴趣分布

▪  用户兴趣表示

在此其中,我们做了一个工作,就是用户兴趣分布表示。前文有提及,用户行为一般会先表示为ID,经典的方法就是每个ID会取一个embedding向量,这个embedding 向量典型的方法会有Pooling和RNN,来聚合成一个固定长度向量。

前面的向量相当于用户兴趣点,后面的目标广告也会embedding出来一个目标宝贝兴趣点。这两个兴趣向量拼起来,可在后面再接一个比较复杂的神经网络。而一个问题在于,一个K维的向量最多能表达K个独立的兴趣,用户的兴趣纷纭复杂,独立的兴趣也非常多,却用一个向量表示,怎么能够增大兴趣的容纳能力?简单的方法就是增加K或者增大embedding 向量空间的维度。但是这里会带来一个问题,一是极大地增大计算负担,二是增大维度可能会导致过拟合。所以,我们的动机是,能不能在低维空间表达非常复杂的用户兴趣?

这里有一个想法,用户的兴趣不再用K维向量的一个点来表示,而是用一个分布来表示。目标宝贝兴趣点也在同样的空间里用点来表示。这样,互相独立的宝贝兴趣点可以放在并不是正交的方向上,所以K维空间也可以容纳理论上无限多个独立的兴趣。

▪  用户兴趣分布

就此,来看一下实际数据。用户的行为序列在电商行为上有两个:

第一,用户是多需求并发的。

第二,用户在看一个单独商品的时候,其实只跟其中一个或部分兴趣有关,并没有跟背后的所有兴趣都有关。

我们把用户兴趣的向量点表示成一个X的函数,这个X就是测试点,在不同测试点上用户兴趣向量是不同的,这样它就变成一个分布,因为它跟X有关。在预估模型场景里,X就是我们要预估的宝贝。这样来看,用户兴趣其实是用Embedding 加Pooling 的方式,把用户行为蕴含的embedding 向量固定并叠加起来,在叠加前面加一个系数,该系数与目标有关。在此其中,我们要用预估的目标反向激活和过滤用户的历史行为,把整个长序列变成相关的子序列,再就子序列来做一个处理。

那么,到底怎么学习?这里面就要设置模型和参数,利用数据去学习。为了实现用户兴趣多峰分布的目的,我们根据用户行为数据特点设计了反向局部激活网络,其中反向激活权重用一个带参数的神经网络来实现。完成整个网络设计后,发现局部激活想法等价于NLP里提出的Attention机制,可以看做实现用户兴趣多峰分布的一种带attention网络。

深层用户兴趣分布网络

这是整个用户兴趣分布网络。用户的历史行为和要预估的广告密切相关,我们会用广告激活历史行为,利用权重调制,变成子序列,子序列上面再做Pooling建模。这里稍微介绍细节部分,在激活的时候要拿历史行为的兴趣向量和目标的兴趣向量连接起来。通过简单的多层全连接,我们发现内积的形式并不能完全很好的学出来,所以就把内积人工的添加到此结构里。

▪  方法1:利用结构化数据

这是我们实际在用的更复杂的网络,主要探索运用了结构化数据。在历史行为上,如果用户点击过一个宝贝,这个宝贝及其相关数据如图片、文本、评论等,以及用户的行为时间、行为场景包括是在搜索场景还是推荐行为去点击的,我们都会把整个结构化的数据打包起来,做一个整个反向激活的函数。

拿时间举例,我们会做一个时间差,时间差越小,激活应该更大。还有哪些场景对预估更有帮助,哪些场景是你随便点击的,都放在反向激活里。

▪  方法2:机器学习的自适应正则

在实际业务中使用深度学习的时候,我们发现深度学习可能会过拟合,尤其是在大规模的ID特征上,参数量非常大,模型特别复杂,随便一用就发现过拟合特别严重。所以我们希望找一些方法,比如在机器学习里的经典的正则类方法。

正则方法在稀疏数据深度学习上的使用,还没有一个公认的好方法。在这其中,其特征是稀疏的,很多特征是0,每个样本只有局部特征非零。直接使用正则,不管特征是不是0都是要正则的,要梯度计算。

假如说一个样本,有100亿维度,非0的也要算一遍,一个样本都很难算出来,更别说要几百亿样本一起算。如果0值特征有这么多计算,计算是不可接受的。我们设计的正则方法只在非0值上计算,此外,正则还跟频次有关,频次越高正则压制越少,出现频次越低的特征,正则压制越大。

另外我们把Prelu也做了一个改进。Prelu是一个折线,我们中间将折点变成光滑变化的,光滑方式也跟数据分布有关,整个激活函数变化之后的效果会更好。

▪  方法3:激活权重展示

这是一个反向激活权重的展示,在此要预估的是一件衣服的点击率。真实的用户历史行为是这些,我们用目标衣服反向激活,发现预估CTR跟某些东西完全不相关,那就可以不用,而有些东西就比较相关。

用户兴趣分布展示:聚类性非常好

这是用户实际训练出来的兴趣分布,我们做了一个低维展示。如图,颜色越暖分布兴趣度越高,颜色越深兴趣度越低,在这个方法中,整个兴趣空间的聚类性都特别好,基本上一类宝贝的兴趣点都聚在一起。值得注意的是,它是多峰的,比如说这两个峰比较高,另外两个峰都比较低,从而呈现一个多峰的性质。

实现的正则效果

这是我们的正则效果,这个蓝线表示不用正则或者压制过拟合的方法在大维度上直接训练深度学习的结果。我们发现,训练之后其训练损失一下子就下来了,但是测试损失也同步增高了。对此,我们试了很多方法,最上面的黄线是我们提出的正则方法,其比很多方法都好。而且在大规模特征下,简单的用频次做过滤比Dropout的方法也会好一些,但不如自适应正则。

这是刚才提出的整个深度学习方法得出的效果,最上面的绿线是叠加了我刚才讲的一系列用户兴趣分布、函数改进、正则改进等呈现的效果。当然,这里的全部数据都在论文里。

如前文所示,基本上讲完了阿里妈妈一路下来从线性模型、非线性模型再到深度学习的考虑和实际业务的应用。

最后稍微做个广告。现在阿里巴巴对人工智能非常重视,我们既重视目前业务上的应用效果,也重视未来长期的储备。我所在的团队就是精准展示广告部,我们会分机器学习模型算法、机器学习平台、视觉图像、NLP、广告机制和策略、客户端优化、在线引擎和工程架构等方向。除了今天讲的模型的进展之外,我们去年在OCR ICDAR上也刷新了最好的成绩(雷锋网注:ICDAR Robust Reading竞赛是当前OCR(图中文字识别)技术领域全球最具影响力的比赛。),OCPC算法将在下个月KDD大会跟大家见面。

雷锋网

自动驾驶公司 Nauto 获 1.59 亿美元投资 B 轮投资,Greylock、软银领投

Nauto 部分团队,中间为其创始人 Stefan Heck 

美国自动驾驶公司 Nauto 刚刚宣布获得 1.59 亿美元的 B 轮融资,投资方为 Greylock Partners 和软银。软银我们都不陌生,而 Greylock 作为硅谷的顶级风投,更是 Facebook,LinkedIn,Instagram,Dropbox,Airbnb 等大批知名公司的早期投资方。 

据雷锋网了解,此次投资之后,Greylock 合伙人兼 LinkedIn 联合创始人 Reid Hoffman 和软银合伙人 Shu Nyatt 也将各自成为 Nauto 董事会的一员。 

Nauto 的主要业务集中于后装的人脸识别摄像头,它通过探测驾车过程中对于司机的各种干扰因素,帮助其实现更安全的驾驶。而同时,这家公司也已经开始和汽车厂商合作,研究自动驾驶的深度学习算法。

Nauto CEO Stefan Heck 表示,Nauto 的合作厂商中包括了通用、宝马、丰田等大公司,三家旗下投资机构作为Nauto 的早期投资方也在这一轮融资中进行了跟进。雷锋网了解到,安卓系统创始人 Andy Rubin 的 Playground Global 也曾投资了这家公司 1200 万美元。

Nauto 可将其自动驾驶设备安装在厂商的研发车辆和共享车辆上收集数据,后者则可以使用这些收集来的驾驶行为、车祸、道路和安全等方面的数据,发展和完善自己的自动驾驶系统。

“未来的驾驶一定是联网的,它必须有更密集的反馈以及集合、分析、分发信息的强大能力。”Hoffman 说到,他也是 Heck 的斯坦福同学。通过车联网的建立,Nauto 正在加速推动这个驾驶员主导的世界向更安全、高效的自动驾驶时代转化。

在这个过渡区间,Nauto 也正在为实现 Heck 说的“便利性”努力,眼下,这个“便利性”的所指便是,利用摄像头监控停车点的可利用情况,再通过云的方式告知车辆。

现在,Nauto 也正在跟保险公司和商业车队合作,在其第二代装置中使用了多个摄像头,观察司机是否分心(主要通过抓取司机的眼睛、脖子和头部图像的方式)以及道路的具体情况。

众所周知,数据在自动驾驶技术的发展和应用中至关重要。

这些海量的行驶数据反馈可以帮助车辆监督和训练司机更安全地驾驶,从而避免车祸,降低出险率,也可为保险公司提供关于路况和车祸状况的更详实信息,从而保障准确的保险理赔。

Heck 表示,目前公司正在积极进行自动驾驶软件的测试。毕竟在上路之前,各家公司都必须做好应对各种极端状况的技术准备。

雷锋网推荐阅读:《CB Insights 发布全球最佳 AI 企业 Top 100 ,哪些自动驾驶公司上了榜?》

雷锋网

四家公司起诉高通垄断,全因苹果唆使

雷锋网消息,根据路透社报道,作为苹果iPhone的芯片供应商,高通正面临来自四家公司的一系列反垄断指控,这四家公司是苹果iPhone等产品的供应商。

这四家公司是:富士康的母公司鸿海精密工业,威斯康星(Wistron),仁宝电子(Compal Electronics)及和硕联合(Pegatron Corp)。他们在本周二在加州南区的美国地方法院提交起诉文件,声称高通违反了美国的反垄断法案谢尔曼法案。

今年5月,高通起诉这四家公司,要求他们支付专利费,而苹果要求他们停止向高能支付。这次的起诉也是对5月高通诉讼的反诉。

高通之前已经公开声明,对这四家公司的诉讼是为了对抗苹果,并且惩罚他们与苹果合作。现在这四家公司这不得不通过反诉高通来抗辩。

本质上,这一新诉讼也是苹果和高通之间诉讼的一部分。高通向苹果提供调制解调器芯片技术,这样iPhone才能连接到移动网络,而高通的商业模式就是将芯片和专利许可一起卖。此前,高通还面临韩国、美国和一些其它国家监管机构的调查。苹果也在为这四家公司的诉讼提供资助,并加入了5月的案件作为被告。

苹果在今年1月起诉高通,声称它扣留了苹果应得的近10亿美元专利许可回款,以报复苹果与韩国监管机构的合作。苹果则告诉它的供应商,在诉讼进行期间停止向高通支付专利费,这从而促使高通在五月份起诉上述四家公司。

高通认为,尽管苹果向高通提出索赔要求,但苹果供应商仍然有义务根据协议向高通公司支付专利费,包括为苹果生产的iPhone。

失去苹果的专利费,对高通来说无疑是一个沉重的打击。有分析推测,高通截止今年6月这一季度的收入将会从去年同期的60亿美元降到52亿美元。

雷锋网

干货满满!学界专家汇聚清华谈“智能驾驶与机器视觉”

2017年7月17日上午,中国图象图形学学会主办的CSIG图像图形学科前沿讲习班第二期(IGAL 02)在清华大学闭幕。本次活动由西安交通大学、清华大学和深蓝学院联合承办,西安交通大学的薛建儒教授和清华大学的马惠敏副教授担任学术主任,为期3天的讲习班共有来自全国各地的210多位老师、同行参加。

7月15日上午,讲习班第二期“智能驾驶与机器视觉”在中国图象图形学学会理事长谭铁牛院士的致辞中,正式拉开序幕。

▲ 中国科学院院士、中国图象图形学学会理事长谭铁牛

谭铁牛院士强调,学会举办讲习班的目的在于引领图像图形学领域的学科发展,特别是向各位同行介绍这个领域以及相关领域的重要发展方向和前沿方向,提供接触和了解的平台,使同行对领域前沿方向有基本的了解和把握,有机会针对一些前沿的问题展开研讨。

▲ 西安交通大学教授薛建儒

西安交通大学的薛建儒教授在致辞中强调,机器视觉在自动驾驶中的应用还有很大的提升空间,为此,此次讲习班邀请了在自动驾驶、机器视觉领域知名的学者授课。

本次讲习班共邀请了业界11位知名学者作学术报告。

15日上午,清华大学智能技术与系统国家重点实验室的孙富春教授首先开讲,分别从研究背景、认知机器人、机器人阵列感知、机器人的视触觉表征、机器人的视触觉融合、基于经验学习的灵巧操作以及研究展望等7个部分讲述了视触觉数据感知与处理。

接下来,天津理工大学副校长陈胜勇教授为大家带来了“视觉系统的光照问题”的精彩报告,报告揭示了机器系统中主动照明控制的重要性,总结了机器视觉系统中的照明因素和条件,提出了视觉传感器的合适状态,并提出了机器视觉的照明策略和自适应控制方法,以达到最佳的场景理解效果;此外,报告中陈教授跟大家探讨了如何获得视觉传感器运行的舒适条件等一系列重要问题。

下午,南开大学的方勇纯教授以“智能平台视觉控制”为主题,向大家介绍了视觉控制方面的背景知识,并重点讨论了基于位置的视觉伺服、基于图像的视觉伺服等多种视觉控制方法在移动机器人、微纳操作机器人、无人飞行器等智能平台上的实际应用。

来自清华大学智能车猛狮团队的张新钰以“智能驾驶技术技术研究及实践”为主题,做了当天最后一场报告。他从智能驾驶的发展历史、关键技术、产业化和实践4个环节为大家做了详细的介绍。在“智能驾驶关键技术”环节中,张新钰从目标感知、场景认知、定位系统、基于AI的自主决策和基于MPC的协同控制等方面介绍了智能驾驶涉及的一些相关技术,并展示了团队的科研实践成果,结合自身的实践,探讨了智能驾驶对未来行业和产业的影响。

▲ 第1天特邀讲者

16日上午,上海大学无人艇工程研究院院长谢少荣教授作了“海洋无人艇智能控制技术”的精彩报告,报告首先综述了海洋无人艇国内外研究发展情况,着重介绍美军无人艇技术水平;接着介绍了团队针对研制无人艇面临的岛礁海域水流紊乱、海洋噪声、障碍物林立的技术挑战,在无人艇自主控制方面的研究进展,以及在岛礁海域、南极罗斯海等进行海洋地形地貌探测、海底目标探测、海洋环境保障、海底掩埋物探测等成功应用。

接着,上海交通大学杨明教授阐述了“基于感知地图的智能车定位方法”,这种新兴的定位方法首先离线采集传感器数据,通过SLAM等方法离线创建全局传感器地图,然后通过地图匹配的方法在线获取高精度车辆定位信息。与传统GPS定位方法相比,适用范围更广,已在国内外主流无人车上得到大范围应用。

下午,中科院自动化所的喻俊志研究员讲解了“基于嵌入式视觉的仿生机器鱼跟踪控制”,报告从具有嵌入式视觉的仿生机器鱼系统设计入手,研究了机器鱼的头部平稳性控制、基于人工地标的三维定位、基于视觉的三维跟踪控制、基于强化学习方法的目标跟随控制等,并且通过实验分别验证了所提出算法的可靠性与有效性,并对未来机器鱼的研究方向和工作重点进行了分析和展望。

西北工业大学王琦教授作了“视觉智能感知在无人系统与视频监控中的应用”的精彩报告,王教授首先介绍了视觉技术在无人系统与视频监控中的应用概况,然后针对目标检测/识别/跟踪与人群行为分析等问题,重点介绍了近年来在交通标志、行人、车辆识别等方面的研究工作,最后以Demo形式对相关成果进行了展示。

中科院自动化所的吴怀宇带来了下午最后一场报告,他以“基于机器视觉的3D智能建模与场景重建”为主题,主要讨论了基于图像的全自动视觉重建方法,并展示了基于单张照片人脸全自动重建系统。

▲ 第2天特邀讲者

17日上午,讲习班现场依然火爆,清华大学电子工程系的马惠敏介绍了“三维场景图像认知与智能驾驶”,她报告主要讲述了针对数据驱动的机器学习在不确定的复杂场景图像识别中的困难,通过建立自顶向下的认知先验数学模型,创新性地将其引入基于自底向上的数据驱动的机器学习中,提出了多模态多视角多任务3D场景图像深度学习认知方法3DOP、MV3D等,用于复杂驾驶场景中三维物体检测,使错误率下降了50%。

浙江大学计算机辅助设计与图形学国家重点实验室的章国锋以“复杂环境下的视觉同时定位与地图重建”为主题作了讲习班最后一场报告,主要与大家分享了课题组为了解决‘高效地获得尽可能长而且准确的特征轨迹并将多视频序列之间的复杂回路闭合’、‘对于海量图像/视频数据在有限的内存下如何进行全局优化’、‘在动态环境下如何进行鲁棒的同时定位与地图构建’等关键问题所做的研究工作以及一些相关应用,并对视觉SLAM的发展趋势做了展望。

▲ 第3天特邀讲者

11位讲者们的精彩报告激发了大家的研究兴趣和热情,通过相互交流扩展了视野。

雷锋网新智驾作为本次活动的首席合作媒体,参与了全程报道,后期会有更多总结文章陆续放出,敬请关注。

雷锋网