月度归档:2017年07月

对话GGV合伙人李宏玮:投注Drive.ai的背后,这家VC怎样思考自动驾驶? | 新智驾资本访谈

上个月(6月27日),无人驾驶创业公司Drive.ai刚刚披露了最新的5000万美元B轮融资,知名国际投资机构GGV纪源资本(以下简称GGV)作为资方之一受到关注。不过转念讲,对于GGV这个庞大的投资军团而言,这更像是其流动的投资海洋中一个“普通”的案子罢了。

但这些“普通”案子的诞生之路却绝不普通,甚至几乎兼具在未来成为“卓越”的可能,十四年前的一场案子能够证明这一点。

2003年,在你可以用8000元均价购置北京二环住房时,GGV入局了当时估值2亿美元的阿里巴巴,彼时电商经济还像个没长大的孩子,它的前景和局限均未可知。

时间转到今天,我们终于可以咬定这次投资没有亏本。那么这一切,会发生在自动驾驶身上吗?

这个问题,对于经历了这场中国科技变革史诗的GGV管理合伙人、连登全球TOP投资人榜单的李宏玮而言,是值得考虑同时也有发言权的。日前,雷锋网·新智驾走访了GGV在北京的办事处,对李宏玮进行了独家访谈,从Drive.ai投资案谈起,一幅自动驾驶产业资本布局乃至国内下一步科技变革初探的画面,也慢慢地呈现出来。

*GGV管理合伙人李宏玮

从投资Drive.ai谈起

雷锋网:GGV参与Drive.ai B轮融资是出于怎样的考虑?请聊聊对Drive.ai团队的看法。

李宏玮:自动驾驶领域,我们在中美跟进了很多创业公司,相对而言,我们认为Drive.ai算是跑得比较快的。首先,它有大约两年的创业历史,比一些新晋企业多了一些团队积累;其次,他们已经拿到美国路测牌照,这种测试环境使他们有一定的数据积累;第三,从解决方案上,他们偏重以深度学习为主的视觉方案,对高精度地图的依赖程度相对较低。综合以上,我们认为他们在这个领域走在前面,所以投资。

雷锋网:了解到您为了投资Drive.ai做了6个月尽职调查,用这么长的时间是否因为有一些犹豫的地方?

李宏玮:其实不是。我们一般做尽调,如果这个市场是5-10年后的市场,其实我们是有时间的。GGV旗下管理的基金有很多个,发现基金可以在很早期进入创业项目投资。总的来说,在公司A、B、C轮不一样的成长阶段,我们都能够选择进来。

为什么做比较长的尽调?第一,这是一个新的领域。第二,这个新领域虽然新,却又嫁接在一个很传统的汽车生态链,汽车生态链十分复杂,有不同国家的OEM厂商,还有Bosch、Magna等Tier 1供应商。我们花了比较多的时间,充分了解整个生态链对自动驾驶的看法。第三,在自动驾驶的产业环境中,软件方案需要嫁接在实际的硬件和主体上,它牵涉到的供应链玩家比较多,我们在投资时不会单点投资,也不会在了解清楚行业的规律前就快速投资。    

雷锋网:从技术方案和商业化路径讲,Drive.ai是希望将传统汽车改造成自动驾驶汽车,通过您对团队的了解,这个“改造”具体指什么?

李宏玮:Drive.ai团队现在面向的是车队管理服务,最终定位不是希望消费者或车厂购买他的车,而是希望技术在一些运营场景中得到应用,例如共享出行或是物流等。

所以他们的方案不是从零开始,而是在原有的车队上加以改装。实际操作中,这个挑战还是很大的,因为你需要依赖OEM和车队进行传感器选型。所以Drive.ai希望把这自动驾驶能力集成为一个改装套件,同时随着激光雷达等传感器的演进,套件可以升级。总的来说,这是一个相对标准的方案,在跟以不同车型配套时,会节省集成的时间和成本。

雷锋网:目前Drive.ai的合作伙伴有哪些?

李宏玮:OEM和车队两者都有。OEM车厂对自动驾驶板块比较有兴趣,可能会提供车辆来尝试进行装配,车辆大部分以全电动或混动车型为主;另外,他们与车队管理厂商也有对接合作。

雷锋网:据说Drive.ai上一轮融资时已经有车企想介入,为什么最后没有达成领投?

李宏玮:其实Drive.ai与车企的合作是比较密切的,甚至有一些车厂成为小的战略投资人。上一轮融资,从财务投资人到战略投资人,从互联网的大佬到车厂其实都有与Drive.ai接触,但从公司角度,希望在B轮的早期阶段,可以先保持相对独立的位置,所以他们倾向找财务投资人做领投。

雷锋网:此次Drive.ai的B轮融资除了吴恩达及NEA亚洲区主席Carmen Chang加入董事会,我们也了解到您以观察员身份加入董事会,这会有什么不同?

李宏玮:从董事会的角度没有什么不同,开董事会我们都会在,当然如果你是董事的话有一些文件你需要先签,作为观察员我们是从股东层面来签这个事,所以从意义层面没有太大的不同。不过确实因为Drive.ai在美国,我不会随时在场,但信息量以及和团队的接触方面是一样的。

雷锋网:如何评价吴恩达加入董事会对Drive.ai的影响?

李宏玮:吴恩达跟Drive.ai还是有一些渊源的,很多创始人都是他的学生,从斯坦福深度学习实验室出来,另外你们也知道创始人兼总裁是他的太太。一直以来,吴恩达会给他们一些指导。这次B轮过后吴恩达正式加入董事会,我觉得很大的成份还是要继续吸引人才,好的投资人品牌和董事会组成对吸引人才是很重要的。因为这个领域是需要高素质人才的,吴恩达正式成为董事会成员会是比较好的带动效应,甚至他也可以代表公司去帮忙招聘这些人,我觉得好的董事必须要做这些事情。

GGV的汽车产业布局

雷锋网:自动驾驶在GGV的整体投资板块布局中处于什么位置?

李宏玮:GGV有四个投资板块,前沿科技是其中之一。在前沿科技板块中,主要的一个就是智能出行。智能出行围绕整个汽车以及出行相关生态链,当然分享经济不包括在内,主要是硬件等更直接的科技领域。这就包括几点:

一,电动车体系,不论是两轮、三轮、四轮,都属于一类;

二,与电动车相关的智能化,如内外传感器、连接通讯等;

三,对于智能化的提升,即自动驾驶,从L2到L3、L4等。

我们再具体聊一下L4。我们把L4看成整个智能出行生态链中的一个板块,从时间角度来说肯定不是短期布局,更多是需要时间培育的过程。所以,我们在整个出行板块是需要一个5-10年的布局。而其中,对自动驾驶应用的投资布局是会有一定占比的,自动驾驶可以呈现在不同场景中,如限定区域、城市复杂道路或是物流配送等等,我们见到的很多创业公司都是针对产业链中不一样的场景专注来做的。

雷锋网:您提到GGV接触过很多自动驾驶领域团队,更看重整体解决方案商还是传感器或高精度地图等领域?对自动驾驶板块的整体布局是怎样的?

李宏玮:刚刚所说的生态链都是我们在关注的,所以我们都有看。这些创业公司不一定在中国,还可能在美国、以色列等国家。

第一,传感器方面。看过激光雷达、以及4D Radar等传感器,目前有一些想要取代激光雷达的技术公司。我们在这块花了一些时间;

第二,高精度地图。在这方面我们也见过一些公司,但我还是希望最终减少对高精度地图的依赖性。因为今天看来,高精度地图的时效性不高,成本太高,短期自动驾驶可以看到价值,但从长期而言,做到全覆盖我认为还是有难度。所以这块我们还在考虑如何布局。

第三,车内技术。我认为其中还有许多应用可以演变,从车内交互说,除了点击,未来会有语音等更多交互方式,目前的还是太基础了。进一步想,在车辆实现半自动或全自动时,就会为驾驶员创造一种不需要驾驶的车内场景,在这个移动场景内要做些什么?这其中会涉及到许多车内交互、NLP(自然语言处理)的技术问题,所以我们也在看这方面项目,技术上对交互的延时、处理能力等都是关注的。

第四,车和环境。其中涉及配套的通讯软件技术、算法技术以及自动驾驶安全等,我们也在关注。

雷锋网:现在行业中将汽车未来发展从“三化”增添到了“四化”,分别是“电气化、自动化、智能互联化以及共享化”,您如何看待这几部分的成长周期和发展路径,投资思路是否有所不同?

李宏玮:这四个趋势我们都在智能出行板块进行了布局,共享化方面我们是滴滴、Grab的投资方。电动化方面,今年国内两轮电动车投了小牛,之前投过Immotor。目前国内两轮电动车每年有7000万台的新增市场,还是蛮大的,所以也有布局。另外,近期我们会宣布,在充电桩领域的布局。因为除了车之外,还要有相关配套,作为投资者应该早一点布局。

雷锋网:对于四轮的新能源汽车市场,是否会投一些项目?

李宏玮:我们会看,现在海外一条新能源整车生产线成本需要接近2亿美元。国内成本其实也不低,其实是需要资本的带动。而对于国内新能源整车,我们关注的不仅仅是人才和技术资源,还有一点就是政府资源,我们会关注团队是否有能力与当地政府合作,因为最终整车还是要落地,需要有整合供应链能力。

雷锋网:传感器领域比较看好哪类公司?

李宏玮:我们看过很多国内国外的传感器公司,但关注点还是会多放在新型激光雷达这一块。因为如今激光雷达挑战比较大,第一成本太高,第二供应不够,这二者是相辅相成的,会影响整个行业商业化的发展进度。另一方面,激光雷达还有更丰富的应用场景,例如室外机器人,用激光雷达方案效果比较好。

我们通过一段时间了解,比较同意固态激光雷达的路径,但其中还有很多不同的技术方案,精度和成本都不同。在这一部分,我们会进行比较分析,同时会向供应链的厂商咨询。例如与Tier 1交流,看他们关注哪个领域,因为他们会最终将好的方案推荐给车厂。

资本视角看自动驾驶演进:3-5年见成果

雷锋网:有人说国内自动驾驶概念炒的过火,真正实现落地还要至少十多年。您是否同意,又如何评价巨头对自动驾驶的热潮?

李宏玮:有人认为10年都不会成型,其实3-5年你就可以看到一些成果,但定义可能不同。如果让每辆车都达到完全自动驾驶,3-5年肯定不行。但如果是新城市,也有一定可能,比如迪拜政府就为这件事情买单,所以与政策绑定有一定关联。此外,如果政府区域性推广自动驾驶,红利也会很大。

从巨头角度来说,最终每个公司都会有不一样的路径和想法,今天搞自动驾驶车的基础技术,其实可以延伸到很多地方,例如室内外机器人,很多模块是可以移植的。大佬应该有一个研发团队,通过这些模块的研发理解技术的延伸,这些公司如果没有研发部门,没有在展望的话,那就不是技术大佬了。至于后续的落地,那就要看公司的基因。

雷锋网:了解到你们两三年前就看过Cruise Automation,当时这个产业是什么状态?

李宏玮:看Cruise Automation的时候大概是两年多前,当时公司很小,20人不到,在做A轮。我们当时去到他们办公室,他们演示了一辆车在路上跑,但每周只能跑两次,还有固定的时间表,其实是很粗糙的,比较早期。方案上其实也没有多少AI,主要是CV(计算机视觉)、rule base(基于规则的算法)。当时他们想要做的事情其实是替代Uber,下一代用自动驾驶来进行共享出行,是想做颠覆Uber的产品。

后来,我们就发现它被通用看上然后收购了。这场收购也有一个带动效应,让业界看到汽车厂商其实在关注这个板块,也提醒了Uber,已经有人想要颠覆你了,我觉得也让整个行业动起来。

雷锋网:今天再看自动驾驶的项目和团队,跟两三年前看Cruise Automation相比有哪些变化?

李宏玮:我们看Cruise的时候自动驾驶整个研发现状还很早期。但今天与Drive.ai团队或是其他新公司聊的时候,会发现软件方案还是比较多元化的,同时对硬件的依赖程度高低不同。例如谈的比较多的是传感器方案,以激光雷达为主还是摄像头为主,今天的初创公司路径确实会不太一样。

投资逻辑:资本界没有绝对的高估值

雷锋网:GGV目前在关注的自动驾驶方案商也好,激光雷达厂商也好,都属于估值较高的项目,会不会觉得这些公司太贵了?

李宏玮:我一直觉得估值都是相对的,2003年我们投资阿里巴巴时,觉得估值2亿美金挺贵的,那个时候上网用户也就几千万,谁也不知道电商也做多大。所以今天,我仍然觉得估值很难说贵还是不贵,更多是看这个市场是不是够大,是不是可以发展起来。如果市场不起来,任何价格都贵。

雷锋网:目前围绕自动驾驶产业链的很多关键技术都掌握在大厂手中,这时GGV会如何选择和辨别有潜力的小型创业公司?

李宏玮:其实自动驾驶从技术的原理到基本模块,核心技术大部分在大厂,像深度学习算法是不是也在大厂?但同时,大厂可以开放,所以算法本身不是我们从投资角度关注创新公司的重点。我们更加在意的是,创新公司如何借用行业中相对成熟的算法,架构成系统或方案,更好应用到场景中。大家都说AI+,其实AI有很多技术模块,但我们关心它“加”在哪里,怎样场景化,例如“+金融”“+教育”等等。

未来:数据掀起变革下一幕

雷锋网:加入GGV至今,您在国内的投资经历已超过十余年,这段时间里,见证中国科技圈以及TMT产业发展,最大感触是什么?

李宏玮:我从2001年开始看中国VC市场,在国内已经有16年了。GGV 2000年成立,在2005年我加入后在上海设立了办事处,但其实刚成立时我们也在国内进行投资,所以GGV在国内的起步也是从2000年开始。

2000年到2005年时,中国开始互联网化,当时互联网公司和上网群体都不多。当时从TMT入局,投资的风潮更多在网关,像华为这样的公司。为什么?因为中国大力推广从2G到3G网络,运营商的整合中大力投入基础设施建设和互联网平台。所以那时资本更多投资芯片相关企业。

到了2004年、2005年的时候,有一个变化就是互联网的垂直化。原因是基础设施已经搭建起来,带宽更高了,互联网更稳定。那时百度和腾讯都上市了,更多创业者进来就是在思考在PC互联网时代,有没有垂直化的可能。像盛大、网易运营游戏,携程运营出行,这个时候资本会投资一些内容、服务相关的项目,那时候我们投了UC、YY、去哪儿。

2008年、2009年时,我们看到了另一个趋势,移动化。小米其实也是2009年-2010年崛起。移动互联网兴起后还是要细分,但跟PC互联网不同的是,它的载体不同,更加人性化。所以后面直到2015年的大部分布局,都是围绕移动化崛起的。

移动应用与之前的PC垂直化很类似,创造了一波新的公司,当然后来我们也看到,垂直化之后还有服务化的创新,例如分享经济、020。

今天,我们谈到自动驾驶,其实就是在谈下一波浪潮,这波浪潮与载体无关。之前的载体可能是PC、移动等,但下一波会与数据相关,这是因为今天国内有七八亿的移动用户,这些数据的背后都是垂直化的。

所以我们现在所在的浪潮,就在于如何更好借用算法技术,寻找更好的商业模式。这个商业模式表现在2B中,可能就是效率驱动的。今天中国的人口红利消失,要用工业4.0、机器人解决问题。你可以称它为AI+、自动化,但我觉得背后是数据驱动的新的浪潮。可能上一波浪潮中,大部分服务型公司PK的是运营能力,但今天PK的就是智能。

雷锋网:所以自动驾驶属于这波浪潮下的一个细分?

李宏玮:对。我们看到AI替代老师进行教育,在金融等领域也是一样,看到了AI+的垂直化。所以下一个革命在于数据如何被使用。在这个时候,许多数据公司其实是有一定优势的,他们的挑战在于:如果我有数据,要怎么样盘活起来?如何让数据更加实时、更加智能化。没有数据反而可能要从零开始了。

雷锋网:您说到数据的重要性,在自动驾驶领域,巨头面前的创业公司机会和路径应该在哪里?

李宏玮:汽车板块发展,现在有两个思路:

一个是谷歌Waymo的思路,这个思路和安卓很类似,就是开放一套标准的软件,任何车厂都可以跟我合作。当年安卓开放时也说,任何手机厂商都可以跟我合作。以国内百度为例,其实也是更类似谷歌的开放思路。

第二个思路是Tesla的思路,Tesla的思路有点像苹果的思路。不是开放的,但众筹众包。每一辆车在外面独立,但每一辆车在路上都在收集数据,采集数据后在云端共享,不断对车的自动驾驶性能进行优化。

但今天评论哪个思路胜出,大家都没有一个确切的答案。目前厂商们的想法已经差异化了,这就是通用收购Cruise、福特投资Argo的原因,我认为后续,这两种方式都可以存在。

对于创业公司,我认为大部分是做L4寻找竞争力,其中两个选择,一个是像Cruise,最终和厂商合作,它的路径就属于封闭路径;另一部分就是像谷歌一样的开放方案,这种我认为在中国的环境和扶持力都会比较好。

雷锋网

集黑科技于一身的全球首款自动驾驶量产车——奥迪A8背后的Audi AI

2012年,Google无人车的工程师在路测时发现了一个问题——那些早期参与自动驾驶测试的人员,虽然承诺在路测时盯紧路况以便及时在紧急情况下接管驾驶——但其实很多人在路测时都不同程度分神去做各种各样的事了。在自动驾驶圈内,这个经典的问题被称为“脱手问题”。

因为脱手问题的存在,Google后来希望打造完全不需要人来驾驶,没有油门、没有刹车,也没有方向盘的“全无人驾驶汽车”,福特、沃尔沃等车企也紧随其后调整了自动驾驶研发路线。全天候、全工况无人驾驶汽车的研发和落地是漫长的,而在这之前,有一家车厂想用另一种方式解决“脱手问题”。这就是奥迪。

在7月的巴塞罗那,奥迪在官方的首届品牌峰会Audi Summit上揭幕了全新一代的旗舰车型Audi A8。全新的Audi A8搭载Level 3的自动驾驶系统,其最亮眼的功能莫过于Traffic Jam Pilot,即当车速小于或等于37.3英里/小时,用户可以启动道路拥堵状况下的自动驾驶功能。在当地法律允许的情况下,车辆会完全接管驾驶任务,直到系统通知用户再次接管。这也是目前在全球范围内,在实现量产的车型中拥有的最高级别的自动驾驶能力。

*Audi AI

Traffic Jam Pilot是怎么回事?

即使作为一辆Level 3的自动驾驶量产车,奥迪在自动驾驶功能的设计上依然是比较克制的。

Traffic Jam Pilot启动要满足两个条件:1. 车速小于等于37.3英里每小时(60公里每小时);2. 车辆行驶在车道线清晰、双向车道中央有隔离带的主干道或者高速公路上。满足这两个条件后,Audi A8的仪表盘上会显示“Traffic Jam Pilot准备就绪”这样的提示,司机就能通过“Audi AI”按钮开启自动驾驶。

自动驾驶状态下的A8接管了油门、刹车、转向系统,可以在拥堵的主干道或者高速公路上,跟车、起步甚至变道,这时司机可以脱离方向盘完全放松下来。而当系统遇到新的情况,或者路况变好(车速超过37.3英里每小时)时,系统会留出8  – 10秒钟的余量提醒司机接管驾驶:首先A8会通过仪表盘和语音发出提示,随后车辆还会继续收紧安全带进行提醒,而后车辆会刹车逐渐减速,如果最终用户仍然没有接管,那么A8会减速停靠到路边,并打开双闪,解锁车门。

应该说,全新一代A8上的Traffic Jam Pilot是此前Traffic Jam Assist的平滑演进,在此之前Audi A4和Audi Q7都搭载了Traffic Jam Assist。Traffic Jam Pilot和Traffic Jam Assist的区别在于,前者允许司机完全脱离方向盘,后者则需要司机每隔15秒就轻微地把控住方向盘;此外,Traffic Jam Pilot增加了变道的能力。

相比于怎样让用户更加轻松,奥迪量产自动驾驶的诉求更接近于怎样让用户更加安全。Traffic Jam Pilot之后,奥迪的下一步是“Highway Pilot”。根据奥迪刹车/转向/驾驶辅助系统研发负责人Thomas Müller的描述是“让自动驾驶接管时速120公里以内的高速路段自动驾驶”,而挑战则在于传感器能够看到更大更远的视野,以及系统能处理更密集的数据输入。无论是Traffic Jam Pilot还是Highway Pilot,整体目标都是“把司机从太困难或者太无聊的路况中解放出来”。

智能驾驶AI —— Audi AI

在7月份的Audi Summit上,奥迪第一次提到了Audi AI这个词,它指的既是A8上启动Traffic Jam Pilot的那颗实体按钮,也是A8背后一系列跟智能驾驶相关的技术。

*A8的电子主动悬挂系统

奥迪的pre sense 360°安全系统,通过传感器收集的数据,在中央驾驶辅助控制器zFAS上预判与周边车辆相撞的风险,当车辆判断有可能从侧面发生碰撞时,A8的48伏电子主动悬挂系统能将车身在半秒内提升80毫米,这样碰撞就会导向更坚固的侧梁或者车身底部结构。根据官方的测试,提升车身高度至少能降低50%以上的碰撞影响。与之类似,新的A8还会通过前视摄像头判断路面的坑洼情况,提前调整悬挂系统来避震。

此外,除了最受关注的Traffic Jam Pilot,新的A8还搭载了自主泊车功能:Remote Parking Pilot以及Remote Garage Pilot,用户可以在到达目的地后,在车外通过手机app启动自主泊车,这样A8就自行停到车位或者车库了。这些技术都是为了在高度自动驾驶到来前,让司机的驾驶体验更加顺滑。

眼下,至少在德国、美国和中国,针对Level 4的自动驾驶技术,奥迪都在进行规模化的路测。作为全球目前自动驾驶水平最高的量产车,全新奥迪A8和A8L预计明年就会进入中国市场,我们也期待这款最具黑科技的豪华车的表现。

雷锋网

火遍朋友圈的穿上军装竟是钓鱼软件?反转再反转

正值建军90周年,这个周末但凡刷票圈就能看见一大波军装照,连周一都有不少上班摸鱼放照片的。

其实也没什么好看的,反正大家都用的是美颜+P图+瘦脸以后的照片,发上去亲妈都认不出的打扮。

就是这个小游戏。

不过就在今天上午,lei雷锋网发现@平安南京发了一条微博,声称穿上军装晒微信这一操作会被境外势力采集信息!具体来说,在扫描图片二维码后出现一个人民日报客户端标志,点击确认实际上就是允许获取个人信息。平安南京表示,他们查询了这个网址的IP以及域名,得出结论是一个北京的公司在IP是加拿大的服务器上冒充了人民日报的客户端,以此获取公民个人信息。 

这条微博一经发出迅速被围观,吃瓜群众纷纷懵逼,万年不晒自拍(因为丑),好不容易出了个堪比大神PS效果的平台,竟然还被境外份子盯上了?

不过还没等到人民日报有动作,平安南京就自己转发了@江苏网警的微博,声称穿上军装确实是人民日报客户端开发,所谓钓鱼软件都是无稽之谈。不仅更换了新置顶,还换了小编?

这是什么?自导自演,戏精吗?

围观群众迅速撤退,留下嘘声一片。

然而大家在午睡之后打开手机,发现人民日报已经一巴掌声明删了过来。

总体来说,这条看起来这么长的声明只有两个意思,第一:一个H5程序还能被你们造谣成新型诈骗手段,你咋不上天?第二:我报警了,要追究责任。

平安南京……嗯,怂了。

所以各位童靴不要担心自己信息泄露,继续玩吧。

雷锋网

清华计算机系舒继武 CCF-ADL 讲习班下篇:持久性内存存储系统的研究与挑战

雷锋网注:舒继武,现任清华大学教授、 博士生导师。近年来主要从事网络存储、存储安全、网络服务器、并行算法、并行处理技术及并行应用软件技术等方面的研究工作。他还是清华大学计算机科学与技术系分学位委员会委员, SNIA China(全球网络存储工业协会(中国))专家委员会委员,“高效能服务器和存储技术国家重点实验室”(浪潮集团)学术委员会委员。国家863计划信息技术领域“海量存储系统关键技术”重大项目总体专家组副组长。

雷锋网消息,2017年6月14-16日,中国计算机学会学科前沿讲习班在北京开讲。作为数据存储方面的专家,清华大学计算机系舒继武教授在 CCF-ADL 第 79 期讲习班上为广大学术青年们带来现有存储系统软件层的一些研究进展。舒继武教授的演讲主题为“基于非易失存储器的存储系统软件层优化”。

闪存技术逐渐成熟并得到广泛部署,且一些新型非易失存储器件如3D XPoint、PCM等也得到相当的发展。然而,闪存及其他新型非易失存储器件与传统的磁盘和DRAM都有着相当大的差异,例如在易失性、寿命、读写性能、寻址、存储密度等方面表现出不相同的特征。现有的存储系统软件层次均面向磁盘和DRAM设计,并不能充分发挥非易失存储器件的特性,甚至可能严重影响非易失存储器件的寿命与性能。

在这节课上,舒继武教授和大家谈到了持久性内存存储系统目前的研究进展以及面临的问题和挑战。

以下是舒继武教授演讲内容,雷锋网作了不改变原意的编辑

存储系统成为计算机系统的性能瓶颈

闪存相对来说比较成熟一点,已经到了应用阶段了,从盘到卡到阵列到现在构建分布式的闪存。内存我们现在用的是DRAM,现在新的器件,特别是一些电子材料的发展,它们有一些好的性能,这个对我们计算机做系统的人应该是一个很大的冲击,那怎么把它用上,所以我下面来谈一谈在这方面的一些研究和挑战。

这是 IDC 2014年的预测图,现在 DRAM 的存储器性能的年增长率是7%,处理器的性能发展能够达到52%,处理能力与存储性能差距年平均增长50%,存储系统成为计算机系统的性能瓶颈。

这个瓶颈使得新器件的产生。新器件的硬件变化了,软件也要做一些变化。我个人认为应该是一个颠覆性的需求。现在我们大数据、云存储、云计算等很多应用的并发的发展,怎么构建一个存储系统成为新的需求。另外一个就是新器件的发展怎么能够使得我们构建系统的时候把它的优点发挥出来。这是我们构建存储系统要考虑的两个问题:对上我们怎么能够满足一些新的需求,对下我们要怎么样把它的特点给发挥出来。

新型非易失固态存储器件的优点我想简单地说一下,低功耗,这是一个。另外一个是它的高可靠、抗振动,掉电保护等等。

另外一个特点是潜在的高性能,为什么说潜在的?因为它的性能现在毕竟还不如DRAM,相差一个数量级,这些芯片器件的发展应该来说还是很有优点的。这些优点一旦用到我们的系统当中,对我们的计算机发展还是有很大的变化,特别是克服我们已有的内存弱点和它的步骤,缓解内存性能的等等。

另外的特点是零功耗和集成度高,就是在相同面积的情况下,用DRAM来做的话,可能做到2G、4G,但是如果你用PCM做的话,能够做到6G、8G,所以它的集成度能够做到更大,这是它的优势。

但是它的问题就是性能,这个性能还不均衡,所以这是它的一个挑战。另外一个就是器件寿命的问题,它的器件包括它在里面收到的一些其他干扰,都会对性能错误和寿命产生影响。

所以,传统的面向磁盘和DRAM的存储架构,应该说跟现在这种新的器件严重地不匹配,所以说软件的各个层次都要设计,而这种设计要把它的优点发挥出来,避开这些弱点,这就是我们下面要解决的问题。

我们首先来看一下内存结构的变化,就是DRAM到后面的磁盘,这是2G的结构,那这个2G的结构一掉电就没了。现在就是没有外存,我专门构建一个大的内存,这个内存可以是混合的,也可以是不混合的。它是持久性的,所以它的边界是在这个地方。这个简单的边界变化应该还是很大的,传统文件系统的模式,内存里面的数据格式,要把它写到磁盘上,内存的格式要把它变化成外存文件的格式,这里面涉及到页的转换,路径的问题还有系统调用的开销等等。但这个完全可以用store访问内存的方式来访问这个持久性的内存,所以这是一个变化。

这个红色的是我们在这个内存的空间管理以及持久性的模型上做的一些工作。

持久性内存编程模型面临的挑战

编程模型挑战性来自于几个方面:

方面一:软件接口,怎么提供一个访问的接口。接口是要考虑的,以访问内存的方式访问NVM。

方面二:指令集,既然是STORE的方式来访问的话,就要保证它的一致性。

方面三:为了提供一个好的模型接口,肯定要把这些东西暴露给你,让用户来用这个东西。虽然现在有NVML,但是还没有得到广泛的承认。

另外我要提供一些编程模型,像易用性,要考虑这个编程模型的复杂度,要更安全不容易出错,所以说在这个内存的编程模型上面,来自于这几个方面的挑战。

这里面要解决的问题就是一致性的问题,里面所有的操作、数据要很及时地持久化下去,持久化的顺序要求对于一致性来说是一个很大的开销。

为了提高性能,对数据进行重排,这个数据的顺序就变化了,在磁盘上不存在这个问题,因为它的一致性没问题,在这种NVM上一旦出了问题以后,恢复就存在问题了。所以像这种传统的缓存模式在这种情况下是不适用的。当然为了保证它,可以用传统的缓存再加上一些指令,像clflush等等指令来强制地做下去,来保证它尽快地得到持久化。

当然这个里面也存在问题,我们前几年做过测试,clflush指令的延迟能够达到100纳秒,如果加上mfence指令,延迟将达到250纳秒,所以说这个开销还是很大的。在这个方面就是怎么在保证一致性的情况下减少开销的问题。当然后面会提到节省开销来自于两个方面,它的开销来自于顺序化、持久化。

这是关于编程模型方面的一些挑战。那么内存空间管理的挑战,首先就是内存管理,当然这里能够看得出一个很经典的DRAM结构,或者说加了面向NVM的一个编程模型的结构,这样可以在这里面类似于提供这种DRAM的内存的一些访问接口,像PMack和Pfree这种情况,实际上对这种持久性内存可以做分配和回收。

另外一个就是内存,它可以做持久性内存,也可以不做持久性的内存,我也可以当做普通性的内存来用,那这里面怎么来对它做管理,这里面就存在这几个方面的挑战。

挑战一:NVM的内存分配操作需要考虑一致性,会带来额外的持久化开销,软件延迟更显突出。如何降低NVM分配器的分配开销?

挑战二:如何提供内存容量的扩展性,充分发挥DRAM性能和NVM持久性的优势。如何设计混合主存的管理和数据分布?

我们现在来看看文件系统方面的一些问题。文件系统方面,跟刚才讲的面向FlassSD的文件系统类似,就是说你原来针对的设计是基于SD或者说基于磁盘的,它的软件开销20%几,现在达到90%几,那这个东西就是软件一个非常重要的瓶颈。所以软件必须得做,这点不做好的话,最后将来这个系统的性能都被软件给吃掉。

传统的东西,在这个过程当中还需要这些内存和块的拷贝吗?到底需要哪些功能块?还有哪些新增的东西,都是在你这个软件的系统当中考虑的,否则DDR NVM 94.1%的软件开销是降不下来的,或者降得很少。还有一个就是要考虑NVM的耐久性,要考虑这个模型均衡,否则的话会加剧器件的磨损,影响它的寿命。

刚才讲的问题以及挑战,我下面分别讲一讲这几个方面的一些相关的研究情况。

新型编程模型

编程模型有几种:

  • 第一种:提供一个编程接口,这个编程接口比较早的Mnemosyne 。当然他们要求的是一致性应该满足ACID,就是可靠性里面的东西。

  • 第二种:一致性的协议就做得更多了,到现在的2017年有了Eurosys、ASPLOS这些文档来解释怎么来节省一致性的开销。

工业界也做了很多的一些事情,这是英特尔现在还一直在做的,提供非易失性编程库NVML。这个库里面包含了很重要的几个库,当然这些库是建立在一个持久性的库的基础上。那么这个方面的话,它这个是构建在一个PMFS上,基于C当然也提供JAVA。

他这个东西也带来很多好处、有很多的优点。英特尔也能够支持一些厂商,所以说这些厂商它里面CPU的一些指令能够放进来保证持久化,例如像Cflash、Mface等等这些。

另外他本身就支持C/C++,它不需要提供一些编程的支持。另外相对来讲,它的功能对比较全面,这是它的一些优势。

它面临的挑战就是较为复杂的编程接口,一致性编程容易出错。再一个是性能的问题,尤其在内存分配和事务原子性支持等方面。

刚才我们说编程模型里面考虑一致性的问题,那一致性的问题考虑就是开销的问题。开销来自于哪方面?一个是顺序化、一个是持续化。因为你要保证它的顺序不乱的话,我要按照顺序把它都写清楚,顺序错了以后,写进去的东西就带来一致性的问题。这个顺序性往往就是要求你这个东西只有一步步去做。

另外一个持久性,就是说你最后要把它挪到这个NVM上,在开销上做一些事情,这里面有几个事务,这事务是缓存,这是持续性的。如果说按照要求性管理的话,首先这个事务完了以后再把它刷下来,这是很严格的一致性的关系,性能肯定高不到什么地方去。

在这方面做的工作也很多,目前来说大概有这么几个纬度。一个是从软件的角度去做,一个是从硬件的角度去做。另外一个角度就是说怎么持久化和顺序化,因为这来自于两个方面:顺序化的开销,持续化的开销。

怎么把顺序化和持久化的开销减下来,还有就是从软件和硬件的角度做。

我们来看看它的第一个工作,这个是英特尔2009年做的——在处理器缓存中增加新原语,由硬件保证写入顺序。将程序执行用持久化屏障分成多个执行单元;执行单元内部可以乱序执行、写合并、执行单元之间有序持久化。

当然这个工作应该来说还是很不错的一个工作,但它仅仅是顺序化,持久化的开销没降低,那我们在这里面也做了一定的工作,怎么来持久化,怎么把它乱序,怎么把开销降低。那在这个方面当然我们主要有两个关键的技术:

  • 技术一:提交协议,什么时候来提交,对这个事务的提交状态做一些延迟,减少提交时刻的等待。

  • 技术二:主要是用固定的格式,来协商这个日志数据。另外就是怎么来预测持久化,在这里面来维护多个版本,跟踪事务的依赖关系。

这是另外一个工作,按照它的逻辑来讲,首先要对它来做一个持久化,这就相当于一个串行的执行。这个工作相当于把没有关联的东西并行做。所以说就是把多个无依赖关系的I/O操作也可以并行写回。相比于epoch Persistency,进一步放松顺序约束,更降低了它的开销。

这个是ASPLOS的2016年工作,它主要是利用了英特尔本身的一些指令集,因为在里面扩展了很多的指令集,像CFLUSHOPT就是按照一定的弱的顺序刷出操作。当然这个只是把它刷出来,没有保证这个东西写下去。虽然CLWB把它刷出来,而且是它里面的版本不让它失效,这样的话有可能就存在多个版本,这样使访问也能够提高性能。

前面的几个工作都是基于硬件而且是在缓存这个界面来做的。这个工作相当于是在内存控制器级别来对顺序化做一些减弱,或者说不让他那么严格。事务放在哪个地方,内存是很清楚的,它能够做的更灵活。所以他在里面提出了一些宽松的、一致性的模型来实现缓存的持续性,能够在这里面做到执行和逆执行和持久化,做一些分离,另外一个就是做到用户的调度。

这是ASPLOS的2017年的工作,相当于在指令集里面,对持久化和顺序化做一个分离,在这里面增加了一个持久化的Buffer,追踪更新的数据。

刚才讲的是如何降低一致性机制的顺序化开销,下面来谈谈怎么来降低持久化的开销。

降低一致性机制的持久化开销

持久化的开销就是需要数据能够把它及时地写回持久性的内存中,从硬件的角度需要做的两个工作如下:

一种方法是通过后备电源等硬件技术提供系统掉电后的数据备份,避免了数据因一致性导致的写回开销。另外一个是宾州大学做的,缓存也有非易失的,这样的话整个系统中没有易失性的器件,就不存在易失和非易失的边界,这样就降低了它的持久化开销。

从软件的角度来说,目前主要是基于写前日志(WAL)来做好这个事情,为了保证它的一致性,数据要到执行池里面,然后还要到日志池里面,最后再把它写回等等,这里面就存在多次刷clflush的命令。因为要保证它的持久化,这样的话开销就会很大,刚才讲的需要增加250纳秒的延迟。

那么通过持续化的工作,我们提供了内存数据库里面的两个指令,类似steal或no-force的缓存管理。这样就使得处理的数据少了一次拷贝,通过这个来降低持久化的一些开销。

当然这里面我们用了两个技术:

  • 一个就是相当于是在日志内来执行XIL,就是通过它的重组日志,使得没有提交的数据可以被写回这个NVM中;

  • 另外一个是对这个模糊边界做一个辅助的持久化。那么在这个里面我们通过这个日志中的持久化的版本来覆盖写一个东西,这样的话来减少它的持久化开销。

这是2017年的一个文章,他把这个持久化的过程分为三个阶段:第一个是如何把易失的数据写到易失的log里面;然后再从易失的log写到持久性内存里面;从持久性内存里面再写到持久性的data里面。

通过这三个阶段,而且在这个里面提供不同级别的持久化。尽量地避免undo log或redo log的一些操作,这是他的一个思想,来降低它的去耦合的持久化过程。

Eurosys 2017年的工作是说在这个过程当中要保证它的持久化,数据一要拷贝,而数据的拷贝都是发生在关键路径上。这个工作就是把数据拷贝到后台异步去做,即把它移出关键路径,这是它的一个思想。所以说Kamino-Tx还是个不错的方法。而且当然他也有其他的一些方法来保证这个事情,那这样的话数据拷贝的存储开销以及其他的一些开销也就降低了。

所以刚才讲的这个工作就是,在辩证模型下,怎么提供一个编程结构,给前面来用,那么这里面有几个工作,一个工作是提供一个内存文件系统,这上面导出一个数据结构供上面用,这个上面用存在着问题,所以存在很多的系统调用,这些东西都是保证它的一致性的问题。

一致性的开销来源于两个方面:数据怎么按照数顺序把它写进去,免得数据不一致;到比较的时候,这个数据一定要把它写回持久性内存中。

所以说这两方面的开销怎么来做,就是刚才讲的从硬件的角度、软件的角度考虑怎么降低它的持久性,顺序性的开销的问题。

持久性内存空间管理优化

刚才讲的编程模型,后面我再讲一下持久性内存空间管理方面的事情,主要是要考虑几个方面

  • 怎么考虑它的一致性的问题;

  • 另外一个就是混合内存扩展的问题,因为混合内存的数据肯定要利用各方面的优缺点,那么数据怎么来判别、怎么来存放这些东西

  • 最后的目的就是怎么能够更高效地发挥它的混合储存的优势。

那么这里有几个代表性的工作,2016年的Makalu,PVM,还有Thermostat这是ASPLOS2017年的工作,这三个工作简单地说一下。

这个工作就是主要是提供一个高性能的内存分配器,在这个过程当中,就会尽量Root一个512的一个集合。所以所有的数据在这里面写,都在这个阶段后面,都能够从这个后面能够访问得到,这是它的思想。

当然这里面主要是解决的两个问题:

  • 第一个,内存分配器的元数据修改;

  • 第二个,需要持久化指针指向分配数据。 

所以这是他的思想有四点:

  • 相当于是用了512个ROOT的集合,使得都能够找到元数据;

  • 另外他通过NVM分配器来简化了他的元数据设计,降低NVM分配的开销;

  • 快速的NVM分配器重建;

  • 有效的内存垃圾收集模型。

这个工作(持久化虚拟内存管理)就相当于一个内存的扩展,也就是说这个DRAM可以有它的管理器。那这个持久性的内存,可以把它分为两半,一部分是做持久性,一部分就是像DRAM一样来使用。那像这样的话,管理怎么来做。所以在这个里面,传统的在这方面的话,CPU的缓存和TLB的列表利用率都不高,所以他提出了一种方法,来使得他做了这么一个事情,实现了高效对象的接口。对于CPU的缓存和他的TLB利用率比较高,而且提供了一个自动扩展,就是我到这个不够还能够自动地来扩展它作为一个易失性的缓存。

那么这是ASPLOS今年的一个新工作,他这个工作就是相当于是怎么对用户透明的2MB大页设计和管理,就是考虑动态的冷热页区分技术,这是他的一个思想。

另外就是利用这两个的优点,就是把不频繁访问的数据,放在NVM上。这是一个内存的空间的这么一个优化的工作。

实际上来说,这上面仅仅是从某一个角度分别去解决,从你这个混合的管理,包括减少它的内存的分配的开销等等这些角度去做,实际上应该还有一些事情可做。

持久性内存文件系统构建

刚才讲的就是这个内存的空间管理的方面的一些现状和已有的一些研究工作。那么下面我简单地说一下,就是内存稳定系统的构建。

应该来说这是一个很重要的事情。

因为传统的文件系统有很多优点,所以能不能把传统的系统梳理成一个块,默认成一个块的设备,这样传统的文件系统无需修改,照样可以在上面能够用起来。

它的好处是RAMDISK的形式使得传统的文件系统快速受益于内存级的数据持久化,相比于外存性能有数量级的提升。

不足之处是软件层的开销巨大,无法充分利用持久性存储介质的优势。

这是一类,第二类是改造传统的文件系统。那这个改造当然是要考虑到NVM的一些特点。因为传统的文件系统是经过时间考虑的,是比较成熟的东西。这个是韩国做的工作,他们这边做了有三点:

第一点,他在这个VFS上面做了一个轻量级的优化工作,对它的一致性做了一个处理,使得一致性的开销尽可能低;

第二点,在Cache命令里面,原来是同步更新,现在变成了异步更新;

另外在这里面也做了一个multi-versioning的区域,使得能够在这里面做一些异步的处理。

当然这个工作有一个基本的假设,假设就是这个里面的,全都是持久性的文件系统。

其实,无论第一种、第二种方式还都是远远不够的。

那么最理想化的就是,完全针对一个持久性的NVM,来设计一个字节粒度的文件系统,在这方面的工作就很多。主要是怎么来考虑它的这个细粒度的数据访问,再一个就是把内外存做一个融合管理。

还有NVM本身的一些直写的东西,可以直接访问。不像传统的这种我还要有双层拷贝,还有块层的开销等等,来发挥NVM的一些优势。

这里面有几个代表性的工作,第一个就是微软的,他们在2009年提出的字节寻址的持久性内存文件系统。再就是英特尔曾经做了一个轻量级的持久化的内存文件系统PMFS等等。

持久性内存存储系统展望

以上的报告主要讲的就是,从编程模型、内存管理到文件系统,这三个方面。 那么这三个方面,应该来说还有很多的工作来做。我们也做了不少的工作,当然要真正形成一个系统,应该来说还是任重道远。

这里我觉得有一些东西可以值得去讨论和展望。

一、存储结构的创新与优化方面,存在几个问题:

如何在现有的存储层次结构中选用合适的存储器件、设计相应的管理方式?

以及如何优化或变革现有存储层次,包括多级持久化存储的设计?

同时,如何协同非易失性存储与多核处理器的机制设计?

二、精细化软件系统设计

持久性存储硬件性能相比传统磁盘存储的性能提升极大。存储系统中相应的软件开销显得尤为突出。所以针对软件的系统优化,采用软硬件结合设计以及细粒度精细化软件设计,将是未来存储系统的研究方向之一。

三、新型分布式系统构建

新型高速存储硬件和高速网络硬件动摇了传统分布式系统中存储与通信的条件假设,且这些硬件均提供了新的访问特性和访问模式。

例如结合RDMA与NVM访问方式可以构建高效的分布式存储系统。新型分布式存储系统的构建需要重新思考分布式存储协议的设计。

雷锋网

劲爆!实测目前最火的人脸识别技术(百度、腾讯、微软、旷视、虹软)

最近国内“AI”圈儿里,最热的大概就是百度的阿波罗和阿里的无人售卖了吧,商汤成为资本的宠儿,一向低调的虹软竟然发布了免费的人脸识别技术,一派热火朝天。

对这个圈子稍微了解点的都知道,最近两年AI真的是备受恩宠啊,各种研究机构,创业公司想着法儿往圈子里挤,都想分一杯羹,拿风投,抢融资,笔者也一直在跟踪业内人脸识别技术,个人做了一个评测。

现在的人脸识别技术的公司实在太多了,这一次的评测,本人只挑选了业内比较知名的几家人脸识别技术公司,百度,微软,腾讯就不提了,三大巨头,商汤科技,旷视科技,上海依图和云从科技都是近两年异军突起的新兴创业公司,发展迅猛,我挑选了其中竞争力比较强的旷视科技进行评测(本来是想把商汤的技术也找来比较下,结果搜了半天没找到可测试的免费版本,有点儿小遗憾),另外比较特殊的是虹软公司,之前的评测就很想加他们的,可惜那时候他们没开放技术,这一次刚好他们发布了免费的人脸识别SDK,在计算机视觉技术上他们属于高富帅行列。

接口API实现方式,数据处理方式以及调用限制

除了虹软外,其他4家都是直接提供云平台API接口。云平台API接口调用虽然接入应用相对比较简单,但在使用上会受制于网络稳定性,用户体验会有一定的影响;而且高私密性的人脸照片被传到别人家的公有云服务器,存在泄漏的风险,如果是企业用户,对隐私这种事情,就比较敏感了,我猜想虹软选择开放本地离线SDK引擎,大概也是出于大量客户保护数据安全这方面的要求吧。这样一来就可以不受网络影响,自己掌控人脸照片及相关企业信息,在用户体验和数据安全方面都有很大的保障。只是,如果要使用本地离线SDK引擎接入应用应该会比直接使用云平台API难度大,不过对于久经沙场的程序猿们来说这都不是事儿,如果有Sample code的话,学习使用起来就更容易了。

人脸检测识别功能

从功能来看,人脸检测和人脸识别大家都支持,但虹软还支持人脸跟踪,大概是由于虹软提供的是离线SDK,可以实现人脸跟踪功能,因为本地的话,对网络和流量的要求就不会有云平台那么高;当然如果产品自建云或者在客户那自组网的情况下,也是非常好用的,这样场景确实蛮多的。这个离线版本在虹软的官网上也有重点介绍,应该是他的亮点。

人脸识别技术能力

为了真实评测各家公司的人脸识别技术能力,笔者之前就花了比较多的时间对各家的API接口做了集成,拿100张照片(照片进行了挑选,包括了我们关注的常用场景和多个人脸的情况)进行了对比,加上这次虹软的,下面是通过实际测试得出的结果:

注解:识别率=识别正确人脸数量/总人脸数量

误识别率=识别错误人脸数量/总人脸数量

为了公平起见,我是在同等误识率(0%)的情况下获取的识别率。

从测试结果来看,就人脸的识别能力来看,虹软是领先于其他几家公司的,在复杂光线下的处理,百度略胜一筹,猜测或许虹软用的是非大企业商用的版本,或许是不是有所保留。然后是旷视,微软,最后是腾讯,这里还是比较惊讶的,腾讯在这方面的研究应该不亚于百度、微软,结果却如此不尽如人意。

综合看下来,个人着实吃了一惊。没想到这次免费发布的虹软人脸识别SDK居然表现如此上佳。虹软果然有货!SDK在商业模式上,有明显优势,在技术上也比其他家稍强,而且能适应很多的应用场景,比如人脸认证、门禁考勤、智能家居/机器人、安防监控之类。恐怕几家大佬要坐不住了。

雷锋网

现场:ACL 2017 Day 0, 计算机语言学思想碰撞的浪潮开启 | ACL 2017

作为计算机语言学和自然语言处理最顶尖的会议之一,每年的ACL大会都吸引了许多学者投稿与参与。今年的ACL 2017将于2017年7月30日至8月4日在加拿大温哥华举行,大会的举办可谓为计算机语言学带来了新一波思想碰撞的浪潮。雷锋网也已经赶往会议现场,为读者带来最新的会议报道。

根据大会日程,ACL 2017主会议(Main Conference)举行时间为7月31日至8月2日,今天则是预热的Totorial环节,包含六个Totorial以及一个Workshop(关于Totorial及Workshop的详细内容可参见雷锋网的另一篇文章《ACL 第一天:Tutorial钟爱深度学习,唯一一个workshop关注女性群体》)。会议举办地点为温哥华的Westin Bayshore酒店,酒店享有布勒内湾和当地群山的壮美景致,距离史丹利公园和加拿大广场也只有几分钟的路程。以下是雷锋网在现场汇总的第一手信息:


会议创下多项新高

本次会议共收到1318篇论文投递,最终接收论文302篇(其中长论文195篇,短论文107篇),加上Workshop及软件展示,大会共有367篇论文在现场进行讲述,该几项数据均创ACL历次会议新高。此外,本次会议还得到了广大企业的支持,共有30家企业赞助ACL,也是历次会议之最。

由于讲述论文数量增加,本次会议也在议程上进行了相应调整。据大会程序主席Regina Barzilay介绍,本次会议的口头讲述环节时间缩短为短论文12、长论文14分钟,均包括口头讲述与提问。与此同时,在大会致辞和Invited Talk之后,大会在7月31日和8月1日还安排了多达5个同时进行的平行论文讲述环节(对应,主会场在开幕式后也将划分为Salon A-F六个区域),这在以往的学术会议中是不多见的。

企业深度参与,学术信息交流加快

在本次大会上,雷锋网看到了来自阿里巴巴、腾讯、Google、苹果、Facebook、Airbnb以及众多初创公司的参会者。在交流中雷锋网发现,不少来自企业的参会者均表示NLP与CL属于包含信息检索、数据挖掘、人工智能、机器学习、语言语义学等领域的交叉学科,技术发展正在加快,文章发表周期短,相比起期刊,通过会议的直接交流是一种有效的交流方式。虽然这些参会者并没有文章发表,但通过参与会议,“可以了解大家最近在做什么”。

值得一提的是,从大会手册的作者索引看出,本次大会的“人气王”之一、知名研究者Chris Dyer共出现8次(其中主会议5篇论文)就是卡内基梅隆大学的副教授和Google Deepmind成员,企业的深度参与也加速了学术信息的交流和研究成果的转换速度。


欧美参会者占据主流,多样性得以持续

由于NLP与CL所涉及的领域非常广泛,本次大会就分成了18个细分子领域;同时由于语言本身的差异,领域的研究也呈现出对应的差异,为了协调这种差异,近年来,ACL的举办地分别在亚洲(2009新加坡、2012韩国济州岛、2015中国北京)、欧洲(2010瑞典乌普萨拉、2013保加利亚索菲亚、2016德国柏林)、美洲(2011美国波特兰、2014美国巴尔第摩、2017加拿大温哥华)三大洲之间轮转,今年会议在美洲举办,不仅更多的美国、加拿大企业从业者得以参会,在对应的区域主席的选择上也更多选择了美国及加拿大的人士。从主席人选来看,本次会议的61位区域主席中有分布在9个领域中的17位华人学者,其中8人来自大陆。相对于刚刚结束的CVPR,参加本次ACL的华人面孔要略少一些。

然而从现场看,大会的组织者也在通过各种方式来保证大会的多样性(Diversity)。如在Welcome Receiption晚宴上,供应的主要食物也是符合亚洲人口味的日料,大会第一天的唯一也是全天的Workshop,其主题就是讨论如何突出NLP研究中的女性及少数群体的话语权。在明天开始的论文展示环节也将分为18个子领域进行讨论,保证大家能够畅所欲言,百家争鸣百花齐放。

彩蛋:“谁说一定要华丽的海报和Banner?”

相比起雷锋网参与的其他几个学术会议,ACL 2017可以用“低调”形容。会议举办酒店入口并没有明显的大幅广告或指示牌,只有在酒店会议中心入口三两聚集的人群指示着大会的地点。在听完一个Totorial的茶歇环节,雷锋网编辑与某白金赞助商负责高校合作的熟人不期而遇,问起展览区域的位置时,得到的回答竟然是“我也不知道在哪儿”。

Exo me?明天大会就要正式开始了,展商们不是应该忙着布展秀肌肉吗?最终雷锋网在三楼的休息区看到了Amazon的一个易拉宝,才确定这里随意摆放的几张桌子(可能)就是展览区。展商们也保持着很朴素的精神,一张桌子、一些宣传资料和礼品就开始宣传,而马里兰州立大学的展位更是把这种朴素的精神发挥到了极致:

嗯,上图中的英文意思为:“谁说一定要华丽的海报和Banner?”不知为何,总让雷锋网编辑想到这幅图片:

没准,NLP和CL的研究者们就吃这一套(微笑脸)?

尽管如此,从第一天ACL进行的情况来看,无论是议程的安排、休息时间和社交环节的设置还是茶歇和餐饮的质量,与会者普遍还是比较满意的。明天ACL将进入正式会议环节,雷锋网也会继续为读者带来进一步的论文解读和Keynote的报道。

雷锋网

聂万泉的野心,不是营收翻倍 500%

大公司内部创业是个鬼话,根本不可能的。一年前,云舒是这样说的。

当时,聂万泉、云舒、汪利辉三人从阿里离开,创办了默安科技。这三个人离开时,职位都不低,头上顶着的 title 分别是阿里安全部总监、资深安全专家、高级安全专家。据说,阿里云前期的的一些工作,至少聂万泉都是主要话事人。

回过头来说当初,他们为什么要走?默安科技这一年的发展对得起他们三人错过的精彩吗?

在看客眼中,初衷、初心什么都是后期宣传里的用词,做得好不好,结果说了算。

一年后探讨创业初衷已经没什么意思,聂万泉在北京国家会议中心的一间咖啡屋里,实打实地跟雷锋网宅客频道(微信ID:letshome)编辑聊了聊默安到底赚没赚钱,后面如何赚钱。

“幻盾”的试炼与开拓

现在是2017年7月,聂万泉说,默安在营收上,比去年下半年翻了 500 %,在未来一两年内,预计增速是 300 %。

这个数字是很漂亮的。

在公司还没成立前,三人凭借早已在业内打下的名声已经获得了一些“忠粉”的跟随。但是,这些“忠粉”企业并不算默安争取的第一批客户。聂万泉虽是个做技术出身的老实人,但对商人的江湖道义看得很明白:生意只有从“非熟人”关系拓展的才能发展得下去,创业公司要靠找熟人“要钱”?这事不能干。

潜台词是,万一失败,也不能坑熟人。

当初那些“忠粉”没有给默安投钱,或在最早期就买他们的产品,但这些大公司在默安的早期产品“幻盾”一出来,就给了它试炼和打磨的机会,支持着这个安全产品顺利推向市场并在现在成为默安营收的大头。

在很多新闻报道中,“幻盾”被描述成国内首个欺骗防御类网络安全产品。

所谓欺骗技术,是指通过使用欺骗手段阻止或者摆脱攻击者的认知过程,扰乱攻击者的自动化工具,延迟攻击者的行为或者扰乱破坏计划。例如,欺骗功能会制造假的漏洞、系统、分享和缓存。如果攻击者试图攻击这些假的资源,那么就是一个强烈的信号说明攻击正在进行中,因为合法用户是不应该看到或者试图访问这些资源的。

在“幻盾”被塑造出来的一两年之前,国外确实有大量企业在做同类产品的研发,首当其冲的科研大头是以色列和美国硅谷的企业。

Gartner预测,到2018年有10%的企业将采用欺骗工具和策略,积极参与到使用欺骗技术防止攻击者。

默安在中国将这项被国外安全前沿盯上的技术理念落地成产品,但是,盯上肥肉的国内企业绝不止默安这一家。

聂万泉不肯透露“幻盾”具体占据份额,以及回顾联系客户的故事。他说,安全这个行业还是很复杂的,“幻盾”目前确实有一两家“友商”。而且,几乎是同一时间从这个思路出发,研发同一类产品。

退一步说,就算不是同步研发,几乎没有什么安全产品不可被后续市场复制,只是门槛高低而已。

目前的情况是,虽是同类产品,但“因为理解不太一样,产品也不太一样”。

聂万泉说:“第一,幻盾在在更多客户环境上有过实际应用效果,在攻防对抗的过程中能不断改进这个产品;第二,从攻击者视角的理念出发,让这种高级威胁对抗的产品具备自主演进的能力。第三,幻盾在很多小技术上有创新点,比如,具备溯源能力,在业界内没有看到具备溯源能力的产品。”

聂万泉很看重“幻盾”的溯源能力。

任何一个企业,不可能随时警惕别有用心的攻击者,只要攻击者盯着它咬,哪怕防卫能力再强,也可能有马前失蹄的一刻。这意味着,知道什么人在搞自己,哪些是随机扫荡捡漏的攻击者,哪些则是守在暗黑中的狼,分清楚这些,做出应对策略,甚至有可能时进行反击才能尽可能地自保。

这就是所谓的溯源能力,守卫者看到的不再是一个个看上去没有特征的IP地址,攻击者的精准画像袒露无疑。

云上和云下翻腾的野心

聂万泉的野心,并不只是营收翻倍 500 %。

虽然,“幻盾”被聂万泉认为是未来级安全产品,其市场爆发还远远没有到来。此前也提到,“幻盾”已经为默安贡献了大部分营收。但是,沉溺在单一威胁检测类产品中绝不是一个安全创业公司应有的状态,走出“舒适区”,针对未来安全趋势及早布局,跑着走才能走得更远。

从三个创始人的背景看,布局云计算安全实在是不能更顺理成章的选择。

“我们把未来的企业安全分为两部分,一部分叫云上,一部分叫云下。我们有两个很明确的战略方向,云下就是研发过程中的安全,云上就是云计算安全。一个产品是‘雳鉴’。这是接下来要做的安全战略方向。”聂万泉说。

默安把云下安全也分为两部分,一部分是 IT 网的安全,另一部分是研发过程的安全。因为所有云上的东西都要经历云下的研发过程,再布到云上。云下安全是很多企业没有覆盖的安全场景之一。研发过程中涉及到安全这一块,是现在安全解决方案没有覆盖的部分,所以,"雳鉴"是结合企业的研发过程,让整个研发过程变得更加安全的产品。

所谓让研发过程更安全,是指现在很多企业在建设 DevOps敏捷迭代运维,而默安想将DevOps升级为DevSecOps,让安全贯穿整个DevOps过程。

因为此前整个 DevOps 的角色里有开发、运维、测试,就是没有安全,而默安想传达的安全理念是,在一个敏捷开发流程里,所生产出来的东西应该兼顾安全性。

之前很多企业去解决安全漏洞问题时,都是在线上解决。企业的系统发布到线上以后,被人访问发现了漏洞,再返回修复漏洞要经历很长时间,首先,漏洞可能被提交到众测平台或者企业的 SRC,相应负责人要处理。处理完后,针对一些大漏洞还要发一些公告解释这个漏洞会给用户造成何种风险和影响,可能老板也知道这个事情,再往后就会推到产品经理、项目经理、研发、测试,最后才能把这个漏洞解决掉。

雷锋网了解到,线上修复一个漏洞成本至少是 5 万元,进入研发过程中的安全环节,发现一个漏洞,修复成本可能是 500 元,因为如果能在研发过程中把漏洞测试出来,就可以把漏洞交还给研发,这两个层级的沟通十分简单。

这就是“雳鉴”的理念。聂万泉希望,在这种类型的安全产品的介入下,开发、运维、测试等人员都能具备基本的安全人员能力,及时发现企业产品在研发过程中的安全缺陷。

“雳鉴”在这种理念下,于今年4、5月时悄无声息地推向了市场。如果不是留心默安的官网,你可能在各类新闻稿中都不会见到“雳鉴”的消息,不过毫无疑问的是,聂万泉表示,默安将在今年下半年为“雳鉴”进行一次正式发布,且以一个月迭代一次的速度前进,成为默安的战略性产品。

至于另一战略方向:云上安全,聂万泉透露,下半年还会有两款产品一同推出,是什么?现在还不能说。 

结语

从2016年聂万泉从阿里离职创业算起,默安科技才经历了短短一年的时间,并于2017年2月完成Pre-A融资 3000 万元。

聂万泉说,现在默安最缺的是时间。

“其实我们有很多的理念和想法,但给我们的时间真的有限,你可以看到我们公司的转变还是蛮大的。去年我们讲‘幻盾’,今天我们已经明确了两个方向,变化速度是很快的,唯一不够的是时间,因为我们需要时间把我们的东西做出来,把解决方案落地。”

回过头看,2008年入职阿里的聂万泉,一定打死也想不到,7年后的今天他需要带领一个安全创业公司如此拼命地奔跑。

那时,聂万泉是一个在互联网公司只要“讲清楚了概念”就能立马动手做的技术青年,2016年创业初期,面对难以啃下的政府及金融大客户,他开始学会抛下了互联网公司的一些方式,迫使自己可能在极短的时间内写下一份500页的书面说明文档。

他从只要在程序代码的星海里沉浮,到如今时不时要做到自如在酒桌间觥筹交错,亲自上阵谈下一笔笔的生意。

这时的聂万泉早已褪去了一个技术青年的外壳,开始背负上更多的东西。

负重越多,却鞭策自己与默安更快速前进。

“我们从来没想过要把别人甩多远,我们想的是我们能走多远。”聂万泉说。

[聂万泉]

本文作者:雷锋网网络安全专栏作者,李勤

雷锋网

重磅!DEF CON 要来北京了?

被称为“全球身价最高黑客”的 Jeff Moss 一手创办了世界上两个最为知名的黑客大会,Black Hat 和 DEF CON,雷锋网发现,近日,他在 DEF CON 大会上宣布, DEF CON 要来北京了!

 Jeff Moss在大会上做了一个“宣布超级秘密”的演讲,他表示,“ 这几年我们通过DEF CON 给大家带来了很多前沿的黑客技术和资讯,接下来我们打算要走出去,去寻找新的地点和社区。”他宣布,接下来,DEF CON 将尝试在北京举行Beta event (公测活动),并会添加新的会议章节,也会提供与会者的出国机会,希望有想做 speaker 的童鞋们做好准备,他将在接下来几周发布更多相关的消息。

自1993年6月起, DEF CON 每年都会在美国内华达州的拉斯维加斯举办, 大会吸引了世界上最好的网络安全研究人员和黑客参与。他们的兴趣在软件、计算机架构、硬件修改,以及任何可以被“破解或攻破”的东西。与会者常常超出1万人,是美国国内存在时间最长的黑客大会之一。

雷锋网

百度外卖将卖给饿了么,后者称市场传言;苹果回应下架 VPN 应用;三星 S8 Active 谍照、参数全曝光 | 雷锋早报

传百度外卖将卖给饿了么,后者称市场传言

据《财经》报道,百度外卖与顺丰谈判破裂后一直在与饿了么接触,如今双方谈判已接近完成,顺利的话可能会在两三周之内宣布合并消息。对此,饿了么方面回应称,此为市场传言,不予置评。

而据一位接近百度外卖的人士透露,这次百度外卖与饿了么谈的是收购,双方应该已经达成了某种口头协议。

苹果回应中国区 App Store 下架 VPN 应用

中国多家 VPN 供应商已收到了来自苹果公司的通知,通知主要告知这些供应商和开发者,他们的软件将从中国区 App Store 下架,因为这些软件包含了在中国不合法的内容,不符合 App Store 的审查准则。

目前苹果公司已经对此事作出了回应:“工信部今年早些时候宣布,所有提供 VPN 服务的开发者必须获得政府的许可,我们被要求移除一些不符合新规定的 VPN 应用,这些应用程序仍然可以在其他所有的市场中使用。”

放弃正面挑战 谷歌开始模仿 Facebook

在过去两周,谷歌做了三件事,针对移动应用推出 Feed(信息流)、推出“SOS报警”工具和向桌面 Gmail 用户推送通知,建议他们尝试使用其移动应用

这些举措表明,即使是谷歌这样的巨头,也基本上放弃了通过推出自己的社交网络 Google+,赶超 Facebook 的希望,而开始通过模仿其特性打压其用户的增长。这也是 Facebook 对付 Snap 的套路。

Galaxy S8 Active 智能手机谍照、参数全曝光

三星即将发布 Galaxy S8 的三防版本- Galaxy S8 Active,今天 Galaxy S8 Active 的三星官方参数已经曝光。

根据这几份 PPT 谍照显示,Galaxy S8 Active 采用标准版 Galaxy S8 机身,添加坚固耐用加强设计元素,使设备更加耐用,防水并且可以在恶劣天气当中使用。与此同时,Galaxy S8 Active 具有稍宽的突出挡板,有助于保护易碎的显示屏,机身四个角落采用厚聚合物保护杠。

官方没有公布上市日期,但估计会在8月23日 Galaxy Note 8 发布之前上市。

黑莓KEYone 国行版将在8月8日发布,撞车夏普

昨天下午黑莓官微发布消息称,黑莓新品手机将在2017年8月8日北京发布。据此前消息,本次发布会要推出黑莓KEYone 国行版,其全键盘设计是最大的亮点,由于支持触摸手势识别技术,键盘可以充当导航方向键使用,触摸滑动可实现翻页;同时每一颗字母键都可以设置为自定义的 APP 快捷启动键,并且空格键集成了指纹识别。

配置方面,KEYone 采用了一款分辨率为 1620*1080 的 4.5 英寸触控屏,比例为 3:2,搭载骁龙 625 处理器,3G RAM+32G ROM,支持最大 2TB 储存卡拓展前置 800 万像素摄像头,后置 1200 万像素,采用支持 USB 3.1 标准的 USB Type-C 接口,内置 3505mAh 电池,支持 QC3.0 快充。 

巧合的是,上周夏普也宣布将在8月8日举办新品发布会,正式发布全面屏新机 AQUOS S2,可以肯定,这一天黑莓和夏普这两个不经常在手机行业露面的厂商要正面切磋一下了。

Moto X4 售价曝光 32GB 版卖 350 欧元

Moto X4 是一款定位中端的产品,虽然它还没有正式发布,但外媒据信已经掌握了这款手机的售价信息,其中 32GB 版在欧洲市场的售价为 350 欧元(约合人民币 2766 元),不过 64GB 版的确切售价目前还不清楚。

配置方面,Moto X4 据称拥有 5.2 英寸全高清屏幕、3GB RAM、前置 1600 万像素镜头和后置 1200 万像素镜头,出厂预装 Android 7.1.1 系统,搭载骁龙 630/660 移动平台。目前还不清楚其具体发布时间。

夏威夷檀香山过马路看手机最高将罚款 99 美元

据NPR报道,日前,美国夏威夷州檀香山正式通过一项新法律——人们在过马路时不得看任何移动电子设备,包括手机、手提电脑、游戏机等。

从10月25日起,如果人们违反该法律,可被处以 15-99 美元罚款:首次违法罚款 15 至 35 美元;同一年中违法第二次,将被罚款 35 至 75 美元,第三次给将面临 75 到 99 美元(约合人民币 666 元)的罚款。

不过,过马路时打电话和站在路边看手机仍是合法的。

国人最快明年买到特斯拉 Model 3

备受关注的特斯拉入门级豪华电动汽车 Model 3 首批 30 辆正式交付给预订的特斯拉员工。Model 3 将以 3.5 万美元左右的价格出售,对比目前的传统豪华车型,无论在产品还是品牌力上,特斯拉都占有优势。

据特斯拉内部人士称,如果以目前的关税水平计算,Model 3 在 2018 年初进入中国后,售价可能达到 35 万元以上。

特斯拉 Model 3 详见雷锋网《我试驾了特斯拉 Model 3,这几个知识点你需要知道》

苏宁上半年营收 835 亿元 ,关店 65 家

昨日,苏宁云商发布上半年业绩快报,快报显示上半年实现营业收入 835.88 亿元,比去年同期的 687.15亿元增长 21.64%,其中中国大陆地区实现营业收入同比增长 26.88%。

截至2017年6月30日,苏宁云商在大陆市场进入地级以上城市297个,拥有连锁店面 1,489 家。其中,云店 204 家、常规店 1,214 家(旗舰店 192 家、中心店 379 家、社区店 643 家)、县镇店 34 家,此外母婴红孩子店 30 家、超市店 7 家。其中上半年关闭店面 65 家。

广州将在 3-5 年内完成 4K 有线网络建设

“2017广东广电网络新数字家庭开发者大会暨4K电视网络应用启动仪式”近日在广州召开,广州年内将有 20 万用户用上比传统高清电视清晰 4 倍的 4K电视。

4K 电视,是指屏幕分辨率达到 3840×2160 像素的电视,其分辨率是传统高清电视的 4 倍,在色彩上更是提高了80%。

富士康承诺美国工厂工人平均年薪5.4万美元

在白宫新闻发布会上,富士康董事长郭台铭宣布将在未来四年内在美国威斯康星州投资 100 亿美元兴建液晶面板(LCD)工厂,预计这笔投资将创造 13000 个就业机会。

与此同时,鸿海也承诺,将创造平均年薪近 5.4 万美元(约合人民币 36.4 万元)的工作,这个数字高于目前美国平均薪资;以美国劳工部 6 月发布的周薪资料推算,民间企业员工平均年薪约 4.7 万美元。这座新厂初期将聘雇 3000 人,最终将聘用 1.3 万人。

雷锋网

小米,北汽战略合作,年轻人第一辆车;与京东血战到底,苏宁成立快递员节;魅族高管杨柘:买手机为何只看配置? | 雷锋早报

小米,北汽战略合作!年轻人第一辆车要来了?

昨日,北汽集团董事长徐和谊和高管一行在雷军的陪同下,参观位于北京五彩城的小米之家,随后两家还签署了战略合作协议。但北汽集团和小米公司官方并未发布声明,此消息由微博认证为北京汽车销售有限公司、区域销售经理的用户@刘凯BAIC 发布。

魅族高管深夜放话:买手机为何只看配置?

魅族 PRO 7 系列发布之后,配置方面颇受争议,最大原因就是其搭载的联发科 Helio P25 和联发科 Helio X30 处理器,尽管 Helio X30 定位确是旗舰级,但网友们并不买账。

对于这个问题,魅族副总裁杨柘昨晚在微博上做出了回应,言辞颇为激烈。

马斯克激动交付 Model 3

北京时间7月29日上午,特斯拉在加州举行了 Model3 首批车主交付仪式。Model 3 是特斯拉第一款面向入门消费者的电动车,起步价 3.5 万美元,约合人民币 24 万元,是目前在售的最便宜的量产车。截至到今年5月,全球订单已经接近 50 万台。

在现场一片欢呼声中,马斯克站在台上的开场白是:an amazing car!然后,又激动到说不出话……

详见雷锋网《卖出了iPhone效果的特斯拉Model 3,终于交付了首批车主30辆车》

与京东血战到底,苏宁成立快递员节

京东和苏宁的隔空对战迎来新的消息,日前,苏宁高调宣布8月28日举办首届快递员节。同时,苏宁发起并在全社会范围内推广‘快递员关怀计划’,切实维护和保障快递员的权益,提升快递行业影响力。”苏宁易购总裁侯恩龙这样说道。

建行回应乐视员工额度清零

近日,针对所有乐视员工建行信用卡额度被清零一事,建行方面做出回应称,主要是因为该行新上线了“新一代”核心系统。在风险防控系统智能化转型后,因为识别到乐视公司的风险可能会影响员工收入,进而影响信用卡还款能力后,系统便作出了此调整。

原人人网负责人许朝军涉赌博罪被批捕 涉案 300 万

据北京卫视报道,原人人网负责人许朝军因涉嫌赌博罪被检察院批准逮捕。检察官表示,聚众 3 人以上,赌资累计达到 5 万元以上,就构成了赌博犯罪。警方表示,被抓时,许朝军开设赌局已有半个月时间,涉案金额达 300 余万元。

腾讯1.56亿入股英国游戏开发商,要助王者荣耀出海

昨日晚间,腾讯以 1770 万英镑(约合 1.56 3亿人民币)对英国游戏开发商 Frontier Developments 进行了战略投资,成为继 Frontier CEO David Braben 之后的第二大股东。

业内人士称,作为目前英国市场唯一的上市游戏公司,Frontier 能为腾讯旗下产品的出海计划提供帮助,而获益最大的便是前不久改名的《王者荣耀》海外版。

富士康在美建厂,特朗普:不是我当选,他肯定不投这 100 亿!

雷锋网按:美国东部当地时间7月26日,总统特朗普宣布,富士康计划在威斯康星州建设一家新工厂,履行其在美国投资的承诺。特朗普在白宫与富士康总裁郭台铭共同举行了庆祝仪式,在演讲中特朗普夸奖自己:“如果我没有当选总统的话,他肯定不会投资这 100 亿美元。”讲这句话的同时还向郭台铭抛了一个“谜之微笑”。

中国正在研制新一代原子钟,或用于下一代北斗导航卫星

据新华社今日报道,记者28日从航天科工集团二院 203 所获悉,该所已启动汞离子微波钟研制,这种新一代原子钟,在未来深空探测和卫星导航领域有明显优势,有望应用于我国下一代北斗导航卫星。

雷锋网