所有由admin发布的文章

专访中科创达:智能驾驶行业也会出现ARM+Android的组合

从 Android、3G 网络的普及,再到「重新定义手机」的 iPhone 推出,2009 年的手机市场呈现爆发式的增长。

中科创达就是在此前一年成立的,这家积极为低调的整体解决方案开发商虽然在消费端知名度不高,但在智能移动终端产业的快速发展中却扮演着非常重要的角色。

从高通、英特尔、英伟达、展讯、联发科以及各大手机终端厂商,过去 10 年,中科创达都是这些巨头不可或缺的合作伙伴。

「我们与芯片厂商关系特别紧密,所以 Android 加高通这样的组合,能在智能手机上大规模发展。从 2008 年开始中科创达(每年)保持 50% 以上的增长,一直到 2015 年上市。」中科创达智能汽车事业群执行副总裁李维山告诉雷锋网。

*利用 Kanzi 3D 开发工具和引擎和 Kanzi Connect 多屏交互平台

*中科创达展示的全球首款基于高通骁龙 820 平台 QNX Hypervisor 智能驾驶舱解决方案

中科创达最早进入汽车领域,源于 2008 年的一个项目。当时中科创达为日本汽车供应商爱信开发了一款基于 Linux 操作系统的 MID 设备,后者搭载在沃尔沃、日产的量产车型上,获得不错的反响。

2013 年,中科创达开始全面进入汽车领域。用李维山的话说,以 Android 为主的操作系统技术外溢到其他智能设备,如智能电视、智能家居、智能手表等,汽车也开始大规模应用。

「汽车市场是中科创达发展最快的部门之一,我们将会为全球客户提供车载娱乐信息和集群操作系统的解决方案。」中科创达的 CEO 耿增强曾表示,「丰富的应用、全面优化的操作系统,使得汽车变得越来越智能。」「软件定义汽车」越来越成为趋势。

举例来说,中科创达 2016 年收购的 Rightware,最初专注于为手机和平板电脑构建图形界面,而不是汽车。而到今天,Rightware 已经发展为专为汽车开发图形用户界面的公司。据 Rightware 的说法,它的 Kanzi 产品目前已经被全球 20 余个汽车品牌采用。

这种转变本身就说明了今天的汽车行业的变化有多快:在移动设备市场增长放缓的今天,越来越多的人开始将汽车也视为联网的关键「硬件」之一。

进入汽车领域 5 年来,除了本身投入研发外,中科创达还先后收购了三家汽车软件相关的公司:Appsys(爱普新思)、Rightware 和 MM Solutions,大力布局智能网联汽车软件技术。

据雷锋网了解,中科创达与全球主流的 Tier1、车厂建立了广泛的业务联系,产品和方案已经应用在千万辆级别的汽车上。同时它还与智能汽车生态系统如百度、腾讯、QNX、高通、TI 等建立了紧密合作关系。在国内,已知的如一度热销的互联网汽车荣威 RX5、蔚来首款量产车 ES8 都应用了中科创达提供的软件模块。

到 2018 年,李维山所在的汽车事业部将扩大到 700 人规模。

在中科创达看来,智能汽车系统的关键技术包括:系统启动速度、自动化测试、多窗口技术、手机互联技术、操作系统性能和稳定性优化以及 CAN 协议栈和应用等。

「我们的定位是智能汽车软件技术和方案提供商,产业链上下游合作伙伴的附能者:为 Tier1 提供一个灵活、稳定、优化的平台框架以及相关技术和工具,帮助 Tier1 和 OEM 在早期开发和验证应用以及 UI/UE,提升多方协同开发的效率。」李维山表示。

随着 AI 的火热,人工智能技术也将逐步引入汽车,这对汽车行业原先的产品、团队、体系无疑提出了更高的挑战。中科创达也顺势成立了 AI 事业部,专门开发与 AI 相关的产品,如智能视觉、机器视觉和语音,用于感知道路状况、车辆识别、车内行为监控等等。

「这是原先传统行业不具备的能力和技能,我们可以帮助整个产业链实现快速变革。」李维山说。

以下为雷锋网与中科创达智能汽车事业群执行副总裁李维山的对话内容(有删减):

汽车行业也会出现 WinTel、ARM+Android 的组合

雷锋网:基于手机行业背景,中科创达进入智能驾驶领域有哪些优势?

李维山:智能手机集成了很多操作系统技术,随着智能设备的快速发展,这些技术快速地向汽车等领域扩散。智能汽车作为最大的智能硬件设备,也吸收和借鉴了很多智能手机技术,比如 Android 操作系统、FOTA、实时导航等,这些越来越多地应用到汽车上。

另一方面,智能汽车是一个万亿级产业,电动化、智能化、网联化和共享化给这个市场带来巨大的冲击和变革,整个产业链和生态系统都在进行重构,需要更多的智能技术,尤其是软件,「软件定义汽车」越来越成为趋势。

我们在智能操作系统、针对复杂 SoC 的软件优化、嵌入式 AI、机器视觉和云端平台等有许多积累,而且与智能汽车生态相关的合作伙伴有紧密的合作。所以我们进入智能汽车是自然而然的事情。

雷锋网:你们在汽车产业链上扮演的角色是怎样的?

李维山:我们的定位是「智能汽车软件技术和方案提供商,产业链上下游合作伙伴的赋能者」。

我们方案的出发点是为 Tier1 提供一个灵活、稳定、优化的平台框架,以及提供相关的技术和工具。Tier1 能利用这个平台专注于开发自己核心的差异化功能,降低开发成本、风险和开发时间,提升质量和用户体验。同时,这个平台也很容易帮助 Tier1 和 OEM 在早期开发和验证应用以及 UI/UE,提升多方协同开发的效率。

雷锋网:现在都说「软件定义汽车」,硬件本身如何帮助你们优化软件和算法?硬件和算法哪个重要?是否有主次之分?

李维山:这类似于 WinTel 或是 ARM+Android 的组合。软件、硬件相互迭代,硬件能够固化某些算法之后,这样更复杂算法又可以进行扩展,新的算法又可以进行固化,硬件化得到加速。这两者是相辅相成、迭代的过程。

雷锋网:能否介绍你们与国内外客户案例,一般会为给他们提供哪些技术和产品?

李维山:我们已经和全球数十家车厂和 Tier1 建立合作关系。比如 Kanzi 软件,已经被全球超过 35 家车厂,包括奥迪、沃尔沃、捷豹、陆虎在内的厂商采用。驾驶舱方案和技术则被包括电装(DENSO)、哈曼(Harman),航盛等 Tier1 使用。

他们可能会采购单独的产品,如 Kanzi 、FOTA、自动化测试工具,手机互联等,也可能采购全部或者部分软件平台解决方案,如中控导航的解决方案、数字仪表解决方案、集成驾驶舱解决方案或是我们的技术咨询和开发服务,尤其是操作系统以及 SoC 相关的 BSP,FW 开发定制和优化等等。

并购整合:协同效应是关键

雷锋网:中科创达过去收购几家与汽车相关的公司,比如 Appsys、Rightware 以及 MM Solutions,目前做了哪些整合?

李维山:目前 Appsys 和 Rightware 已经完成市场、产品、技术和团队的整合,协同效应已经开始显现,MM Solutions 整合也已经开始。

我们考虑的并购主要关注的是能否与我们的能力形成协同,因为我们开发的操作系统,天生具有平台属性,所以我们并购进来的公司都是与核心技术和核心 IP 相关。

在我们的智能座舱方案里,就集成了 Appsy 的音频、汽车总线技术、收音机技术、有互联技术、UI 技术、服务器等。MMS 主要包括机器视觉技术、环视等等。

雷锋网:除了过去三家公司外,你们在 AI 方面有做过哪些投资或布局?

李维山:AI 的发展,取决于算力、算法、数据和算法框架等因素。这里承接的基础是芯片技术。在 AI 方面,我们的 AI 引擎一直与芯片厂商共同开发。

我们现在成立的 AI 事业部,专门开发 AI 相关的产品技术。我们与 ARM、高通在 AI 方面都有合作。AI 主要积累是智能视觉、机器视觉和语音。

AI 一直在发展,包括算法框架、硬件加速、流派不同,比如 AI 加速、AI 机器视觉有 GPU、DSP,现在又出了独立的加速器。我们紧跟下一代芯片技术、对框架进行优化和算法集成。

雷锋网:英伟达、英特尔和高通这样的芯片巨头在汽车行业都很活跃。业内有一个趋势是将自动驾驶与人机交互的硬件平台整合在一起。你们怎么看?

李维山:自动驾驶和智能的人机交互对 SoC 的 CPU、GPU、AI 引擎等的性能提出越来高的要求,所以相同的平台会适用于自动驾驶和人机交互系统。

如果是涉及到高度或者完全自动驾驶,这个系统必须是独立和带冗余备份的。

只带提醒功能的辅助驾驶、带控制的低速辅助驾驶系统和人机交互能够整合起来,提供更好的集成和用户体验。这里需要在满足丰富应用的同时确保关键功能的安全性,比如利用 Hypervisor 进行系统隔离。

雷锋网:在操作系统上,Android、AliOS 、QNX、Linux 各有什么不同之处?

李维山:AliOS 、Android 都是基于 Linux。Linux 也有自己的软件框架。这三个系统基本用在中控导航,实时性相对较差。

Linux 的好处在于有很多开源软件可以利用,以此作为基础去构建自己的核心资产。Android 是一个开放的生态,专为手机定制,现在也逐渐延伸到汽车上,比如 Android Auto。由于 Android 整个生态系统非常完善,现在 Android 在全球的接受度也越来越广泛。

AliOS 是端到端的打通,它对汽车进行很多优化。QNX 相对单独、安全、实时、稳定的操作系统。一般用在仪表、控制、ADAS 等这样一些需要实时性、稳定性、安全性要求很高的领域。

当然上述也面临生态系统的问题,要不要有一个开放生态?是否有一个足够的力量去运营这样一个生态?如果自己没有强有力的生态,你就不太可能自己做操作系统。

下一代智能驾驶座舱的核心是什么?

雷锋网:目前中科创达在智能网联汽车领域、智能驾驶座舱方面的业务有哪些进展?

李维山:我们在 2013 年开始大力布局智能网联汽车软件技术,除了大力投入研发之外,还相关进行资源整合。比如相继收购了汽车音响设计公司 Appsys,芬兰的 UI/UE 产品公司 Rightware,保加利亚智能视觉公司 MM Solutions。核心团队分布在中国,日本,欧洲,美国和韩国。

到现在已经形成基于多操作系统(如 Android,Lixus,QNX,T-KERNEL)、多平台(如高通,TI,NXP,瑞萨,英特尔等)面向智能驾驶舱的中控导航,数字仪表,高级辅助驾驶等软件平台解决方案。

我们核心的产品和技术包括 UI/UE 工具 KANZI、互联方案 Kanzi CONNECT、FOTA、自动化测试、嵌入式人工智能引擎和机器视觉等。

经过 4 年的发展,我们与全球主流的 Tier1、车厂建立广泛的业务联系,产品和方案应用于千万台级别的汽车上。我们也和整个智能汽车生态系统如百度、腾讯、QNX、高通、TI 等建立了紧密合作关系。

雷锋网:AI 也很热,自动驾驶汽车也是 AI 一部分。在你看来,AI 和智能驾驶座舱的联系是怎样的?

李维山:智能汽车是一个大型的 AI 设备,而智能驾驶座舱是嵌入式 AI 和边沿计算的主要承接者,需要对环境感知、车辆状态感知、驾驶员状态感知以及云端算法和数据配合,做出合理的决策和建议。

雷锋网:在你看来,未来或者下一代智能驾驶座舱核心技术是什么?

李维山:首先要满足开放性、安全性的要求,保证整体安全;其次是车联网的低延迟;第三是 UI/UEUI/UE 工具化。

下一代智能座舱涉及到人机共享、智能驾驶、多远信息融合,这样系统复杂度就会非常高,整个系统的架构要满足大数据的吞吐量以及 AI 的算法。

雷锋网:在智能驾驶、在智能驾驶座舱这个行业、这个领域里还有哪些挑战和机会?

李维山:软件硬件算力算法迭代会一直在持续存在。在快速变革期,软件、硬件的迭代在不断变化,这里会存在一些路线(不同架构)的不确定性。这个变革都是有一个新技术创新出现了,它就会有一个变革周期。

变革就是机遇,尤其对我们来讲,开发智能操作系统、AI 平台相关的产品,这是原先传统行业不具备的能力和技能,我们可以帮助整个产业链实现快速变革。

雷锋网推荐阅读:

专注智能手机、智能硬件、智能汽车三个方向,中科创达发力嵌入式人工智能

P.S.:看遍这一年中国与全球智能驾驶领域的技术前沿与商业探索,雷锋网新智驾年度推荐,扫描下图二维码或点击 https://www.leiphone.com/special/custom/AIdrive.html 了解更多信息。

雷锋网

Waymo的自动驾驶就要商业化了,但它还需要克服这两种故障

雷锋网按:作为自动驾驶领域的急先锋,Waymo 的下一步计划是将自动驾驶出租车正式商业化。

2 月 2 日,Waymo 宣布将在 2018 年启动无人驾驶出租车服务,并推出共享出行服务平台 Waymo APP。截止 2017 年,Waymo 已经拥有 600 辆自动驾驶车队规模,其中 500 辆为 2017 年年底新增。前不久,Waymo 还表示已经从菲亚特克莱斯勒购买了「数千辆」Pacifica 厢型车。

据雷锋网了解,目前 Waymo 的自动驾驶测试城市已经拓展到美国 25 个城市,全年完成 200 万英里的测试里程。

毫无疑问,Waymo 的重心已经从自动驾驶的研发转为部署和运营。尽管如此,各家厂商还是在暗暗较劲,谁能第一个推出商业化方案,就能拿到先发优势。

这是因为摆在自动驾驶行业面前的,是一个营收能力高达数万亿美元的巨大市场。

自动驾驶故障分类

加州车辆管理局的数据显示:过去两年,Waymo 的自动驾驶汽车进步很快,完全可以在两年内进入商业化运营阶段。

但是,在商业化之前,Waymo 还需要克服一些问题。

前不久,投资机构 ARK 通过分析 Waymo 递交给加州 DMV 数据,进行了一项有意思的调研。 ARK 将自动驾驶汽车的故障分为两类:

1. 系统识别故障(SIFs),或者说自动驾驶系统“不知所措”,它自己也意识到这一问题,还专门给控制中心的操作员发了求救信号;

2. 意外故障(UFs),或者说自动驾驶系统“不知所措”,但它自己却对此一无所知。如果没有人工干预,很有可能会导致事故发生。

ARK 预计,即使第三方操作员组成的远程网络系统能解决系统识别故障,在预测和应对意外故障时也会麻烦不断。

因为从现在的技术条件来看,想解决意外故障,远程操作员就必须用笨方法,对自动驾驶出租车进行持续的监控。即使有那么多的远程操作员,恐怕也会导致自动驾驶服务的成本直线上升。

除此之外,网络延迟和其他技术问题可能会让操作员无计可施。而一次失误,可能就会让 Waymo 前功尽弃。

因此,想普及自动驾驶打车服务,Waymo 和其它竞争者就必须大幅降低意外故障发生率。

到底什么算是可接受的故障率?

为了预估乘客可以接受的自动驾驶出租车故障率,ARK 专门分析了传统车辆的相关数据来设定门槛。

平均来讲,人类驾驶的车辆每 5 万英里就得出次故障(对应 SIFs),而每 24 万英里则会发生一次碰撞事故(对应 UFs),这些数据可以分别作为自动驾驶车辆的参考值。

为了给自动驾驶技术的进步打分,ARK 对 Waymo 的自动驾驶车队进行了详细剖析。

从故障率来看,起步最早的 Waymo 确实是美国最先进的自动驾驶系统。

如今,Waymo 自动驾驶汽车的“脱离率”已经可以达到每 5000 英里一次。如果 Waymo 现在就推出商业化自动驾驶出租车队,就意味着 Waymo 的工程师每年都要提心吊胆两三次(美国人平均每年行驶里程约 1.3 万英里)

别忘了,有人驾驶的汽车可是每 5 万英里才出一次故障。

但也别太失望,Waymo 的进步速度还是很快的。2015 到 2016 年间,Waymo 自动驾驶汽车脱离距离增至原来的三倍。如果它能延续这一速度,即使脚步轻微放缓,也能赶上 2019 年部署商业车队的节点。

Waymo 自动驾驶汽车“脱离”距离及未来预测

为什么最近 Waymo 的故障率开始原地踏步了?

过去 18 个月里,Waymo 的脱离率开始停步不前。

加州车辆管理局的数据显示,最难解决的意外故障(UFs)并没有跟上系统识别故障(SIFs)的进步脚步。这就意味着,Waymo 可能无法实现 2016 年年中定下的目标。

如果事实真的如此,恐怕 Waymo 的自动驾驶汽车在左转时还是会战战兢兢。

如果要找一个合理解释,Waymo 将车辆制造外包给菲亚特克莱斯勒是最主要原因。与直接垂直整合的通用和特斯拉相比,它确实少了些竞争优势。

Waymo 的 SIFs 和 UFs 数据

当然,Waymo 也有希望在 2018 年追平传统有人驾驶汽车的故障率(SIFs,每 5 万英里一次),但很难实现 24 万英里每次的意外故障率(UFs)。

换句话来说,如果只看现在的数据,可能要到 2020 年后自动驾驶出租车才能迎来自己的春天。

Waymo 自动驾驶汽车的 SIFs 平均里程

注:图中 Waymo 脱离率有下降可能是因为新增了测试城市,自动驾驶汽车在短期内还不熟悉当地的地理情况。

Waymo 自动驾驶汽车的 UFs 平均里程

对于这个相对悲观的结论,ARK 持怀疑态度,原因有不少。

首先,Waymo 可能正在尝试最大化自己的故障率,以便深挖出事故原因。它找了不少路况复杂的道路延长线和十字路口来测试,难度要高很多。

举例来说,在洛杉矶有四分之一的人车碰撞都发生在只占总数 1% 的少数十字路口。在这样的路况进行测试,故障率高也很正常。

其次,只有加州车辆管理局才要求厂商上报司机接入的情况,而 Waymo 的测试车遍布华盛顿、亚利桑那和德克萨斯等州,它们迥然不同的地理环境也让测试结果出入很大。

最后,即使 Waymo 要推商业化的自动驾驶车队,肯定也会先找那些地理环境安全可控的地方,而且它们还会在服务上线前对车辆进行反复的训练。现在来看,它可能选了凤凰城郊区的 Chandler,这里不但天气好,路况也简单,而且政府对自动驾驶汽车的监管还采取了较为开放的态度。

毫无疑问,这场自动驾驶之战的赌注相当之高。

特斯拉、百度和通用都有计划在未来两年上线自动驾驶服务。无论谁先杀进这一市场,都能提前拿到对手难以超越的数据优势。鉴于这是一个价值万亿美元的超级市场,厂商们肯定甘愿冒这个巨大的风险。

PS:看遍这一年中国与全球智能驾驶领域的技术前沿与商业探索,雷锋网新智驾年度推荐,扫描下图二维码或点击 https://www.leiphone.com/special/custom/AIdrive.html,了解更多信息。

雷锋网

CVPR 2018 收录论文名单全公布,默默看各路大神公布喜讯

雷锋网 AI 科技评论消息,距离 CVPR 2018 还有四个月,值此新春佳节之际,CVPR 官网挂出了收录论文名单。各位走亲访友的同学们,不要忘了去瞄上一眼。

地址如下:http://cvpr2018.thecvf.com/files/cvpr_2018_final_accept_list.txt

据官方介绍,此次只是公布收录论文名单,论文具体是 oral,spotlight 还是 poster,也马上就会公布。大家记得随时保持关注。

而 Twitter 上各路大神也开始报喜了。

用户 Christopher Kanan 表示,他的实验室和 Adobe Research 关于 DVQA 的论文已经被 CVPR 2018 接收,在论文中,他的博士生 Kushal Kafle 做出了很优秀的反证工作。他们创造了一个新的 DVQA 数据集,能解决 VQA 中面临的一系列问题。

论文地址:https://arxiv.org/abs/1801.08163

用户 D. Khuê Lê-Huu 表示,他们的论文“Tight Continuous Relaxation of MAP Inference: A Nonconvex Perspective”已经被 CVPR 2018 接收,感谢 Nikos Paragios 教授,目前他已经将论文的代码公开,PDF 也很快就会上传。

地址如下:https://khue.fr/publication/norelax/

用户 Rushil 表示,他们关于 CT 重建的论文也被接收,他表示,他们的方法能显著改善重建质量。

地址如下:https://arxiv.org/pdf/1711.10388.pdf

同一个世界,同一个 CVPR。

日本友人 Hiroharu Kato 也在推特上公布喜讯,他们团队的论文“Neural 3D Mesh Renderer”被 CVPR 2018 接收。在论文中,他们针对神经网络提出了一个可微的网格渲染器,可以应用于单图像 3D 重建、2D -3D 风格转换和 3D DeepDream。目前代码也已经公开。

地址如下:http://hiroharu-kato.com/projects_en/neural_renderer.html

除了这些默默公布喜讯的大神们,少不了对论文接收数目的分析。

用户 Abhishek Das 将近两年来被接收的 CVPR 和 ICCV 论文 ID 做了对比:

比起 2017 年 CVPR 和 ICCV 论文的序号越往后,接收率越低,今年 CVPR 论文序号与接收率看起来比较平均。

而截至发稿,雷锋网 AI 科技评论还未看到各大研究院公布接收论文名单。届时,雷锋网 AI 科技评论也会第一时间关注。

雷锋网

中文分词系列之基于 AC 自动机的快速分词

雷锋网 AI 研习社按,本文系广州火焰信息科技有限公司投稿,作者苏剑林。正文如下:

中文分词

关于中文分词的介绍和重要性,我就不多说了,matrix67 这里有一篇关于分词和分词算法很清晰的介绍,值得一读。在文本挖掘中,虽然已经有不少文章探索了不分词的处理方法,如本博客的《文本情感分类(三):分词 OR 不分词》,但在一般场合都会将分词作为文本挖掘的第一步,因此,一个有效的分词算法是很重要的。当然,中文分词作为第一步,已经被探索很久了,目前做的很多工作,都是总结性质的,最多是微弱的改进,并不会有很大的变化了。

目前中文分词主要有两种思路:查词典和字标注。首先,查词典的方法有:机械的最大匹配法、最少词数法,以及基于有向无环图的最大概率组合,还有基于语言模型的最大概率组合,等等。查词典的方法简单高效(得益于动态规划的思想),尤其是结合了语言模型的最大概率法,能够很好地解决歧义问题,但对于中文分词一大难度——未登录词(中文分词有两大难度:歧义和未登录词),则无法解决。

为此,人们也提出了基于字标注的思路,所谓字标注,就是通过几个标记(比如 4 标注的是:single,单字成词;begin,多字词的开头;middle,三字以上词语的中间部分;end,多字词的结尾),把句子的正确分词法表示出来。

这是一个序列(输入句子)到序列(标记序列)的过程,能够较好地解决未登录词的问题,但速度较慢,而且对于已经有了完备词典的场景下,字标注的分词效果可能也不如查词典方法。总之,各有优缺点(似乎是废话~),实际使用可能会结合两者,像结巴分词,用的是有向无环图的最大概率组合,而对于连续的单字,则使用字标注的HMM模型来识别。

AC 自动机

本文首先要实现的是查词典方法的分词。

查词典的过程是:1、给定一批词,查找给定句子中是不是含有这个词;2、如果有的话,怎么解决歧义性问题。

其中,第1步,在计算机中称为“多模式匹配”。这步看上去简单,但事实上要高效地实现并不容易。要知道,一个完备的词典,少说也有十几万词语,如果一个个枚举查找,那计算量是吃不消的,事实上我们人也不是这样做的,我们在查字典的时候,会首先看首字母,然后只在首字母相同的那一块找,然后又比较下一个字母,依此下去。这需要两个条件:1、一个做好特殊排序的词典;2、有效的查找技巧,对于第 1 个条件,我们有所谓的前缀树(tire),第 2 个条件,我们有一些经典的算法,比如 AC 自动机(Aho and Corasick)

对于这两个条件,我也不多评价什么了,不是不想说,而是我的了解也到此为止了——对于 AC 自动机,我的认识就是一个使用了 trie 数据结构的高效多模式匹配算法。我也不用亲自实现它,因为 Python 已经有对应的库了:pyahocorasick。因此,我们只需要关心怎么使用它就行了。官方的教程已经很详细地介绍了 pyahocorasick 的基本使用方法了,这里也不赘述。(遗憾的是,虽然 pyahocorasick 已经同时支持 python2 和 python3 了,但是在 python2 中,它只支持 bytes 字符串不支持 unicode 字符串,而在 python3 中,则默认使用 unicode 编码,这对我们写程序会带来一点困惑,当然,不是本质性的。本文使用的是python 2.7。)

构建一个基于 AC 自动机的分词系统,首先需要有一个文本词典,假设词典有两列,每一行是词和对应的频数,用空格分开。那么就可以用下面的代码构建一个 AC 自动机。

import ahocorasick


def load_dic(dicfile):
   from math import log
   dic = ahocorasick.Automaton()
   total = 0.0
   with open(dicfile) as dicfile:
       words = []
       for line in dicfile:
           line = line.split(' ')
           words.append((line[0], int(line[1])))
           total += int(line[1])    
   for i,j in words:
       dic.add_word(i, (i, log(j/total))) #这里使用了对数概率,防止溢出
   dic.make_automaton()
   return dic

dic = load_dic('me.dic')

pyahocorasick 构建 AC 自动机有一个很人性化的地方,它能够以“键-注释”这样成对的形式添加词汇(请留意 dic.add_word(i, (i, log(j/total))) 这一句),这样,我们可以在注释这里,添加我们想要的信息,比如频数、词性等,然后在查找的时候会一并返回。有了上述 AC 自动机,我们就能很方便地构建一个全模式分词,也就是把词典中有的词都扫描出来(其实这本来就是 AC 自动机的本职工作)。

def all_cut(sentence):
   words = []
   for i,j in dic.iter(sentence):
       words.append(j[0])
   return words

对于一个长句子,这可能会返回很多词,请慎用。

最大匹配法

当然,上述所谓的全模式分词,根本就算不上什么分词,只是简单的查找罢了,下面我们来实现一个经典的分词算法:最大匹配法。

最大匹配法是指从左到右逐渐匹配词库中的词语,匹配到最长的词语为止。这是一种比较粗糙的分词方法,在 matrix67 的文章中也有说到,构造反例很简单,如果词典中有“不”、“不可”、“能”、“可能”四个词,但没有“不可能”这个词,那么“不可能”就会被切分为“不可/能”了。虽然如此,在精度要求不高的情况下,这种分词算法还是可以接受的,毕竟速度很快~下面是基于 AC 自动机的最大匹配法的实现:

def max_match_cut(sentence):
   sentence = sentence.decode('utf-8')
   words = ['']
   for i in sentence:
       i = i.encode('utf-8')
       if dic.match(words[-1] + i):
           words[-1] += i        else:
           words.append(i)
   return words

代码很短,也挺清晰的,主要用到了 pyahocorasick 的 match 函数。在我的机器上测试,这个算法的效率大概是 4M/s,根据 hanlp 的作者的描述,用 JAVA 做类似的事情,可以达到 20M/s 的速度!而用 python 做,则有两个限制,一个是 python 本身速度的限制,另外一个是 pyahocorasick 的限制,导致上面的实现其实并非是最高效率的,因为 pyahocorasick 不支持 unicode 编码,所以汉字的编码长度不一,要不断通过转编码的方式来获取汉字长度。

上面说的最大匹配法,准确来说是“正向最大匹配法”,类似地,还有“逆向最大匹配法”,顾名思义,是从右到左扫描句子进行最大匹配,效果一般比正向最大匹配要好些。如果用 AC 自动机来实现,唯一的办法就是对词典所有的词都反序存储,然后对输入的句子也反序,然后进行正向最大匹配了。

最大概率组合

基于最大概率组合的方法,是目前兼顾了速度和准确率的比较优秀的方法。它说的是:对于一个句子,如果切分为词语 w1,w2,…,wn 是最优的切分方案,那么应该使得下述概率最大:

直接估计这概率是不容易的,一般用一些近似方案,比如

这里 P(wk|wk−1) 就称为语言模型,它已经初步地考虑了语义了。当然,普通分词工具是很难估计 P(wk|wk−1) 的,一般采用更加简单的近似方案。

放到图论来看,这就是有向无环图里边的最大概率路径了。

下面介绍用 AC 自动机,结合动态规划,来实现后一种方案。

def max_proba_cut(sentence):
   paths = {0:([], 0)}
   end = 0
   for i,j in dic.iter(sentence):
       start,end = 1+i-len(j[0]), i+1
       if start not in paths:
           last = max([i for i in paths if i < start])
           paths[start] = (paths[last][0]+[sentence[last:start]], paths[last][1]-10)
       proba = paths[start][1]+j[1]
       if end not in paths or proba > paths[end][1]:
           paths[end] = (paths[start][0]+[j[0]], proba)
   if end < len(sentence):
       return paths[end][0] + [sentence[end:]]
   else:
       return paths[end][0]

代码还是很简短清晰,这里假设了不匹配部分的频率是 e−10,这个可以修改。只是要注意的是,由于使用的思路不同,因此这里的动态规划方案与一般的有向无环图的动态规划不一样,但是思路是很自然的。要注意,如果直接用这个函数对长度为上万字的句子进行分词,会比较慢,而且耗内存比较大,这是因为我通过字典把动态规划过程中所有的临时方案都保留了下来。幸好,中文句子中还是有很多天然的断句标记的,比如标点符号、换行符,我们可以用这些标记把句子分成很多部分,然后逐步分词,如下。

to_break = ahocorasick.Automaton()for i in [',', '。', '!', '、', '?', ' ', '\n']:
   to_break.add_word(i, i)to_break.make_automaton()def map_cut(sentence):
   start = 0
   words = []
   for i in to_break.iter(sentence):
       words.extend(max_proba_cut(sentence[start:i[0]+1]))
       start = i[0]+1
   words.extend(max_proba_cut(sentence[start:]))
   return words

在服务器上,我抽了 10 万篇文章出来(1 亿多字),对比了结巴分词的速度,发现在使用相同词典的情况下,并且关闭结巴分词的新词发现,用 AC 自动机实现的这个 map_cut 的分词速度,大概是结巴分词的 2~3 倍,大约有 1M/s。

最后,值得一提的是,max_proba_cut 这个函数的实现思路,可以用于其他涉及到动态规划的分词方法,比如最少词数分词:

def min_words_cut(sentence):
   paths = {0:([], 0)}
   end = 0
   for i,j in dic.iter(sentence):
       start,end = 1+i-len(j[0]), i+1
       if start not in paths:
           last = max([i for i in paths if i < start])
           paths[start] = (paths[last][0]+[sentence[last:start]], paths[last][1]+1)
       num = paths[start][1]+1
       if end not in paths or num < paths[end][1]:
           paths[end] = (paths[start][0]+[j[0]], num)
   if end < len(sentence):
       return paths[end][0] + [sentence[end:]]
   else:
       return paths[end][0]

这里采取了罚分规则:有多少个词罚多少分,未登录词再罚一分,最后罚分最少的胜出。

事实上,只要涉及到查词典的操作,AC 自动机都会有一定的用武之地。将 AC 自动机用于分词,事实上是一个非常自然的应用。我们期待有更多对中文支持更好的数据结构和算法出现,这样我们就有可能设计出更高效率的算法了。

雷锋网

亲戚听说我找了白帽子男友后……

情人节快到了,找不到选题的编辑突然收到了大姑的消息。

这是什么想法,在长辈眼中搞技术的就这种形象吗?

安全圈好看的小哥哥多着呢,总有媒体追着白帽子问,你对择偶有什么标准没有?会不会要求对方懂技术呀?此处应有一个白眼。

为了满足大家的好奇心(以及自己的八卦之魂),宅宅特意咨询了一众白帽子。

他们到底想找什么样的女朋友?

白帽子A

(说不泄露天机就不泄露的编辑很认真的裁掉了这位白帽子的头像昵称。)

白帽子B

(这位选手在聊天最后热情地推销了自己,希望编辑帮他打个相亲广告,但编辑拒绝了。)

白帽子C

(编辑还和这位共产主义接班人聊了一下百合网事件后续,当然是不会说出来的。)

白帽子D

(号外号外,这位白帽子很帅。好了,不说了,编辑去应征了。)

看到这里编辑突然闪现一念,如果长辈知道你找了一个白帽子当男朋友会是什么反应?不如试试。

突如其来的心累

最后,祝各路白帽子早日脱单,脱单了的,新年快乐。

最重要的事情说三遍,雷锋网,雷锋网,雷锋网。

雷锋网

大过年的,Uber为什么要瑟瑟发抖?

Uber不是一家讨喜的公司。

雷锋网新智驾了解到,在我国辞旧迎新之际,就有外媒使用信息拼凑、刻意制造因果逻辑的手法炒了一回Uber和Waymo的旧饭。

该文的中心思想就是“Waymo正式宣布无人车出行平台,Uber等一众自动驾驶公司瑟瑟发抖”。

但是不得不指出的是,Alphabet最新一季的的财报电话会议是在2月1日,而Waymo与Uber和解,是2月9日的事。如果Waymo的出行平台能让Uber瑟瑟发抖的话,2月1日,Alphabet财报公布的那天,Uber就应该发抖,而不是现在。

恩怨纠葛

仅从自动驾驶技术上看,Uber仍然不敌Waymo。Waymo稳扎稳打的进度条,必然会让Uber产生焦虑感。但从应用场景上看,Uber目前仍有较大优势,若说瑟瑟发抖则言过其实了。

要梳理Uber与Waymo剪不断,理还乱的关系,还要从Google说起。Google在2009年开始启动自动驾驶汽车计划,2016年该项目独立出来,成为了今天的Waymo。而Google在2015年成立了母公司Alphabet。 Waymo则以Google兄弟公司的身份独立出来。

2013年,Google旗下的Google Venture成为了Uber早期的投资者,但后来,Google明里暗里似乎都在表示将进军出行市场,与Uber的业务有所重叠,也打破了Uber与Google合作的美梦。此外,2017年Google Capital还向Uber的竞争对手Lyft投资了10亿美元。

但初生牛犊不怕虎, Uber先是从Google的人才来源地之一的CMU(卡内基·梅隆大学)挖来了50名资深机器人专家,组成了自动驾驶团队Advance Technologies Group,接着又在Google挖走了地图业务主管,产品管理总监等中高层人才。

2016年,Google自动驾驶团队资深工程师莱万多夫斯基(Levandowski)离职创立研究自动驾驶货车公司Otto。7个月后,Uber收购了Otto。但莱万多夫斯基涉嫌在离开Waymo时下载了1400份重要文件,这也成为了Waymo与Uber官司的直接原因。

这些随着双方在今年2月9号的和解,都成为了往事。

*后座视角的Waymo自动驾驶车辆

一次试运行

针对Waymo无人车平台,的雷锋网新智驾找到了Alphabet最新一季度财报会议的记录。

在会议中,来自JP Morgan的 Doug Anmuth向Alphabet的CFO 提问:“这周,出现了菲亚特克莱斯勒将向Waymo交付上千辆小型面包的消息,Ruth,不知您能否向我们说一下这项业务的时机以及在你进入运营和部署的阶段,我们应该如何构想其中的商业模式?”

兼任Alphabet和Google的CFO Ruth Porat说:“我们当然对Waymo所有的机会和其他的一些科技前沿中的进展感到兴奋,尤其是在凤凰城的出行项目。我们将会将测试推广到更多的州中。去年11月,我们宣布了Waymo的自动驾驶技术达到了一个重要的里程碑,Waymo也成为了唯一一家在公共道路上有完全自动驾驶车队的公司。这样的成绩是建立在7个州,25座美国城市,共4百万英里的自动驾驶测试里程上的。我们每天行驶,应该说是‘自动驾驶’约1万英里的的路程。在我们的基地,我们每天要进行十亿次以上的模拟测试和健壮性测试。

与你的问题更有关的是,我们的确在凤凰城的试点项目(雷锋网新智驾注:Early Rider项目,Waymo通过与一些自愿参与乘坐自动驾驶汽车的成员合作,探索自动驾驶技术和进一步的服务模式)之上继续寻找更多的可能,包括共享出行、个人使用车辆、物流、快递,以及与城市合作帮他们解决公共交通的问题。

*参与Waymo Early Rider项目的一家

那就是说,我们的第一种商业应用将会是出行服务。我们会在2018年推行该服务并对凤凰城的公众进行开放。乘客将能够使用Waymo的App来呼叫我们的没有驾驶员的完全自动驾驶汽车。我们对此非常期待。”

从电话会议的内容上看,所谓Waymo的出行App,2018年,还仅是在亚利桑那州的凤凰城的中使用。而根据雷锋网新智驾了解,2018年1月24日,Waymo获得了亚利桑那州的许可,Waymo可以在亚利桑那州以交通运输网络公司的身份运行,也就是说,Waymo可以向乘客收费。这在另一方面佐证了Ruth口中的计划。

不过,可以确定的是,由于针对自动驾驶的法律法规还未完善,Waymo短时间内还无法普及完全自动驾驶的出行服务。

各有所长

回到自动驾驶技术上。今年年初,DMV公布了在加州获得自动驾驶牌照的各大公司的“脱离”(Disengagement)数据。所谓“脱离”即自动驾驶汽车的自动驾驶模式未能成功激活或者在自动驾驶模式下,需要驾驶员进行人工干预的状态。每一千公里发生的脱离次数越少,在一定程度上说明其自动驾驶技术越成熟、稳定。

Waymo此次公布的数据与外界对看法一致——自动驾驶技术水平手屈一指。

在2016年12月到2017年11月Way末测试期间,Waymo在加州公共道路上的总测试里程达352545英里,在获得测试牌照的公司中可谓所向披靡。在测试中,总共出现了63次“脱离”,平均每辆测试车出现不到1次,平均每英里的人工干预次数只有约0.18次,是所有提交报告的公司中最少的。

*新智驾梳理的各公司脱离数据

而Uber由于在重新拿到牌照后未满一年,因此没有提交报告。不过据雷锋网新智驾了解,国外有媒体记者试乘了Uber的测试车,但是途中遇到了一些惊险,体验也非常糟糕。从侧面上看,Uber自动驾驶的水平与Waymo还是有较大的差距。

令Uber焦虑的是,Waymo步步为营的进度。在经历了长时间的技术积累后,Waymo在寻求落地的方案。2017年,Google Capital投资了Lyft 10亿美元,Waymo未来也可能通过Lyft的平台推广自动驾驶。

但Uber还没有必要慌张,Uber的应用场景是现成的。而Lyft目前在全美的市场份额仍然不及Uber,根据《Recode》去年8月的报道,Lyft的在美国的市场份额为23.4%。而根据《Fortune》去年12月的报道,Lyft的市场份额增长到了全美的1/3,但剩下的2/3,绝大部分仍然属于Uber。

*截至去年8月Uber和Lyft的市场份额变化

Waymo也需要面对通用汽车Cruise等其他自动驾驶玩家的追逐。Waymo自身并不产车,并希望一步到位实现自动驾驶。这与目前业内循序渐进的发展路线截然不同,大胆前卫的同时,意味着Waymo需要克服更多的困难。

一种可能

Waymo与Uber的官司,更多的是知识产权之争,而不是借此机会令Uber不得在自动驾驶上发展。

此外,从另外一个角度上看,Google Venture是Uber的股东,如果Uber能够在2019年进行IPO,Google Venture也可以从中获得获益,Alphabet也没有必要置Uber于死地。

由于各自都在自动驾驶技术走过了一段路程,Waymo和Uber在未来很难有合作的机会。

在去年四面楚歌的Uber,在新CEO上台后,也渐渐有了起色,先是获得了软银的投资,后又与Wymo 和解。Uber若能一改以往激进的狼性的激进风格,拨乱反正,真正在技术上进行积累,未来或许有机会在用户面前与Waymo一决雌雄。

PS:看遍这一年中国与全球智能驾驶领域的技术前沿与商业探索,雷锋网新智驾年度推荐,扫描下图二维码或点击https://www.leiphone.com/special/custom/AIdrive.html了解更多信息。

雷锋网

淘金热中卖“铁锹”的才最赚钱:激光雷达发展趋势漫谈

雷锋网按:虽然开发者们在机器学习的研发上忙得不亦乐乎,但事实上 AI 并不是万金油,没有充足的传感器支持,自动驾驶汽车在安全性上还是达不到要求。

特斯拉 Model S 在 2016 年一头撞上卡车造成司机死亡的事故就给我们敲响了警钟,当时车上的摄像头没能识别出那辆体型巨大的白色卡车。

因此,为了保证万无一失,车辆必须对周围的环境进行精确可靠的建模,特别是识别出关键的“威胁”,而这个过程主要靠一台甚至多台激光雷达或基于激光的远程传感器。不过,这只是理论上的。

现实中激光雷达反而成了自动驾驶行业的心病。它们确实好用,但大多数测试车上使用的 Velodyne 旋转式激光雷达单价就高达 7 万美元。这样的自动驾驶汽车放到零售市场根本就是“找死”。

当然,激光雷达技术可不是铁板一块。好消息是,业内有大量公司加入了这场淘金热,它们要通过技术创新彻底打破激光雷达市场的格局。

在今年的 CES 上,我们就见到了许多前途远大的公司,其中的一些还拿出了表现亮眼的原型产品。虽然现在判断谁能笑到最后还还为时尚早,但我们对它们的发展路径进行分析与评估还是很有必要的。

为什么激光雷达成了“天选之子”?

自动驾驶汽车搭载的传感器类型一般包括摄像头、雷达、超声波传感器和激光雷达。

摄像头生成的数据,人就能看懂,不过其测距能力堪忧,而且对光环境也十分挑剔。在英伟达的自动驾驶研发中,摄像头一直占据核心角色,而被英特尔鲸吞的 Mobileye 也在销售以摄像头为核心的系统。

雷达在探测距离上优势巨大,也不怕天气影响,不过在识别物体时分辨率有些让人担忧。值得注意的是,在与 Mobileye 分道扬镳之前,特斯拉一直在用 Mobileye 的摄像头方案,但现在特斯拉换成了以雷达为中心的方案。

不过,以上这两种传感器在江湖地位上还是无法与激光雷达平起平坐,后者已经成为大多数顶级自动驾驶系统的基石,包括 Waymo 和 Uber 等公司都在追逐最新的激光雷达技术,两家巨头对簿公堂就是因为该技术(Uber 最后赔了 2.45 亿美元,该技术的重要性可见一斑)。更疯狂的是,Aptiv(安波福)公司的自动驾驶展示车甚至直接装了 9 台激光雷达。

眼下,高端型号的激光雷达可以提供近乎完美的 360 度距离探测信息,其分辨率也相当惊人。

不过,7 万美元的售价可不是闹着玩的。此外,车辆还得顶着一个巨大的“大花盆”在路上飞驰。因此,未来如何降低激光雷达售价并缩小其体积是各家厂商 ADAS 与自动驾驶系统研发中的刚需。

MEMS 反射镜和半导体激光雷达

现有的激光雷达系统包含大量平行的激光器,每个还都配了自己的探测器。

通过一个旋转的反射镜,整套系统会生成一个 360 度的单色距离图。在制造过程中,激光器和探测器必须小心进行匹配。类似英飞凌这样的公司则靠 MEMS 技术(微机电系统)移动反射镜,不但简化了整个系统的架构,还大幅削减了成本。

除了使用 MEMS 技术,研发人员认为借助类似摄像头传感器的半导体也能实现相同效果,只需用激光来弥补摄像头测距能力孱弱的软肋。

这样的设计不但降低了成本,还能轻松整合进挡风玻璃或车辆的 A 柱中。不过这样设计的最大限制是视场,仅有 120 度左右。这也就意味着,要保证自动驾驶汽车的安全,车上就得安装多个激光雷达,车载计算机还要第一时间将激光雷达采集的数据进行整合。

从理论上来讲,半导体激光雷达在探测距离上也会弱于那些更大的旋转激光雷达。要想实现探测范围的全覆盖,要么在车的各个角上安装多个激光雷达,要么就安装一个大型旋转式激光雷达,外加几个辅助的半导体激光雷达以消除盲区。

由于当下激光雷达在体积和售价上的限制,许多设计师选择用摄像头或其它偏移传感器来解决顶置旋转激光雷达的盲区问题。

Velodyne 已经成了激光雷达代名词

借助 DARPA 自动驾驶挑战赛一战成名的 Velodyne 现在几乎已经成了激光雷达的代名词。

如果你在自动驾驶汽车车顶上看到一个旋转的巨大设备,那肯定就是昂贵的 Velodyne 激光雷达。眼下,大多数厂商采用的都是 64 线激光雷达。不过市场上还有性能更强也更昂贵的 128 线激光雷达和体积更小的 32 线激光雷达。

一般来说,用于顶级研究和地图绘制的车型会搭配最好的激光雷达,但大多数被厂商吹得天花乱坠的原型车却只能安装几台小型激光雷达。

不过,Velodyne 独霸车载激光雷达市场的时代可能一去不复返了。

在今年的 CES 展上,参展的激光雷达厂商已经 16 家以上。当然,并不是所有厂商都能拿出完整的产品,类似 Leddertech 这样的公司,就专攻将自家信号处理技术整合进来自其他公司的传感器。

除此之外,还有一些创新能力很强的新创公司,开始往激光雷达中添加多个传感器和传感器融合。

传感器融合是下一步:AEye 和 Tetravue

虽然转向半导体激光雷达能大幅拉低设备成本,但这种解决方案依然有很多创新与整合的空间。

鉴于激光雷达只是自动驾驶汽车的必备输入之一,因此将多个传感器的融合优化成连贯的数据模型是自然而然的要求。眼下,整个传感器融合的过程是在类似英伟达 Drive 芯片的迷你超级电脑中完成的。

新创公司 AEye 已经将激光雷达和一颗传统摄像头整合到了自家的原型传感器上,它们还给这套系统加了个“大脑”,以便根据激光雷达和摄像头的反馈对激光模式进行优化。

AEye 认为,这样的解决方案在效率上可达传统 MEMS 激光雷达的五倍以上。同时,它还能提供完整的 RGB+ 深度图像。AEye 还将新产品命名为 iDAR,宣称自家产品在识别物体能力上是传统激光雷达的 10 到 20 倍。今年,首批 iDAR 就将正式走下生产线。

Tetravue 也想实现相同的成绩,不过它们选的路有所不同。该公司不但在系统中加入了传统的摄像头,还给它配备了光限幅器,这样一来不但能得到 RGB 数据,还能采集准确的深度信息。

据雷锋网了解,Tetravue 有希望今年晚些时候拿出测试产品。令人振奋的是,Tetravue 背后有三星、富士康和博世等巨头,这样它在创新路上就不那么艰难了。

欧司朗和 EPC:“把铁锹卖给矿工”

无论是哪场淘金热,最有可能赚钱的就是那些卖工具给矿工的公司。

在自动驾驶行业,如果你深挖激光雷达的供应链,就会发现许多有实力的公司。欧司朗就是其中之一,这家半导体制造商已经将自家产品植入多个激光雷达设计,其中就包括 Velodyne 的产品。

如果再进行细化,就要说到控制激光发射的高速氮化镓(GaN)半导体材料了。EPC 是这个小圈子内的翘楚,EPC 公司的 CEO Alex Lidow 就表示,几乎所有的激光雷达制造商都是 EPC 的客户。

无论最后的胜利者是谁,激光雷达为汽车公司和消费者带来的好处都显而易见。未来,我们的自动驾驶系统和驾驶员辅助系统都会用上价格更低、使用更灵活的激光雷达。

PS:看遍这一年中国与全球智能驾驶领域的技术前沿与商业探索,雷锋网新智驾年度推荐,扫描下图二维码或点击 https://www.leiphone.com/special/custom/AIdrive.html,了解更多信息。

雷锋网

白帽子薪酬大比拼(这不是一份跳槽指南)

本想欢欢喜喜过大年,但亲戚朋友们总是会突然开启连环夺命问答模式,让你猝不及防~

大姨:你是黑客啊,去年网上的黑客攻击这么多,你干的?

我:不不不,大姨,我是白帽黑客,是专门跟那些干坏事的黑客们斗智斗勇的。

三舅:哦,那你斗得过他们么?

我:这得看情况,有的时候能,有的时候对方也很厉害,所以得找比我更厉害的白帽黑客来斗。

六婶:哎,为啥要去干坏事,是能挣很多钱么?

我:恩,是的,现在有很多做黑产的人,一些还属于法律的灰色地带,他们就打擦边球;有些虽然明显违法,但收益大,也会冒险干,blablabla……

大姨:哦,那你能挣多少?

我:……(突如其来的沉默)

三舅:对了,你找对象了么?什么时候带回来给我们看看呀?

六婶:打算什么时候买房子啊?

既然收入这个话题是怎么躲也躲不掉,雷锋网今天就放个大招!

带你来看看 1957 位白帽子的工资条,你的工资在同行中属于什么水平?领完年终奖后,明年若想跳槽去哪些行业和岗位比较好?要想拿到心仪的 offer 和薪水,哪些能力是你需要具备并在简历中突出强调的?

各位安全公司的老板们,息怒息怒,这真的不是一份跳槽指南。

—讲正事分割线—

首先,来介绍一下此次薪酬调研数据的来源。

本文所有数据来源于《中国信息安全从业人员现状调研报告(2017年度)》(文后统称报告),由中国信息安全测评中心所发布,调研时间为 2017 年 5 至 7 月, 采用的是在线问卷调查方式,共收集了 2037 份样本,其中有效样本 1957 份。

样本范围覆盖了全国所有省、自治区和直辖市,接受调研的信息安全从业人员来自不同行业和单位,承担了各类职责和角色的信息安全工作。

说了这么多,就是想说明,此次调研样本来自不同行业和岗位的 1957 位安全从业人员,而且地域差别也很大,算的是全国范围内的平均水平。

你的工资在同行中属于什么水平?

每个月在办公室中,大家表面假装平静,实则内心汹涌是什么时刻?

发!工!资!

问题来了,你迈入月薪过万的门槛了么?

报告显示,信息安全从业人员年平均薪酬范围在 12.2-17.8 万元区间,即在月薪在一万到一万五之间,在 IT 从业者当中,算是比较高的,信息技术(IT)从 业人员年平均工资为 120864 元。

当然,具体薪酬最重要的是看你的经验和从业年限。

如果你是一个新人,月薪没过万,那先不必担心,这两年安全公司的发展其实是不错的,小鲜肉们未来大有可为。但如果你是一个老兵,还在挣着大几千的工资,那就要好好反思一下。

报告中所覆盖的安全人员,有3 至 5 年从业经验的占比将近三分之一,拥有 6-10 年从业经验的人员占比大概五分之一,还有超过十分之一的人从业年限在10 年以上。

那么,安全是个吃青春饭的行业么?

在国内,由于大多数安全公司也是近几年才开始迅速发展,从业人员主要分布于 21-40 岁之间,占比 88.4%。

所以这个问题我们不妨参考一下国外的,据报告显示,国际上信息安全从业人员年限达到 10 年以上的所占比例约为 45%, 年限在 3.5 至 5 年人员比例约为 12%。

一句话,如果你经验丰富,这个行业应该会越老越吃香!在雷锋网对国外安全从业人员的采访中,就曾透露国外有很多很值钱的白发安全工程师。

所以,对于薪酬这件事,小鲜肉们应该好好学习本领,多跟安全圈的前辈们请教。而本身从业时间较长,但薪酬依然没有迈入万元户的白帽子,要好好想想,是入错了行业?还是本身的工作岗位没有发展前景?

安全圈哪些行业和岗位的薪水高?

俗话说,男怕入错行,女怕嫁错郎。

在基本都是汉子的安全圈,你的行业和岗位有“钱”途么?

报告显示,在所有信息安全从业者当中,金融业薪酬较高,政府部门薪酬水平相对较低。

相差有多大?

金融业信息安全从业人员年薪在30 万以上的从业人员远高于其他行业。而在政府、非盈利机构所工作的信息安全从业人员薪酬水平相对较低,大多在10 万以下,能拿到30 万以上年薪者寥寥无几,而且约一半体制内从业者过去一年薪酬不变或下降。

哪些岗位赚的多?哪些岗位你不能久待?

大体来看,管理岗的薪酬较高,而测评、 支持及运维相对较低 。

报告显示,架构设计岗、管理岗、技术开发岗、 研究分析岗在 10-20 万年薪从业人员中占比最高,而风险评估与测试、技术支持以及运营与维护岗在10 万以下年薪的从业人员占比最高。

值得注意的是,年薪 30 万以上的,大都是从事战略规划、架构设计、管理、研究分析岗。

哪些特质是老板们最稀罕的?

挣得少,很多时候不能怪老板抠,还是要想想自己为公司贡献了什么?很多时候站在老板的角度考虑,也许工作时的心态会更好。

那么,在很多人眼中又抠又挑剔的 BOSS,会为什么样的人才出血?

雷锋网发现,报告显示,用人单位最看重工作经验、潜质、软技能及资质。

用人单位在招聘中比较重视从业人员的比较成功的信息安全工作经验,从你做了哪些项目,可以看出所具备的基本能力和潜质。同时,沟通能力和相关的资质证书也非常重要。

这个标准国内外通行,在国外,企业在招聘安全人员时,最看重的特质分别是“是否具备实际动手能力”以及
“是否持有安全资质证书”
,其
中 69% 的企业都要求应聘者持有安全资质证书 。 

这里所说的证书,并非只有你的学历证书,还包括安全类的证书。

▲本次调研的受访者持有的部分资质证书分布图

在安全圈,是否具备相应资质证书常被作为招聘和任职的前提条件。美国联邦政府中 73%
的部门对 IT 员工要求具备信息安全相关资质。

最后,还有一点老板们也很看重,那就是人品,在调研中,几乎所有的BOSS都表示,接触过黑产的应聘者,一律不要!

好了,大过年的,雷锋网就说这么多了,祝愿各位白帽子在新的一年,挖洞顺利,升职加薪,搞定丈母娘,迎娶白富美!

雷锋网

加密货币安全事故频发,乌克兰黑客组织利用谷歌广告盗取逾5000万美元

雷锋网AI金融评论按:加密货币世界近日又揭发了一起骇客事件。但是这次有点新鲜的是,思科旗下安全公司Talos cybersecurity也参与了揭露黑客(并且获得了成功)。

据悉,黑客选择了使用Google Ads来非法侵入。使用这一非常基本的网络钓鱼技术,在过去的三年中,造成的总损失大约为5000万美元。

加密货币已成黑客常规目标

加密货币通常存储在交易所、采矿池或用户的个人钱包中,这使得个人的计算机和交所成为黑客的主要目标。不幸的是,近年来许多人都遭受了这种攻击。最大的几起攻击在加密世界人人皆知:Mt. Gox和Coincheck,它们曾遭遇了加密货币历史上最大的黑客,两次案件累计被盗窃近10亿美元,占据头条多日。

Mt. Gox是一个主要的加密货币交易所,直到2014年,它遭受了历史上最大的加密货币黑客攻击。该起黑客事件的金额估计约为4.5亿美元,导致交易所宣布破产。这起冲击波席卷了加密货币社区,导致比特币价格暴跌。

近期一次更大的黑客攻击发生在2018年1月底。Cincheck被黑客入侵,金额超过5亿美元,但迄今为止因为有偿付能力,仍然保持活跃。这多亏了2017年货币市场的繁荣,大量的投资者、交易量和财富,使得Coincheck仍有足够的储备来弥补亏损。然而,虽然Coincheck没有宣布破产并开启监管时代,BTC和XEM(被黑客入侵的货币)的价格在黑客事件发生后仍然出现剧烈波动。

黑客事件似乎越发大型,黑客的胆子也似乎越来越大。但除此之外,许多较小的加密货币“抢劫案”其实还未被讨论。

使用Google 广告来窃取加密货币

据Talos cybersecurity报告称,这次黑客事件是通过谷歌广告进行的。虽然没有数亿美元被盗,但是五千万美元仍然非同小可。尤其是对于那些在此次黑客事件中失去加密货币的人。区块链应该是透明的,但是即使公开显示交易金额、接收和发送货币的钱包,仍然很难确定到用户。多年来,黑客们不断抢劫着数以百万计的加密货币,就是因为他们能够保持匿名。加密货币的创建旨在为用户提供匿名性,但像BTC这样的区块链却是完全透明的。这种透明在大多数情况下都是有益的,除非遇到了利用比特币区块链的黑客。即使公布资金被转移到了哪个钱包,黑客的真实身份也不会暴露。

思科最近将重点转向了区块链技术。因此,他们能够理解安全威胁,更进一步能够揭露出大量胆大妄为的黑客事件背后的黑手。最近的黑客事件是一个自称为Coinhoarder的组织干的,基地在乌克兰。这些黑客使用的技术非常基本,但却能够吸引数千人的关注和资金。这种简单的技术包括,黑客组织在Google上发布与关键搜索字词相关的广告。这些关键的搜索条件都与加密货币直接相关。诸如“区块链”、“加密货币钱包”和“比特币钱包”等,都是提供恶意广告的搜索术语。

针对这些特定搜索字词显示的广告,会模仿专门用于加密货币钱包的合法域名,如blockchain.info。用户无法注意到域名和网站存在的细微差异,这使得黑客可以让毫无戒心的用户长时间浏览他们的恶意网站。 “blokchien.info/wallet”的登陆页面看起来与用户熟悉的blockchain.info几乎相同。如果您没有注意到网址中少了“ie”或者“c”,你可能很容易被诱入骗局。最糟糕的(或者最聪明的)部分是,黑客支付了足够的费用,让他们的恶意链接排名高于他们所模仿的网站的正确版本。

一旦用户进入恶意网站,他们就会像第一次或者习惯性访问那些正确的网站时一样操作。这样一来,他们会输入个人信息,使得黑客可以访问正确网站上的帐户(钱包)。他们访问了用户的钱包之后,就会将资金转移到自己身上,黑客事件就完成了。整个策略是尽可能的模仿正确的网站,并高价购买Google广告。更令人震惊的是,根据思科与乌克兰的Cyberpolice合作调查,这种网络钓鱼诈骗已经发生了三年。 

乌克兰黑客组织Coinhoarder

现在广泛认为,Coinhoarder集团应该为自2015年以来的多起黑客盗窃事件负责任,随着比特币价格的攀升,这类事件价值和数量在2017年底大幅上涨。在9月、11月和12月三个月之间,有超过1000万美元被盗。即使网络警察部队和高级安全公司穷追不舍,黑客仍然胆大妄为。虽然Facebook等网站已经禁止与加密货币相关的广告,模拟网站钓鱼诈骗的技术还是越来越流行了。

Coinhoarder专门从事网络钓鱼诈骗,但这只是窃取加密货币的众多技术之一。据雷锋网所知,声名狼藉的朝鲜黑客攻击组织的Lazarus集团,同时也通过网站镜像技术从事网络钓鱼诈骗。越来越多的黑客组织使用非常基本的网站镜像技术,让用户提供访问他们的钱包所需的信息,盗窃价格高昂的加密货币。最近遭受黑客攻击的个人,绝大多数IP地址主要在非洲,尼日利亚和加纳。这并不奇怪,因为世界欠发达地区是加密货币使用最多的地区,同时那里的人们可能没有接受足够的有关反诈骗教育。不过,除非用户主动监控他们访问过的网址,否则一个完全镜像的网站确实很容易令人混淆。

对你的Web地址保持警惕,并下载安全软件

被盗资金所转移到的比特币地址是可知的,但我们对此仍无计可施。问题仍然在于BTC地址是匿名的,除了一个数字之外没有任何东西,要知道谁持有可疑钱包几乎不可能。我们可以无限期地监控和追踪资金,直到它们被花掉或转移到某交易所。但是,没有人能保证能够成功的找到钱包的持有者。

区块链的好处偶尔也是它的缺点。如果区块链是完全透明的并且需要身份识别,我们就能找到黑客,但是去中心化和和匿名也就不复存在了。生活中几乎所有的东西都有折衷,不需要身份识别就可以持有比特币钱包,这使得个人能够在安全的区块链中用一个钱包号码持有资金。在这种情况下,黑客花掉资金的方式也就难以捕获和揭露了。

雷锋网认为,从整个情况中可以吸取的教训是,对你访问的网站和点击的广告保持高度警惕。除了保持警惕之外,请确保使用防病毒软件和反钓鱼软件。 如果您要投资任何ICO(基于ETH),或需要一个地方来确保您的ETH不会被钓鱼诈骗,那么复制钱包也是一个理想选择。

雷锋网

「GAIR 大讲堂」大牛、学霸们的精华分享一次看个够 | 年度盘点

雷锋网 AI 科技评论按:2017 年,在 GAIR 2017 大会成功举办后,雷锋网旗下宣布成立了一个全新的高端学术分享品牌「GAIR 大讲堂」。在过去的一年里,GAIR 大讲堂通过举办高频次的学术分享活动(包括线上和线下),实现了学术专家、AI 业者与高校学术青年之间的深度交流。以下是我们的年度盘点。

国际顶会论文解读(线下)

AAAI 2018预讲会哈工大场(上)

AAAI 2018预讲会哈工大场(下)

内容简介:本次 AAAI 2018 预讲会邀请了来自全国各地 15 所高校和研究单位的老师和同学分享他们在 AAAI 2018 中接收的 25 篇论文,内容覆盖有聊天机器人、语义依存图、文本摘要、机器翻译、信息抽取、表示学习等多个领域的最新研究成果。会议吸引了 200 多名老师和学生来此参会并进行交流。

CVPR 2017 专场

CVPR(国际计算机视觉与模式识别会议)是 IEEE 举办的年度学术性会议,会议主要关注计算机视觉与模式识别等方面的技术内容。在各种学术会议统计中,CVPR 有着非常强的影响力和高排名。在美国夏威夷举办的CVPR 2017 大会上,学术界和工业界都给予了极高的关注度,无论是收录的论文数和参会人数都刷新了 CVPR 的历史纪录。

CVPR上海交大专场回顾

内容简介

吴佳俊(MIT EECS 系三年级博士生)分享了 A Point Set Generation Network for 3D Object Reconstruction from a Single Image,提出的点云生成网络解决了如何用深度神经网络从单张图片中恢复重建三维物体这个难题。

汪洋(阿里巴巴人工智能实验室资深算法工程师)分享了阿里人工智能实验室入选的论文:Contextual Attention-based Memory Networks for Scene Labeling。

论文提出了一种 Episodic CAMN 方法,并在该方法的基础上定义了一种由全卷积神经网络和带有反馈连接的注意力机制记忆网络构成的统一框架来实现上下文信息的选择和调整。

杨蕊(上海交通大学研究生)分享的是 Video Segmentation via Multiple Granularity Analysis,讲解了视频目标分割传统方法,以及该论文中提到的新方法遇到的挑战,比如视频模糊,有遮挡,形变,和光照等因素影响。

林天威(上海交通大学研究生)分享的是 Single Shot Temporal Action Detection,并且利用该论文中提到的方法获得CVPR举办的ActivityNet Challenge 2017两项冠军。

王敏思(上海交通大学博士生)分享的是 Recurrent Modeling of Interaction Context for Collective Activity Recognition,论文提出了一个基于多层次递归神经网络的群体行为识别算法,在群体行为数据库Collective-Activity获得了目前很好的识别精度。

CVPR清华专场回顾

内容简介

段岳圻(清华大学自动化系三年级博士生 )分享的论文题目是:Learning Deep Binary Descriptor with Multi-Quantization 。 他分别从四个方面介绍了他的论文研究:背景介绍,文章方法,实验结果,参会心得。

孙刚(Momenta 研发总监&联合创始人)分享的论文题目是:Squeeze & Excitation Networks。这篇论文作者提出了一种新颖的神经网络模块称为Squeeze & Excitation(简称SE),以此大幅提升模型的精度。

郑贺亮(中科大&微软亚洲研究院联合培养博士生)分享的是:Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition。论文中设计一种RA-CNN的网络结构,将不同尺度的重要区域综合起来进行分类,实现了定位和精细化特征学习之间的相互促进,在精细化物体分类的任务上取得非常理想的结果。

邱钊凡(中科大&微软亚洲研究院联合培养博士生)分享的题目是:Deep Quantization: Encoding Convolutional Activations with Deep Generative Model。论文中提出了基于深度生成模型的卷积层特征的提取整合方案,并将最终得到的全局特征应用在不同分类问题当中。在图片精细分类和视频动作识别两个问题上,该方法均体现出较好的性能。

CVPR哈工大(深圳校区)回顾

内容简介

左旺孟(哈尔滨工业大学计算机学院教授、博士生导师)分享的论文题目是:Deep learning models for image restoration and depth enhancement 。文章设计了一种新的去噪CNN网络,并结合半二次分裂方法将其推广应用于广义的图像复原问题的求解。

黄伟林(码隆科技首席科学家)& Matt Scott(码隆科技联合创始人兼 CTO)分享的主题是:CVPR WebVision 挑战赛分享与展望。他们共同分享了参加竞赛的算法思路和方法方面的相关经验,以及针对现实场景中非人工标注数据的训练和学习技术的探索。

陈晓智(清华大学博士)分享的是:Multi-View 3D Object Detection Network for Autonomous Driving 。论文中提出了一种多视角三维物体检测网络(MV3D),通过融合激光点云和 RGB 图像来实现物体的三维定位与检测。

李琛(浙江大学博士)分享的主题是:Biological Human Skin Color Model: from Theory to Applications。李博士和团队其他人在CVPR 2017 发表的两篇论文《Radiometric Calibration from Faces in Images》和《Specular Highlight Removal in Facial Images》中利用人脸肤色的生物学模型先验知识,在高光分离、相机响应函数校准这两个问题上,效果取得显著提升。

NIPS 2017 专场

继 CVPR 2017 会议在报名人数以及论文收录等方面创下多项「历史第一」之后,计算神经科学顶级学术会议之一——NIPS(神经信息处理系统大会)在文章收录结果仅仅公布 10 天之后,官方数据显示注册名额已满。人工智能关注度又上升了一个高度。

NIPS 清华专场回顾 

内容简介

NIPS 2017 共收到 3240 篇论文投稿,有 678 篇论文被选中作为大会论文,比例 20.9%,其中有 40 篇被选中进行口头报告(oral),112 篇选为 spotlight 进行展示。这些数字刷新了大会历史记录。

陆洲(北京大学数学科学学院大四本科生)分享题目是:The expressive power of neural networks : A view from the width。这篇论文从宽度入手,分别从宽度带来的相变,以及宽度与深度对效率的影响来做实验,得到了关于神经网络表达能力的新结果。

邓志杰(清华大学计算机系人智所博士生)分享题目是:Structured Generative Adversarial Networks。该论文提出结构化生成对抗网络(SGAN) 来解决半监督条件产生式建模问题。

陈键飞(清华大学计算机系人智所博士生)分享题目是:Population Matching Discrepancy and Applications in Deep Learning。主要介绍了他们在NIPS 2017上提出的样本匹配差异(PMD)。

汪跃(北京交通大学理学院博士生)分享的是:Finite sample analysis of the GTD Policy Evaluation Algorithms in Markov Setting。这篇论文中首先证明了在数据来自于马尔科夫链的情况下,鞍点问题的期望意义下和高概率意义下的有限样本误差,进而得到了更接近于实际情形下的GTD的算法的有限样本误差分析。

单小涵(中国科学院计算技术研究所博士生)分享的是:Influence Maximization with epsilon-Almost Submodular Threshold Function 。论文中提到了一种近次模函数,并以这类函数作为阈值,研究通用阈值模型下的影响力最大化问题。

学术青年分享会(线上)

达观数据张健:文本分类方法和应用案例 

内容简介:此次分享中,张健按照 NLP 概述、文本分类的传统方法、深度学习在文本分类中的应用和案例介绍四个板块,结合在达观数据的系统设计和应用经验,分享了他的见解。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法   

内容简介:对于图像编辑任务,现在面临的两个重要的挑战分别是:如何提升生成图像的质量和如何灵活控制生成图像内容。如何解决,王超岳带来详细解读。

极限元算法专家:深度学习在语音生成问题上的典型应用 

内容简介:深度学习在语音生成和语音增强上的新颖应用方法

Video ++孙兆民:人工智能行业报告——视频内容识别行业分析   

内容简介:这份报告并非针对人工智能领域全局观,而是解构视频行业,围绕国内视频内容识别这一垂直领域的创业公司展开讨论,从市场、产品、技术、商业模式、人才等多个维度出发,浅析人工智能技术在视频中的发展方向。

搜狗研究员讲解基于深度学习的语音分离 

内容简介:语音分离的目标就是从环境等干扰中分离出主说话人的语音,本文介绍的是基于深度学习的语音分离。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶

内容简介:文章中主要分享的是基于徐华哲和他的同学们发表的 CVPR 2017 的收录文章「End-to-end Learning of Driving Models from Large-scale Video Datasets」,这是对端到端自动驾驶的一个尝试。

BasicFinder 标注平台数据科学家吴昊:从数据采集与标记行业看数据与深度学习之关系   

内容简介:本文主要介绍的是数据规模、数据质量等与深度学习算法之间的关系,以及为算法做数据准备的一些经验。 

中科院曹婍:基于深度学习的社交网络流行度预测研究 

内容简介:本文主要介绍的是目前网络信息流行度预测研究的进展,以及中科院博士生曹婍提出的基于深度学习技术的端到端流行度预测框架(DeepHawkes 模型)。该工作已被国际会议 CIKM 2017 录用并发表。

香港科技大学施行健:深度学习用于短临降雨预报的一个基准和一个新模型

内容简介:本文介绍了 NIPS 2017 论文: Deep Learning for Precipitation Nowcasting: A Benchmark and A New Model 中提到的核心算法模型。该论文的作者之一施行健给我们详细讲解了论文中的核心思想以及模型的演进过程。

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

内容简介:本文介绍了如何利用强化学习技术,更好地解决自然语言处理中的两个经典任务:关系抽取和文本分类。  

多伦多大学博士生赵舒泽: 如何在FPGA上实现动态电压的调节?

内容简介:本文介绍了其中一种降低 FPGA 能耗的方法——基于自测量的 FPGA 动态电压调节解决方案。

浙大博士生刘汉唐:带你回顾图像分割的经典算法 

内容简介:本文第一部分介绍的是传统视觉的图分割算法,第二部分是近几年流行的深度学习算法中的经典技巧。

新的一年雷锋网「AI科技评论」会持续输出更多优质内容,感谢大家的关注和支持。

雷锋网