月度归档:2017年06月

百度视频联手搜狐视频 加速布局PGC短视频内容

近日,搜狐视频和百度视频在第四届搜狐视频出品人峰会上举行了“搜狐视频&百度视频PGC合作启动仪式”, 双方宣布将强强联手加速布局PGC短视频内容,全方位扶持PGC内容创作者,共同对PGC自媒体提供大数据、高分成、海量用户、品牌推广、战略投资等各项资源和技术赋能,开创PGC内容生态的新格局。

搜狐视频与百度视频的PGC合作将对PGC内容创作者进行双平台的联合认证、联合推广、联合投资。双方将打通PGC认证流程,在其中一个平台认证成功,即可获得双平台认证标识,这是PGC自媒体领域中首次实现不同平台认证体系之间的认可和打通。此举将大大提升PGC内容创作者的平台体验和运营效率,也为优质PGC内容提供了更广阔的传播通路、流量入口和变现渠道。

此外,搜狐视频与百度视频还联合启动了PGC内容投资计划,首期投入2亿元,共同投资、扶持专注于PGC短领域的视频自媒体,促进PGC制作团队的优质内容产出,打造视频平台和优质PGC内容的良性互动生态。

雷锋网

Uber自动驾驶测试卡车升级,换用64线旋转激光雷达

雷锋网消息,Uber的自动驾驶测试卡车刚刚升级换代了,新一代卡车上装载了64线旋转激光雷达阵列。

自从5月与加拿大Otto Motors公司的商标争议,以及另一家自动驾驶技术公司Waymo抗议Otto获取了许多公司机密以来,Uber的新自动驾驶卡车就去掉了所有的Otto标志。现在,Uber自家的技术团队ATG已经掌控着整个项目,他们的新技术成果也第一次在卡车上得到体现。

除了新的旋转激光雷达之外,新一代自动驾驶卡车上许多的零部件以及曾经拿下“最长的连续无司机自动驾驶”吉尼斯世界纪录的软件系统也同步进行了升级。新卡车已经可以在旧金山和附近的高速公路上看到。

另外据ATG卡车产品主管Alden Woodrow透露,这次的技术升级并不是Uber/Waymo进行中的法律纠葛的直接结果,这次采用的64线激光雷达是来自第三方厂商的技术独立的产品,就是为了避免牵扯进Waymo对Uber的诉讼中。从规格上看来,这个64线激光雷达是一款非公开的定制产品,再结合它的外型,很有可能是来自Velodyne的HDL-64E雷达,虽然由于保密协定的原因无法直接确认。同时Woodrow也表示,Uber早就有计划把Otto的技术和自家ATG团队的技术整合在一起,毕竟基于Otto技术的卡车并没有使用64线的激光雷达;如今升级后的雷达可以采集更多的数据,能帮助软件系统更好地了解路况、做出决定。

雷锋网

深度学习下的医学图像分析(一)

雷锋网按:本文由图普科技编译自《Medical Image Analysis with Deep Learning 》,雷锋网独家首发。

近年来,深度学习技术一直都处于科研界的前沿。凭借深度学习,我们开始对图像和视频进行分析,并将其应用于各种各样的设备,比如自动驾驶汽车、无人驾驶飞机,等等。

A Neural Algorithm of  Artistic  Style是一篇最新发表的研究性论文,论文向我们介绍了如何将一种风格和气质从艺术家身上转移至一张图像,并由此创建出另一张新图像。其他的一些论文,比如Generative Adversarial  NetworksWasserstein GAN,也已经为开发模型铺平了道路,这个模型能够创建出与输入数据相似的新数据。由此,“半监督学习”世界的大门被打开了,未来“无监督学习”的发展也将更加顺利。

尽管这些调查研究的对象现在仅限于一般的图像,但我们的目标是将这些研究运用到医学图像中,帮助医疗保健的发展。在本文中,我将从图像处理和医学图像格式数据入手,并对一些医学数据进行可视化处理。在下一篇文章中,我将进深入剖析一些卷积神经网络,并将其与Keras联合,预测肺癌。

使用Python进行基本的图像处理

OpenCV(开源计算机视觉库)凭借其大量社区支持,以及对C++,Java和Python的可兼容性,在琳琅满目的图像处理库中脱颖而出,成为了图像处理库的主流。

现在,打开你的Jupyter笔记本,并且确定cv2是能够导入至笔记本的。你还需要numpy和matplotlib来查看笔记本内的细节内容。

现在,我们来看一下你能不能打开图片,能不能用下面的代码在你的笔记本上查看图片。

基本的人脸检测

接下来,我们要玩些有趣的——检测人脸。我们将使用一个开源的正脸检测器来进行人脸检测,这个检测器最初是由Rainer Lienhart创建的。下图这个帖子详细地介绍了级联检测的细节:

在下面的文档中还有很多使用OpenCV进行图像处理的例子(点击链接查看文档http://docs.opencv.org/trunk/d6/d00/tutorial_py_root.html),读者们可以任意查看。了解了基本的图像处理以后,接下来我们将开始了解“医学图像格式”。

医学图像数据格式

医学图像与“数字影像和通讯”(DICOM)一样,是一个储存和交换医学图像数据的标准解决方案。该标准自1985年第一版发布以来,已经被修改了好几次。该标准使用的是一个文件格式和一个通讯协议。

  • 文件格式——所有病人的医学图像都被保存在DICOM文件格式里。这个格式中保存着病人的受保护健康信息,比如:病人姓名、性别、年龄,还有一些医疗图像的数据。“医学成像设备”创建了DICOM文件。医生们使用DICOM阅读器和能够显示DICOM图像的电脑软件应用程序来查看医学图像,并且根据图像的信息作出诊断。

  • 通讯协议——DICOM通讯协议是用来在档案中搜索影像研究,并将影像研究还原显示的。所有连接了医院网络的医学成像应用程序都会使用DICOM协议交换信息,这些信息中的大部分是DICOM图像,不过还包括了一些患者信息和治疗方案。还有一些网络要求是用于控制和跟踪手术、安排手术日程、报告状态,以及分担医生和成像设备之间的工作量的。

下面的博客详细地介绍了DICOM标准:

分析DICOM图像

Pydicom是一个相当不错的、用于分析DICOM图像的Python工具包。在这个部分,我们将会看到DICOM图像是如何在Jupyter笔记本上呈现的。

使用pip安装pydicom下载安装OpenCV

Pydicom工具包安装完毕以后,回到Jupyter笔记本。将dicom工具包和下图中的其他工具包导入笔记本中。

在处理和分析数据时,我们还会用到其他的工具包,比如pandas,scipy,skimage和mpl_toolkit,等等。

网上有很多免费的DICOM数据库,下面的这些数据库可能对你有所帮助:

  • Kaggle竞赛和数据库:这是我个人最喜欢的数据库。这里面有关于肺癌和糖尿病视网膜病变的数据。

  • Dicom数据库:DICOM数据库是一个免费的线上医学DICOM图像或视频分享的服务器,它主要是以教学和科研为目的的。

  • Osirix数据库:这个数据库向我们提供了大量通过各种成像方式获得的人类数据。

  • 可视化人体数据集:“可视人计划”的某些部分是分布于这个数据集的,但是这个数据集中的数据是需要收费的。

  • Zubal幻影:这个网站提供了关于两名男性CT和MRI图像的多个数据库。

下载dicom文件,并将其上传至你的jupyter笔记本。

现在,将DICOM图像加载到一个列表中。

第一步:在Jupyter笔记本上查看DICOM图像

在第一行,我们加载第一个DICOM文件,然后提取文件名在列表中排第一的元数据。

接下来,我们要计算3DNumpy数组的总维数,它等于片中像素的行数x、片中像素的列数x,还有x,y,z轴。最后,我们要用“像素空间”和“SliceThickness”来计算三个轴上像素间的空间距离。我们需要将数组维度保存在ConstPixelDims中,并将空间保存在ConstPixelSpacing中。

第二步:进一步研究DICOM格式的细节

CT扫描测量的单元是“胡斯菲尔德单元”(HU),这个单元测量的是放射性密度。为了得到精确的测量结果,CT扫描仪经过了严格的校准。下面是关于CT扫描测量的细节内容:

每个像素都会被分配一个数值(CT数),这个数值是相应的voxel内所有衰减值的平均值。这个数字是与水的衰减值相比较得出的,而且是以任意单元的规模显示的,这个任意单元叫做“胡斯菲尔德单元”(HU),是以Godfrey Hounsfield先生的名字命名的。

这个任意单元的规模将水的衰减值定为零。CT数字的范围是2000HU,尽管有一些现代扫描仪的HU范围达到了4000。每个数值都代表了一种灰色阴影,在光谱两端有+1000白色和-1000黑色。

胡斯菲尔德规模(图片来自《CT的介绍》)

有些扫描仪是有柱状扫描边界的,但是其输出的图像确实方形的。在扫描边界之外的像素将被赋予-2000的定值。

CT扫描仪图像(图片来自《CT的介绍》)

第一步通常是将这些值设置为零。接着,我们把得到的数值与重新调节的斜率相乘,再加上截距(通常是记录在扫描的元数据中的),然后回到HU单元。

在接下来的部分,我们将会使用Kaggle的肺癌数据库和Keras的卷积神经网络。我们将根据本文提供的信息,构建下一部分的内容。

雷锋网

无人机被越管越严,对行业来说是好事还是坏事

距离影响力广泛的成都无人机干扰客机事件已经过去两个月,不管事件背后是否有阴谋论,无人机的监管问题终于放到了台面上。在这期间,民航局推出了无人机实名注册登记和发布全国171个机场障碍物控制面的坐标信息。这两项措施对无人机有效监管有着重要的意义,也是国内首次真正意义上出台的无人机监管政策。

之后,全国很多包括成都、重庆、广州、福建在内的地方政府相继发布针对行政区域内禁飞无人机的规定,对于无人机爱好者来说,内心无疑是复杂的。在雷锋网编辑朋友圈中,就有人在兜售手上的无人机。

那么,中国的无人机行业就此陷入低谷了吗?无人机被越管越严,对行业来说是好事还是坏事,我们可以理性地来分析下。

消费无人机由谁管制

首先,我们来理清楚一件事,那就是消费无人机由谁管制。

如果在美国,那么这个答案是很明显的,那就是美国联邦航空管理局(FAA)。虽然美国关于无人机监管的政策也并不完善,不过已经有过比较正规的管理法则,如Part107。而在中国,则并没有明确规定无人机由谁管制。

随着中国无人机的快速发展,以及全国各地频发的“黑飞”事件,无人机的监管也终于受到了有关部门的重视。据雷锋网获悉,目前国内无人机根据不同业务由不同机构管理,工信主要是标准制定,民航局主要是跟实名制和机场禁飞区划定,空管委是谈空域开放。

5月16日,民航局召开新闻发布会,表示根据国家空管委的要求,中国民航局将开展无人机四项专项整治工作,分别为民用无人机实名登记注册;发布民用机场保护范围数据;逐步规范无人机开展商业运营的市场秩序;调动行业、部门力量配合配合地方政府、公安建立联防联控机制,加大宣传力度。

无人机实名登记系统

目前国内无人机监管存在哪些问题

由于目前全球任何一个国家都没有制定比较完善的无人机监管政策,因此国内在这方面也没有办法得到好的借鉴。作为国内无人机领头者,大疆在2015年12月开始与空管委及各相关部门一起探讨无人机的监管,也从而发现了存在的一些问题。

在2016年开始梳理对接的部门职能以及探讨无人机监管的技术手段中,大疆发现无人机监管是一个涉及多部委的交叉的综合问题。在弄清楚民航、工信各司、局单位对无人机监管职能划分时,意识到无人机监管还涉及低空空域问题,而低空空域开放的问题在我国也还没放开。为此,大疆也内部讨论并提出了一套相对完善的无人机监管方案:包括多边形电子围栏限飞区、无人机激活时手机注册、ADS-B广播式预警系统、无人机飞行信息可实时接入管理系统等。

2017年杭州萧山机场事件发生,无人机监管问题放上了台面。空管委及民航、工信各司局都加速无人机监管方案的讨论和落地。大疆为全国机场更新多边形电子围栏限飞区,并随后推出无人机激活手机注册和老用户手机登记的策略。

今年1月,有人在杭州萧山机场附近用Mavic Pro 近距离拍摄民航客机飞行后被公安局拘留,当时没有明确禁飞区范围,后来大疆更新了多边形就扩大范围了

西南地区,特别是四川省在无人机监管方面提出了云系统+划定白名单飞行区域的方案,也就是给无人机加装通讯芯片实现实时监管并且划设无人机准许飞行区域。大疆方面向雷锋网表示,这个方案和无人机自由飞行的初衷相距甚远,而且对于绝大多数娱乐需求的用户来说是过渡监管。

成都、重庆民航干扰事件发生后,各地方政府和无人机监管部门对无人机监管也采取了相应严格的措施。由于正是一带一路高峰论坛举办前期,全国各地都加强了无人机禁飞。四川、重庆先是行政区域内禁飞,而且还发生了禁飞区内群众举报抓人的事件。各地政府都陆续发文要求无人机飞行前需要空域申请和报备,广州还征求机场半径55公里范围为禁飞区的意见。对机场和敏感机构范围,除了电子围栏限飞手段外,还可以采用基于飞行器图传链路广播的飞行器信息接收系统:飞行器实时通过图传链路向外广播飞行器信息、用户信息等,机场安装的侦听设备可以实时接收并对违规飞行的行为进行反制。大疆认为通过一系列的技术手段是完全可以有效管理无人机的。

在这期间,民航局推出了无人机实名注册登记和发布全国171个机场障碍物控制面的坐标信息。但无人机实名注册登记在操作时也存在虚假登记的问题,大疆也和民航局进行积极讨论,大疆认为在产品激活时进行实名制登记比销售环节进行实名制登记更加可靠,有效:厂商无权在产品销售时要求用户提供身份信息,也不便存储用户身份信息,因此建议在用户激活产品时将飞行器信息、用户身份信息一并发给民航局实名制注册登记系统,且飞行器机身和各零部件也有二维码,无需再自行打印粘贴便可扫面注册信息。民航局发布的全国171个机场障碍物控制面是参考了国际民航附件14的策略,相比原来的20*50公里机场净空区范围更加合理,但目前各地方政府、执法公安也并没有明确民航局颁布的新版控制面有效性,使得用户飞行时也不确定能否飞行,因此大疆还是要求用户遵守当地法律法规飞行。

随着全国各地政府都按照无人机严管的策略推出政策,大疆也积极和同行企业相互沟通,希望政府和监管机构能够在促进无人机产业健康发展的前提下推进无人机监管。这里有一个很重要的概念就是无人机分类,按照起飞重量划分无人机等级,根据类型区别管理,以科学技术手段为主加以明确的行政指引来有效监管无人机。

另外,从从技术和监管两个角度规范,大疆从场景出发提出了些解决方案:

1. 目前最需要也容易管的是改装飞控到飞行器上,当做巡航导弹做坏事的情况;

2. 对于第一点,如何在重要场所侦听到不明飞行物是另一个技术难点:那就是发现并切断GPS导航的信号。

“这个话题引起重视了,我相信以我们国家的智慧,是绝对可以解决的。现在还是在现象阶段逐步转移到常规监管手段的讨论。”大疆方向向雷锋网表示。

对市场的影响有利有弊

对于无人机企业来说,由于禁飞导致用户购买欲望降低,中国的市场受到了明显波动,不少企业将重心再次转移到海外市场。

而对于航拍飞手来说,由于拍摄的成本和审批难度会大大增加,航拍市场会迎来洗牌,有专业航拍飞手向雷锋网表示,未来个人无人机航拍的可能性几乎为零。

当然,随着无人机安全监管的落地,无人机管理形成有序的同时,也是向大众进行无人机科普。从另一角度来说,无人机之所以现在受到监管部门的重视,是因为无人机的市场发展的越来越快,已经足够影响到大众的生活。但同时,无人机又是一个小众的产品,大众的认知并不够,因此还需要不断的进行科普。

“禁不是办法,管也不是目的。管是为了有序,有序才能更好、更快的发展。要管、放结合,管与放掌握好一个平衡点。1、宣传航空文化,普及航空法规。2、利用先进的技术手段规范人的行为。3、达到他律、自律的目的。

任何新生事物不能一蹴而就,需要不断积累经验和不断修订管理政策。所以有些规定是临时性措施,完善后再列入规定。

关于监管要不断摸索,修正,学习。我们经常与无人机技术发达国家进行交流。难也要往前走,世界是发展的,事物也是不断螺旋式上升的,慢慢就合谐了。要化解矛盾,共建合谐航空环境,让人的航空意识与素质不断提高。”AOPA(中国航空器拥有者及驾驶员协会)执行秘书长柯玉宝向雷锋网表示。

另外,快速推进无人机安全监管落地对于无人机的应用也是有推动作用,像无人机被应用在物流中,一直都有企业在尝试,但都因为监管方面未落地,无法推动下去。

而对于航拍市场来说,博弈持续一段时间以后会形成一种比较稳定可行的规则,“毕竟无人机具有一定的特殊性,而真正的商业刚需是小众的。现在舆论把商业无人机跟hobby和toy混为一谈,不是好事情。国家能对无人机应用实现具有可操作性的监管自然是利好消息。”冀视科技创始人石立松向雷锋网表示。

明日下午在深圳湾软件产业基地举办的《2017年民用无人机产业发展高峰论坛》上,深圳市政府将与大疆以及无人机企业共同探讨无人机的发展前景,以引导无人机的产业链规范发展。

雷锋网

电子商务大行其道,AI技术将引领实体零售“复辟”

过去几年,电子商务如雨后春笋般涌现,让零售行业逐渐摆脱了水泥砖块的实体店的局限。但如今,越来越多以电子商务为主业的公司——比如亚马逊,却正在不断向线下实体零售店扩张。通过Amazon Go无人售货商店和位于西雅图的实体书店,亚马逊正逐渐将创新带到竞争激烈的实体零售行业中来。

Amazon Go中基于AI技术的无人结算系统将帮助实体零售商店摆脱对收银台的依赖,并彻底颠覆零售行业的游戏规则。结合亚马逊日前用137亿美元将全食超市收入囊中的大手笔,我们可以大胆相信,越来越多零售商将跟随亚马逊的脚步,将前沿技术整合到实体零售商店中来。

要将零售行业提升到全新高度,就必须对消费者有更加清晰的认识。过去这是一个巨大的挑战,但现在有了AI技术。机器学习和自然语言处理等技术让零售商对消费者的了解日益深入,前者正在慢慢改变实体店的购物体验,以搜集顾客更多的消费细节,创建完整的用户画像并进一步提升服务体验。

在多个领域扩张实体店的亚马逊正走在零售行业创新的前沿,更多的零售商也将朝着这一方向迈进。

雷锋网从波士顿零售协会的最新研究中了解到,45%的零售商计划在未来几年应用AI技术。他们希望引进聊天机器人和智能助手,提供更加出色的客服体验。

Infosys的一项调查则显示,多达60%的零售商希望利用AI技术,让自动化客服系统提供更加人性化的建议。

未来电子商务将继续给消费者和商家带来便利,AI技术也将同时服务于二者。消费者将获得更加无缝和个性化的购物体验,零售商则可以搜集更多的数据,以吸引和留住消费者。

波士顿零售协会认为,AI技术将从以下几个方面改善零售行业:

客户体验优化55%

客户忠诚度提升50%

移动购物体验提升45%

跨渠道无缝购物体验提升42%

个性化服务/销售支持提升32%

个性化促销及商品推荐提升24%

波士顿零售协会认为,未来零售行业将是现实世界与科技的混合体:

在物理世界中,消费者可以获得完整的感官体验,比如触摸感受商品,与专业的导购(无论是人类还是具有人类个性的AI机器人)交流互动。在数字世界中,消费者可以获得独特和个性化的购物体验。而未来物理世界将和数字世界交织在一起。

现在我们已经能够看到一些厂商正在零售行业中积极应用新技术,据雷锋网了解,Sephor的app中已经整合了AR技术,Melissa的商店中也加入了可交互的M-ND平板电脑。从种种迹象来看,Gartner对于未来85%的消费场景将实现无人化的预测极有可能实现。

雷锋网注意到,埃森哲在本周发布的一份研究报告中指出,成功应用AI技术的企业将在2035年前实现38%的利润增长。预计AI技术将在横跨12个地区的16个行业中累计带来14万亿美元的增长。

蓝图虽然美好,但实施的道路上却可能面临一些阻碍。Infosys的调查报告显示:

61%的零售商对AI缺乏专业知识

52%的零售商缺乏足够的财力

47%的零售商则没有明确的实施计划

不过鉴于AI技术的优越性,以及零售商的积极态度,在电子商务大行其道的今天,AI技术必然是实体零售店赖以生存的关键。

雷锋网

iDST的前世今生,阿里AI帝国的野望与内省

阿里iDST又收获一名大将:亚马逊资深主任科学家任小枫。

在陆续囊入漆远、金榕、涂子沛、华先胜、任小枫等大牛后,从纸面上来看,iDST的人员配置已非常完整。

但随着内部变动,漆远已成为蚂蚁金服首席科学家;现iDST院长金榕也曾一度被调到天猫搜索部门;涂子沛在高调加入iDST不久后,退出了第一阵线,很少以阿里的身份对外发声。

在经历一系列波折后,现在的iDST虽然和马云、王坚最初的设想有些出入,但已经走上了属于自己独有的道路。

1

2014年,阿里巴巴在硅谷成立 iDST(数据科学与技术研究院),打那儿之后,马云在各个场合的演讲主题便从“互联网”改为“DT”。当所有人还沉浸在O2O时,马云却谈起了大数据,很是时髦。

在马云眼里,iDST于阿里,就像微软亚研和IDL,定位是侧重底层技术研究机构。如果把各业务部比喻成拼杀于战场上的江湖派,那么iDST则更像是学院风。

大数据一词,在那会儿还没有明确的定论,iDST的使命之一就是定义这个不确定性。

阿里巴巴集团CTO张建锋说到:过去18年来,阿里巴巴的商业做得太成功,掩盖了技术的光芒。而iDST的建立,则是让外界意识到阿里在技术上也有很强的竞争力。自此,iDST被戴上一顶要确立阿里未来数十年技术领先地位的帽子。

由王坚钦点的两大负责人的背景也奠定了iDST的基调:漆远和金榕。

漆远是美国麻省理工学院博士后,普渡大学计算机系和统计系终身教授,全球机器学习顶级会议ICML 2014 和 ICML2015主席,有着将近20年的机器学习研究经验。早在2005年就已在MIT开发大规模机器学习系统使,使用CPU集群并行分析人类基因组数据,解码生物基因组与基因调控网络。

王坚博士找到了还在实验室跑数据的漆远“阿里拥有海量的购物和支付数据,这些数据都是围绕“钱”产生,价值远高于其他数据。你如果来的话,建立超大规模机器学习平台这个伟大任务,就交给你”。

套路像极了乔布斯招募斯卡利的那句话,“你是想卖一辈子糖水,还是跟着我们改变世界?”

iDST的另一位负责人金榕,是美国密歇根州立大学终身教授。曾担任NIPS、SIGIR等顶级国际会议领域主席以及KDD、AAAI、IJCAI等顶级会议高级程序委员会委员,重点研究包括分布式信息检索、机器学习、多媒体数据处理与挖掘等。

其实王坚等人也有一些顾虑,让两个刚从高校出来的教授去带队,似乎还不是时候。

于是在2014年引入涂子沛,统筹整个iDST部门。iDST隶属于阿里巴巴集团,涂子沛直接向王坚汇报。

CMU博士出身的涂子沛,赴美前曾在武警边防部队、政府部门工作10年,期间开发全国第一个反偷渡遣返信息管理系统,赴美后,先后担任美软件公司数据中心主任、亚太事务总监、首席研究员等职务。

涂子沛在阿里的经历跟吴军有些许相似,同是海归技术大牛、同是畅销书作者、同是副总裁职位,而且两者在阿里和腾讯的最终走向也颇有几分相像。有意思的是,涂子沛名片上的职位只写了阿里巴巴集团副总裁,从未有过任何与iDST有关的职务。

三架马车体系成立后,在强大的号召力下,多位高级科学家陆续加盟,并在美国西雅图、硅谷、北京、杭州等地组建科学团队,推进前瞻性研究。

涂子沛曾回忆到,当时漆远带中国团队,金榕负责美国团队,而他主要负责商业和数据经济方面的研究。

然而,“确立阿里巴巴集团在未来数十年的领先地位”这一使命,在极其看重投资回报比的阿里团队中,发展轨迹逐渐开始偏离。

2

脱离业务线只做纯粹的基础技术研究,使得iDST上下的研究缺乏目的性,很多人也不知道自己的算法、模型要解决哪些具体问题。漆远向王坚提交的几千台服务器申请建立超大规模机器学习平台的方案也在讨论之后被公司否决。要知道,“建立超大规模机器学习平台”这一重大项目最初是王坚在吸引漆远加盟iDST的重要条件。

为了寻求商业场景,2015年7月,iDST的人马便进行了调动,几位领导者相继被调入业务部门:漆远被调入蚂蚁金服;金榕调入淘宝天猫搜索部门;语音团队继续留在阿里云;而涂子沛在15年以后也很少以阿里的身份对外发声,个人介绍也默默改为前阿里巴巴集团副总裁和观数科技创始人。

这次重大调整的目的很有针对性,让这批研究和学术属性强的研究者去深入场景、接触业务线,而非只专注于积累未来的前沿技术。

其中大部分员工去了阿里云,iDST也随之隶属于阿里云。

当时的阿里云刚刚结束重大人事调整,原蚂蚁金服首席风险官胡晓明开始出任阿里云总裁。

胡晓明的来头与上述几位的画风颇为不同,虽然也是技术出身,但从中国建行和光大银行出来的胡晓明,商业嗅觉更加敏锐。在两家银行工作期间,其在个人金融业务、微小企业融资、网络信用体系等业务方面拥有丰富的经验。加入阿里后创建了阿里金融(基于大数据为小微企业提供信贷服务),被视为国内“互联网+”金融的早期雏形。

阿里云内部员工如此评价胡晓明,其中很重要的一个标签是“他是一个商人。”

商人领头,归属于阿里云的iDST员工从过去的技术范儿变得越来越接商业地气。

3

余凯曾在雷锋网的一次专访中说到这样一句话“科学家一定要对商业和实际需求抱有充分的敬畏之心。”

可喜的是,被发配到金融和电商业务第一线的漆远和金榕,似乎并没有遇到很多科学家都会面临的“技术商业化”水土不服问题。

漆远去了蚂蚁金服后,包揽了6项阿里巴巴集团算法大奖(共16项),其中包括他曾在iDST一直想做但没能批准的超大规模机器学习平台。

金榕在技术落地中的表现也非常出色,他打趣到,自己和团队在天猫搜索部门的经历,犹如知识青年上山下乡。虽然很苦,但真正体会到用技术去解决业务问题,比想象中复杂很多。2015年,金榕的团队拿到了集团CEO大奖,团队也扩展到了120人左右。

在经历了无数历练,以及建立起业务研究团队后,所有人打心底依旧惦记着曾经的iDST。

之后,集团CTO张建锋把此前拆分到各个业务部门的iDST,重新拼装起来。iDST从阿里云重新上升到集团,新任iDST院长就是金榕。2016年阿里巴巴组织部大会中,王坚也不禁感慨到“iDST又回来了。”

当时阿里让iDST重新归属于集团的重要目标就是,让这些已经有了一定业务经验的研究员,一边搞底层技术研究,一边与其他部门联手推进业务,其中非常重要的一个合作对象就是阿里云的闵万里团队。

闵万里领导着阿里云人工智能孵化团队,最早期孵化的项目包括广为人知的小Ai机器人。小Ai机器人在2016年3月份击败全球速记亚军,一个月后又成功预测出《我是歌手》的结果,马云也多次为其站台,名声大噪。

小Ai机器人在阿里云扮演的角色更像是一个吉祥物,让外界通过小Ai来了解他们的AI技术已经趋于成熟。在打响阿里云AI的名声之后,小Ai机器人也全面升级为ET机器人和面向企业的ET大脑。

此前,闵万里团队已结合客户的需求,孵化出ET工业大脑、ET医疗大脑、ET城市大脑等,商用使用效果也十分可观,而这些产品背后的很多底层技术正是源自iDST。

4

2016年7月,微软亚洲研究院华先胜加入iDST,华先胜在业内名气不小:IEEE Fellow、ACM2015年度杰出科学家、MIT TR全球35位35岁以下的杰出青年创新人物。

在加入阿里初期,华先胜也并没有从事基础技术研究,而是直接去做基于电商业务的以图搜商品功能“拍立淘”,积累好业务经验后,在王坚的引导下,华先胜全权负责全新的城市大脑“城市之眼”项目。

上个月,雷锋网记者在与华先胜的交谈中问到iDST未来将会在哪些前沿技术上做重点布局时,华先胜笑着说到“我先想想哪些技术能对外讲。智能交通中一些复杂问题将是我们未来重点攻克的难题,同时也会布局一些前沿的基础视觉技术,但目前一大问题是我们人手不够。”

华先胜这里透露了两个关键点,一是智能交通项目会是iDST未来的重头戏,二是他们急需要招人。

而就在三天前,亚马逊前资深主任科学家任小枫重磅加盟阿里巴巴iDST一事,正式对外公布,担任首席科学家和副院长,负责西雅图团队的搭建。

雷锋网了解到,任小枫于2006年获得加州大学伯克利分校博士学位,导师是计算机视觉领域内大名鼎鼎的Jitendra Malik教授。毕业后的任小枫便进入了芝加哥丰田汽车研究院,主要进行目标跟踪与人体跟踪、人脸检测与跟踪、图像分割、人体姿态分析、运动与光流研究。

2008年,进入英特尔西雅图实验室,从事做传感项目,以及计算机视觉在活动识别和监控、机器人技术和人机交互上的应用。在研究期间,和他人共同开创了计算机视觉的两个新方向:RGB-D感知和以自我为中心视觉,将目标识别,场景理解,目标位姿估计,边界检测做到了业界最好。并且构建了实时目标识别、场景理解、三维建模、增强现实和机器人传感的演示。

2013年进入亚马逊担任Amazon主任科学家,并负责无人零售店Amazon Go的项目。

这里会发现,任小枫过往的研究经验,与华先胜谈到的智慧交通项目非常匹配。而任小枫的加入,也会对iDST招揽人才起到很大作用。

同时作为Amazon Go的负责人,后续任小枫搭建阿里无人零售项目也不无可能。

任小枫在西雅图设厂的手段,跟俞栋在微软门口建立实验室如出一辙,都是冲着人才。亚马逊曾在2015年收购了华人留学生创办的CV公司Orbeus,两年后的今天,前Orbeus首席科学家夏威等人依然在亚马逊计算机视觉团队中,并且培养了一批优秀华人研究员。而这批华人研究员,无疑是任小枫的重点招募对象。

业务起势,人才招募有盼头。

对比过去三年的iDST,现在的他们是最佳状态的iDST,技术、商业体系更加完整、成熟。经历过一系列变革后的iDST最终会走向何方,就看金榕、华先胜、任小枫三人联手后能打出什么牌。


雷锋网

带你逛MWCS 2017:带温度的触觉反馈套装是什么样?

6 月 29 日,MWC 上海展的第二天。今天,雷锋网编辑特别体验了一些 E1 馆展出的 VR/AR 内容(也就是几乎被 HTC Vive 占领的馆)。

现场,雷锋网见到了一些带有力反馈的交互外设,有的团队展示了通过人脸识别在手机上呈现的 AR 效果,同时,内容方面除游戏外,有针对足球训练的,有针对广告的,有专门面向 K12 教育的,还有的是缓解压力的……因为 E1 是体验馆,现场看到很多家长带着孩子在排队体验。

由于时间紧张,雷锋网只介绍些印象比较深刻的体验。

骁龙835一体机

在 W4 展馆,中科创达带来了骁龙835 一体机参考设计头盔。现场体验的内容很简单,在一个洞穴中,你能看到面前有一只龙,最明显的感受是画面清晰,左右来回晃动,没有发现明显的延迟,体验还是不错的。不过,像眼球追踪、手势识别在这台头盔上并没有呈现。

侧面有一块触摸区和返回键,可以简单交互,上方有一排散热孔。

看到镜片周围已经加入了眼球追踪,但还需要内容来支持。

这是骁龙820的头盔设计方案,加入了手势识别。

左边两台是骁龙820一体机(左一没有手势识别,左二带有手势识别),最右边是骁龙835一体机。经对比,雷锋网发现835一体选择了更大的镜片,体积也明显大了一圈,视场角达到 110 度,820一体机的视场角为 95 度。

另一个角度看镜片确实要大很多。

TPCAST 多人无线方案

在 E1 展馆中,HTC Vive 最大的展台前围了不少人,昨天排队体验的主要是《变形金刚》。现场,两名玩家使用了 TPCAST 的多人无线 VR 方案,实际上根据此前 TPCAST 公布的消息,多人无线方案最多可支持六人使用。另外还使用了 Ivreal 公司的 MR 拍摄,也就是围观的人可以通过大屏幕看到玩家眼前的场景。

bHaptics:带温度的触觉反馈


一家名为 bHaptics 的韩国团队带来了一整套的力反馈套装,包括一个背心和两个绑在手臂上的震动装置,最大的亮点是除了震动,游戏中你与对手枪战时,手臂还能感受到微微发热。

这两个是绑在手臂上,通过上方圆形的控制器来进行开关设备。

能看到一排排的震动传感器。

据团队成员介绍,他们成立于 2015 年,团队成员只有四名,该力反馈套装研发了两年的时间,现在基本是成品了,但是背心的外形可能之后还会改变。现在,他们主要将这套设备发售给内容开发人员,并不针对消费者。之所以加入温度反馈,是希望将 VR 体验更提升一层。另外,背心和手臂的震动带可以分开卖。

开为科技的 AR 拍照

这位阿姨的演示是不是很熟悉?KiWi 团队(开为科技)专注于基于摄像头的捕捉与跟踪技术、三维图像建模以及视觉特效。现在有不少相机可以在拍照时加入 2D 的特效,像 Faceu、美拍等都是大家熟悉的拍照软件。

KiWi 能实现 3D 的视觉效果。他们专门摆放了两个体验区,一个能呈现普通的 2D 效果,一个是 3D 效果。3D 效果对脸部的识别更准确,头部来回转动时,稳定性更好一些,而且在各种道具上能增加一些类似闪光的效果,还可换成其他人物的脸,抬抬眉毛,动动嘴,这些面部动作也可以识别出来。

工作人员介绍说,本以为只有年轻人喜欢,但这两天不少年纪稍大的人也会过来玩。目前,他们已经上线了一款 2D 版拍照 APP,还会面向一些视频应用,这些应用加入他们的 SDK 后,视频主播们直播时,可以呈现各种效果。未来,有可能跟手机商合作,将他们的 SDK 直接植入到手机自带的相机里。

Senso 手套

Senso(森搜)展示的是一双无线力反馈手套,戴上手套后,触摸 Demo 中的物体,可以感受到指尖和手背的震动。因为有震动,你能感受到物体的位置。

他们不仅提供手套,还有一个套装(Senso Suit),据介绍,套装是一套跟踪模块,每个模块上有 IMU、震动马达,可支持 SteamVR 追踪,并产生触觉反馈。

VR+教育

很多小朋友们在体验,有的内容游戏性比较强。

VR+足球训练

SoccerDream(足球之梦)做了一款关于 VR 足球训练的内容。根据介绍,除了体能和技术,他们还注重认知方面的训练,采用 Ekkono 方法开发出多种 VR 场景,训练球员的核心认知能力,目前已经在巴塞罗那实验室中证明球员可以提高其真实比赛水平。

他们也向俱乐部出售训练工具,团队成员包括前巴塞罗那足球学院的教练。

关于体育训练的VR内容目前比较少,从现场其他人的体验来看,画面里会出现一些指令,体验者跟着指令操作,不太会有真正的踢球训练。

总的来说,与去年相比,很多行业应用发展迅速,VR游戏的类型越来越多,现场能感受到大家玩的热情高涨。

雷锋网

看一遍你也会做!用英伟达 DIGITS 进行图像分割(上)

DIGITS 是什么?

7 月 8 日,英伟达深度学习学院 DLI 线下训练营即将来到深圳,主题是图像分类、目标检测与图像分割的零基础开发入门。

虽然是全球范围内顶级的 AI 培训项目,但 DLI 进入中国的时间太晚,中文网页也才上线没多久,导致国内开发者只知英伟达的显卡,却不知道英伟达有线上、线下的 AI 技术培训。此前雷锋网曾撰文介绍过 DLI,详情戳这里

闲话少说,本期深圳 DLI 训练营主要用到 DIGITS 和 TensorFlow 两个工具。TensorFlow 大家都知道,不必介绍。但对 DIGITS 就很陌生了,它是什么呢?

DIGITS 是英伟达为普及深度学习开发的图形化操作界面,简单易用,旨在帮助初学者跨越入门障碍,迅速上手。因此,DLI 的入门培训均要求学员从 DIGITS 起步。 

说白了, DIGITS 就是一个新手工具。但由于 DLI 刚刚进入中国,关于 DIGITS 的教程和信息并不充足,为初学者带来信息鸿沟。 因此,雷锋网对这篇英伟达博客发布的官方教程进行了编译。该教程指导读者用 DIGITS 5 和 Caffe 进行图像分割,它脱胎于 DLI 的线上实验室(online labs)培训课。后者收费且只用英文授课,并不对非会员开放。但大家能从这篇教程对其了解一个大概。

更重要的,7 月 8 日深圳的 DLI 线下训练营,三场主要培训分别是用 DIGITS 进行图像分类,用 DIGITS 目标检测,以及用 TensorFlow 进行图像分割(了解详情请点此。虽然前两场的内容与本教程并不一致,最后一场的难度比本文高出许多,而且用的是 TensorFlow 而非 Caffe,但这篇教程与 DLI 付费培训的内容已十分接近。

感谢三位童鞋朱婷、彭艳蕾与马晓培编译本文花费的心血。

教程:用 DIGITS 5 进行图像分割

去年底,英伟达发布了 DIGITS 5,为 DIGITS又增添了新功能,其中两个是这篇教程非常感兴趣的,分别是:

      1. 完全集成的分割工作流,它能让你创建图像分割数据集,并将分割网络的输出结果可视化;

      2. DIGITS模型商店,它是一个公共的在线资源库,你可以从中下载网络说明以及预训练的模型。

本文将探索图像分割这一主题。对于SYNTHIA数据集里合成图像中的汽车、行人、路标以及各种其他城市物体,我将用DIGITS 5 训练神经网络进行识别和定位 。

图1 是预览,这就是你将通过本教程学着做的东西:

图1: 使用 DIGITS 5.0作图像分割的示例可视化。这交替显示了输入图像、 FCN-Alexnet 预测结果的叠加、 FCN-Alexnet预测结果与ground truth的叠加。

从图像分类到图像分割

假设你想为自动驾驶车设计图像理解软件。你可能已经听说过Alexnet [1], GoogLeNet [2], VGG-16 [3]以及其他的图像分类神经网络架构,所以你可能从这些着手。假如有一个小狗的照片,图像分类,就是一个让计算机告诉你图中的旺就是旺的过程。

图像分类模型的输出是一个离散的概率分布; 其值介于0、1之间,用来表示每个训练类别的概率。图2是在DIGITS中使用Alexnet对一张猫的图像做分类的示例。其结果非常好:要知道Alexnet是在1000不同类别的对象上训练的,包括动物、乐器、蔬菜、交通工具等等。令人震撼的是,在99%的置信区间内,机器能够将图像主题正确归类为猫。即便是我己,恐怕也不过如此,无法进一步分辨出这只猫是埃及猫、花斑猫还是虎斑猫。

图2:来自PASCAL VOC数据集的猫图像的Alexnet分类。

如果一张图片里同时有猫和狗,对它进行分类会发生什么?从常识来看,你可能会相信神经网络对我们最喜欢的这两种宠物图像分类时,将其归为每类的概率相同。我们来试试:图3所示是结果。在预测结果中有猫和狗的混合,但是AlexNet并没有给出50/50分的希望。在中间图像中,在前5名的预测中事实上并没有猫。这真令人失望,但是从另一方面来看,AlexNet是在120万张图像的“小”世界上训练的,在这些图像中只有一个对象,所以不能想当然的期望在多个对象存在的情况下执行良好。

图3 来自 PASCAL VOC 数据集的猫狗图像的Alexnet分类。

分类网络的另一个限制是它们不能分辨出图像中对象的位置。这是可以理解的,因为它们不是被训练来做这个的。尽管如此,这却是计算机视觉的一个主要障碍:如果一辆自动驾驶车不能检测到道路的位置,它没法行驶很远!

图像分割解决了部分弊端。它并不是预测整幅图像的单一概率分布,而是将图像分成多块,预测每块的概率分布。最常见的情况是,图像被划分到像素级别,对每个像素做分类:对于图像中的每个像素,训练网络来预测指定像素的类别。这使得网络不仅能鉴别出每张图像中多个主题类别,还能检测出对象的位置。图像分割通常生成标签图像,该图像的大小与输入图像的大小相等,其像素按照各类类标用颜色编码。图4 所示是示例,在一幅图像中分割出4个不同类别:桌子、椅子、沙发和盆栽。

图4:来自 PASCAL VOC数据集的图像分割示例(白色区域标记未定义的像素,例如对象轮廓和未分类对象)。

在图像分割的进一步细化中,即实例感知图像分割(IAIS),神经网络要学习识别图像中每个对象的轮廓。这在应用中特别有用,它一定能识别出单个类别每一次的出现,甚至在各类之间界限不清晰时也是如此。例如在图5中:中间的图像是图像分割类标,而最右边图像是IAIS类标(注意颜色编码是如何唯一地识别每个人的)。我不会深入讨论IAIS的主题,我将重点讨论实例分割;但是我很鼓励你看看Facebook在IAIS上的SharpMask 工作。

 图5: 图像分割(中)vs.实例感知图像分割(右)。图像来自PASCAL VOC数据集。

让我们看一下如何设计能分割图像的网络。

从CNN到FCN

前一节对图像分类模型和图像分割模型作了区分,前者对每个图像做概率分布预测,后者对每个像素做概率分布预测。原则上,这听起来很相似,你可能觉得它们会使用相同的技术。毕竟,仅仅是问题的空间维度得到了增加。在本文中,我将向你展示,仅仅一些小小的调整就足够将一个分类神经网络变成一个语义分割神经网络。我将使用在这篇论文( this paper)[4]里面世的技术(我将之称为FCN论文)。

开始之前,先说一些术语:我将典型的分类网络,例如Alexnet,称为卷积神经网络(CNN)。这有点滥用,毕竟卷积神经网络除了图像分类之外还有很多其他用途,但这是一种常见的近似。

CNN中,常见的做法是将网络分为两部分:前一部分做特征提取,数据通过若干个卷积层逐步提取到越来越复杂、抽象的特征。卷积层之间通常有非线性转移函数和池化层。每个卷积层可被看作是一系列图像滤波器,它们在特定模式下触发高响应。例如,图6所示是来自Alexnet第一个卷积层的滤波器的表达以及在虚拟图像,包括简单的形状上的激活结果(输出)(有趣的是,AlexNet将图像分类成一个挂钟!)这些滤波器触发了在比如水平和垂直边缘和角这些形状上的高响应。例如,看下左下角的滤波器,它看起来像黑白相间的竖条纹。现在看一下相应的激活结果以及在垂直线上的高响应。类似地,在右边的下一个滤波器在斜线上显示了高响应。网络更深的卷积层将能够在更加复杂的形状上例如多边形上触发高响应,最后学习检测纹理和各种各样自然对象的组成成分。在卷积层中,每个卷积输出都是通过通过将每个滤波器应用到输入中的窗口上(也叫感受野)计算而来,按该层的步长滑动窗口直到遍历整个输入为止。感受野尺寸大小与滤波器相同。如图7所示,是卷积计算的说明示例。注意,输入窗口跨越了输入图像的所有通道。


图6:Alexnet conv1 l层在DIGITS中的表现。从上到下:数据层(输入);conv1层滤波器的可视化;conv1层的激活结果(输出)。

图7:左:红色表示的输入量示例和第一个卷积层的神经元体示例。卷积层中的每个神经元只与输入空间中的局部区域相连接,但是却连接了全部深度(即所有的颜色通道)。注意,沿深度方向有多个神经元(示例中是5个),所有都连接着输入的相同区域;右:神经元仍然是计算其权值与输入的点乘,然后是非线性函数,但是它们的连接现在被限制在局部空间上。来源:斯坦福大学CS231 课程。

在CNN的第二部分即最后一部分,分类器包含若干个全连接层,第一个全连接层的输入来自特征提取器。这些层学习特征间复杂的关系,使网络对图像内容有高水平的理解。例如,如果有大眼睛和皮毛,网络可能倾向于猫。神经网络能正确理解这些特征,在某种程度上很神奇,但这也是深度学习的魅力所在。这种可解释性的缺乏有时会受到批评,但在这方面,它和人类大脑的工作方式其实有点像:关于你是怎么知道某张图片是一只猫不是狗,你能解释吗?

全卷积网络(FCN),顾名思义,就是只包含卷积层和上面提到的临时非参数层。怎样消除全连接层来建立看起来更强大的模型呢?为回答这个问题,我们来思考另一个问题。

图8:DIGITS中显示的 Alexnet 第一个全连接层(fcn6)的输入、权值和激活函数。

关键问题是:全连接层和全卷积层之间的区别是什么呢?

这很简单,在全连接层,每个输出神经元计算输入中的数据的加权和。相比之下,每个滤波器计算感受野中的数据的加权和。等一下,这难道不是同一件事情吗?——是的,但这仅发生在该层输入的大小与感受野的大小相同时。如果输入比感受野大,接下来卷积层会滑动其输入窗口,计算另一个加权和。这个过程重复进行,直到输入图像被从左到右,从上到下扫描一遍。最后,每个滤波器生成一个激活矩阵;每个这样的矩阵被称作特征图谱。

这提供了一个线索:使用等效的卷积层替换全连接层,把该层滤波器的大小设为与输入的大小相同,并且使用与全连接层中神经元个数相同的滤波器。我将在Alexnet的第一个全连接层(fcn6)上演示这一点:图8所示是感兴趣层的DIGITS的可视化。你可以看到fcn6从pool5中获得输入,输入的形状是256个的6*6的图像。除此之外,在fcn6的激活结果是4096维的长矩阵,这意味着fcn6有4096个输出神经元。由此可见,如果我想用等价的卷积层替换fcn6,我必须设置滤波器大小为6*6,输出的特征图谱的个数为4096.说一个小小的题外话,你认为该层会有多少可训练的参数?对于每个滤波器,都有一个偏置项加上感受野中每个数值的一个权重。感受野的深度是256,大小为6*6,因此每个滤波器有256x6x6+1=9217个参数。因为这里有4096个滤波器,该层共有37,752,832个参数。这正是DIGITS中fcn6拥有的参数个数。到目前为止,一切都很顺利。

在实践中,很容易替换该层。如果你使用Caffe,仅仅用表1中右边的定义替换左边的定义即可。

有了这些知识,现在你可以开始将Alexnet中的所有全连接层转换为相应的卷积层。注意,你没必要使用DIGITS计算这些层的输入的形状;你可以手动计算出它们。尽管这听起来很有趣,我确信如果你在VGG-16的16个层(加上中间的池化层)上做这些,你将失去耐心。更不要说你会不可避免地丢掉你的演算纸。此外,作为一个深度学习爱好者,你应该习惯让机器来做这些工作。所以让DIGITS为你效力吧。

由此产生的FCN与基础的CNN有着相同数量的可学习参数,相同的表达能力和相同的计算复杂度。鉴于输入相同,产生的输出也相同。你可能会想:为什么要转换模型这么麻烦呢?是这样的,CNN的基础“卷积”引入了太多的灵活性。模型不再受限于在固定输入大小上(在Alexnet中224*224的像素尺寸大小)操作。它可以像滑动窗口一样,通过扫描整个输入来处理更大的图像,不是对整个输入产生一个单一的概率分布,而是对每个224*224的窗口,模型会生成一个概率。网络的输出是一个形状为KxHxW的张量,这里,K表示类别的个数,H表示沿纵轴的滑动窗口的数量,W表示沿横轴的滑动窗口的数量。

在计算效率方面:理论上,你可以通过重复选择图像的块以实现简单的窗口滑动,然后将这些块输入CNN进行处理。在实践中,这在计算中非常低效:当你逐渐滑动窗口时,在每一步上仅仅能看到少量新的像素值。然而,每个块都必须由CNN完全处理,即使连续的块之间存在大量的重叠。每个像素值最终会重复处理很多次。在FCN中,由于那些计算都发生在网络内部,仅仅只有最少量的操作需要执行,整个处理速度要快的多。

总而言之,这是一个里程碑:在分类网络的输出上增加两个空间维度。在下一节,我将展示如何进一步改进模型。

(未完待续)

via nvidia,雷锋网编译

雷锋网

Google、Facebook 先别呵呵,身价大涨后的亚马逊或成第三大广告巨头

(雷锋网注  图片来源:彭博社商业周刊)

雷锋网按:自亚马逊市值大涨之后,其在广告市场的潜力也让巨头们介意不已。在今年法国举办的戛纳广告节上,除了Google、Facebook这两大广告业务的巨头之外,亚马逊理所当然也以“全球未来数字广告业务第三大巨头”的身份与WPP、Interpublic Group等此类行业巨头比肩。

过去,亚马逊作为全球最大的线上零售商,但其广告收入却远远落后于Google、Facebook,甚至微软。细究而言,虽然亚马逊在其所有的商品销售页面都能投放广告,但是在其网页上却远远缺少广告价值挖掘的空间。

而这一切,都在慢慢开始发生变化。第一,亚马逊对消费者的用户习惯和购买行为都有精准的数据储备,其次,亚马逊正对其广告业务进行一系列的战略、策略调整,如以137亿美元收购全食超市。

近期,亚马逊又将专注重点放在突出显示的搜索结果和横幅广告。该公司目前正在强调更多的选择,比如优惠券,可把愿望清单添加到项目列表中的嵌入式按钮,提供每月定期订单,可向其他网站投放广告的网络服务。其中一些服务甚至可以用于不在亚马逊销售的品牌。

基于此,虽然从今年6月份发布的数据来看,Google和Facebook已经垄断了美国85%的线上广告,亚马逊仅占美国整体在线广告市场规模的4%,现阶段在广告销量上也没有大的突破。但投资公司BMO Capital互联网分析师Daniel Salmon认为,亚马逊广告业务正获得动能,2017年收入将同比增长65%,达到35亿美元,2024年广告业务价值将达到人民币10336亿元。

和上述报告持相同观点的还有 Emarketer,不过其预估的上涨程度稍低于前者。 Emarketer预估亚马逊今年的广告营收将跃升1/3,达到15亿美元,到2019年将达到24亿美元。相比之下,Google 2016年产生的广告收入已超780亿美元,而报道表明 Facebook 去年在此营收270亿美元。虽然亚马逊暂未回应此事,但其CFO Brian Olsavsky 在随后举行的电话会议上向外表示,“我们对广告业务的增长感到十分满意。”

从另一方面来看,相比Google和Facebook,作为全球最大线上零售商这个身份也赋予了亚马逊一些天然的优势。

其一,亚马逊通过其电商平台获得的消费者数据,就是前两家巨头难以比拟的。亚马逊不仅知道用户搜索了什么,也知道他们购买了什么,所以就有更好的机会预测消费者的下一步购买行为,有助于满足品牌在其网站或其他网站上投放广告的需求。特别是近期对全食超市的收购,使亚马逊进一步加强了这一优势。

其二,亚马逊本身作为购物网站,用户看到广告不需要离开页面即可购物。而在Facebook、Google上则需要二次搜索动作。WPP的 GroupM 全球搜索负责人 Edward Foster 对此提供了一项数据。过去一年来,其广告购买业务(以高露洁和联合利华为代表)的客户每个月在亚马逊搜索广告里的花费增长了10-15倍。Foster表示,“这绝对是一种爆炸式的增长”,用户资金正从Google和微软 Bing的付费搜索转移到亚马逊。

其三、亚马逊的搜索引发了客户产品评级的广泛使用,即使对于计划在其他网站买买买的消费者而言也是非常有用的。这使得网站上的广告与实体店和其他网站上的销量有相关关系。众所周知,亚马逊还可以称得上是“品牌安全”的网站,不会在无意中将尿布、手机或袜子的广告与恐怖主义的视频或假新闻并列。

除此之外,亚马逊在其“Sponsored Products”里也蕴藏着极大的广告业务潜力。Salmon 认为,“通常情况下,访问亚马逊的用户都有购物意向。”对于那些希望被具有强烈购买意向的购物者注意到的品牌商而言,这是一个很好的广告位。因此亚马逊 “Sponsored Products”能为广告客户提供非常有吸引力的投资回报。

雷锋网了解到,截至本周一,亚马逊收盘市值已达 4751 亿美元。面对增长如此迅速的市值,再加上其在广告业务上日渐凸显的潜能,让Google和Facebook感受到压力并不稀奇。甚而WPP 集团 CEO苏铭天曾对此发表看法,“亚马逊对大多数领域的渗透性,就算称不上恐怖,也是非常可怕的。”

虽然目前美国线上广告由Google、Facebook分立两端,但照目前的势头来看,亚马逊这匹“黑马”的实力也着实不可小觑,未来突击成为数字广告领域第三大巨头也不是没有可能的事情。

Via bloomberg,雷锋网编译

雷锋网

如何判断自己头上是否有点绿?看威胁情报在甲方企业的应用

雷锋网按:对于企业来说,如何从海量的告警之中发现真正的威胁,使得监控人员能够及时处理,一直是一个难题。本文作者从公司内部的实际案例出发,详细讲述了威胁情报在甲方安全运维中的应用。

本文作者:证通白帽子

很多企业使用 SIEM(安全信息和事件管理) 来收集日志数据,并将安全事件与多类安全设备(入侵检测设备、Web应用防火墙等)日志相关联,用来指导安全人员进行风险处置。然而 SIEM 也存在局限,监控人员往往被淹没在海量的告警之中无从下手,原因之一就是对于威胁的告警没有处理的依据,例如缺乏经验的监控人员很难判定:某一条安全事件告警是扫描还是针对性攻击引起的(通常后者需要更多关注)。而威胁情报不仅可以为监控人员提供处理依据,也可以为安全人员在进行日志分析和攻击溯源时提供有力帮助。

本文将基于 Splunk(一款机器数据引擎),介绍威胁情报在甲方安全运维中的应用。

什么是威胁情报?

根据 Gartner 的定义,威胁情报是指基于一定知识的证据,已经存在或正在形成的潜在威胁,比如,上下文、机制、指标、意义以及可实施的建议,利用这些,可以帮助当事人形成应对这些危险的决策。

针对攻击者的威胁情报应该包含以下要点:

  • 攻击者身份:威胁情报需要能够帮助企业将攻击、恶意活动最终溯源至相应组织(网络犯罪团体、黑客、政府/国家机构等)。

  • 攻击的原因:了解对方动机,以及他们会在攻击中投入多少精力(APT或仅是投机型攻击),针对性有多强等。

  • 攻击的目的:了解攻击者的目的,对于企业和组织基于资产重要性调整响应优先级也是有意义的。

  • 具体做法:包含了攻击者所用的工具、基础设施等。

  • 攻击者的位置 :结合对方所在国家,以及其地缘政治状况,能够帮助企业和组织更好地理解对方情况。

  • 如何组织情报:包括 IOC 一类的技术指标(比如IP地址、哈希值等)提供的信息可用来更准确地检测和标记恶意行为。

  • 如何缓解攻击:企业可用以保护自身的信息。

系统架构

在我们公司,Splunk 主要被用来收集各类安全设备、操作系统、应用系统日志,从而满足安全监控、安全告警、数据分析的需求。

安全设备的日志通过 Syslog 发送,其余存放于操作系统文件系统中的日志通过在客户端操作系统安装 Splunk Forwarder 收集。

通过日志字段提取,我们利用 Splunk 实现了基本的报表和告警。然而正如前文提到的,我们很快就被告警淹没,无论如何调整告警阈值都无法令人满意,于是开始寻找解决方案,通过一系列的选型比较,我们最终决定引入来自微步在线(ThreatBook)的第三方安全情报数据,以 API 的形式与 Splunk 整合。

需要注意的是——威胁情报数据的用量通常是有限制的(如按月计量),因此我们部署了前置系统作为本地威胁情报库,用以缓存查询结果,同时,我们还顺带实现了专供内部使用的 Web 交互查询界面,后来又顺路实现了威胁历史信息的记录:所有产生过告警的威胁都会被记录,并且可被关联搜索。如下图所示:

威胁情报分析界面图,威胁情报数据来自微步在线ThreatBook API

随着威胁情报数据的应用,我们逐渐信任了数据的准确度,并开始研究威胁 IP 自动阻断方案。由于在网络建设时并没有这个需求,因此我们的首要目标是:在网络中寻找是否有串联设备支持通过调用 API 的方式来达到 IP 阻断的目的。最终,我们在一台抗 DDoS 设备中发现了这个功能,并按照手册要求的数据格式实现了接口调用。

系统架构示意图如下:


技术要点

日志字段提取

日志字段的提取是最基础,也是最重要的步骤,后续所有的工作都是基于正确的日志字段提取之上。

Splunk 提供了傻瓜式的字段提取功能,只要展开任意事件,点击“事件操作”,选择“提取字段”即可进行提取,提取完成后可自动生成正则表达式。

对于一些比较复杂的日志格式,Splunk 的自动化提取可能就力不从心了(又或许你对自动生成的正则表达式嗤之以鼻),我们可以手写正则表达式,并在“设置-字段-字段提取”中保存。

Splunk 的字段提取

对于临时使用的需求,也可以在搜索中使用 rex 命令对事件应用正则表达式:

rex field=some_field "(?<capture_name>.*)"

对于一些以键值对形式输出的日志,可通过 extract 命令进行提取,十分方便:

extract kvdelim="=" pairdelim=";" 

威胁情报库查询

威胁情报库的查询使用了 Splunk 的 lookup 命令,通过给 lookup 命令传递一个查询值从而获得对应的查询结果。

lookup 的典型使用场景之一是根据日志中的 IP 地址来查找对应的资产:由于日志中不包含资产信息,而我们又希望通过 IP 地址快速定位到相关资产信息,此时就可以建立一张资产表,上传至 Splunk,在“设置-查找”完成配置后,即可通过 lookup 命令进行搜索。

lookup asset_table ip_addr AS dst_ip OUTPUT asset_info

而在使用 lookup 对威胁情报进行查询时,则需要用到“外部查找”功能,原理类似于动态生成一个查找表文件。外部查找功能需要调用命令和参数,Splunk 的默认安装中提供了一个名为“dnslookup”的外部查找,可以用来参考实现自己的外部查找。

威胁情报查询外部查找脚本的部分实现代码如下:

威胁情报查询语句如下:

stats count by client_ip server_ip | lookup iplookup ip as client_ip OUTPUT info as _TI | spath input=_TI

此处首先使用了 stats 命令统计事件数据,随后使用 lookup 命令对统计完成的数据进行威胁情报查询,这样的处理方式可避免重复的查询,降低系统和网络开销。最后,将 lookup 命令查询返回的 JSON 格式数据使用 spath 命令解析。

威胁情报数据解析

对于 IP 的威胁查询接口,一个恶意的 IP 通过 API 查询返回的示例数据如下:

{"response_code":0,"hit":{"expired":false,"detected":true,"info":["zombie","idc","compromised","spam"]},"ip":{"carrier":"1and1.com","ip":"82.165.37.26","location":{"country":"德国","province":"德国","lng":"10.454150","city":"","lat":"51.164181"}}}

字段说明如下:

有了字段信息,我们需要把 JSON 字符串解析后再进行下一步判断。Splunk 提供了 spath 命令,可以将此前 lookup 返回的内容作为 spath 的输入,并最终输出解析完成的数据。如下图所示:

防火墙自动阻断 API 调用

防火墙的 API 调用和触发通过 Splunk 的“搜索、报表和告警”实现。通过在 Splunk 中创建定时任务,对一定时间窗口内的日志进行分析,结合威胁情报数据返回判断结果,以此为依据决定是否触发阻断脚本。

应用场景

所有的技术问题都已解决,后续的工作只剩下两块:利用威胁情报数据丰富现有查询结果,以及使用新的思路实现原本无法实现的效果。

我们为此前所有与来源有关的告警都添加了威胁情报信息,监控、安全人员在第一时间就可以大致评估事件的严重性。

优化模型

有了 IP 地址威胁情报数据之后,我们可以用这些数据帮助评估当前面临的安全威胁的严重程度,并以可视化的方式呈现出来。实现方式为:以一定维度(如时间、IP 地址、类型等)聚合安全事件,对聚合的事件做基于 IP 地址的威胁情报查询,随后套用特定的模型并呈现。

自动阻断

威胁情报也为威胁程度的判断提供了依据,通过定时任务,当发现高危威胁且威胁来源 IP 地址符合预定义的条件时,即触发脚本调用防火墙 API,实现黑名单 IP 地址的网络层自动阻断。

DNS

我们也使用了威胁情报提供的域名威胁情报查询功能,在 DNS 服务器中开启了 DNS 调试日志并转发至 Splunk,对匹配的恶意域名解析请求可及时告警。同时计划实现将恶意域名自动解析到本地的功能,以最大限度避免威胁的扩散。

结语

目前我们在威胁情报的应用还处于摸索阶段,只发挥了其中一小部分的能力。从威胁情报信息的分类角度,威胁情报除了 IP 地址情报、DNS 情报,还可提供文件哈希情报等信息;从威胁情报的要素来说,我们当前只使用了攻击者身份、攻击者位置等基本信息。相信如果更全面地利用这些信息,可以为安全从业者们提供全新的安全视角、更广的安全视野,甚至会对工作方式、工具产生革命性的提升。


雷锋网