前 Amazon 中国研发中心架构师蔡超:工程师在 AI 实践的路上,可能会踩到这些坑

雷锋网 AI 研习社按:蔡超,移动营销平台 Mobvista 汇量科技技术副总裁,前亚马逊中国研发中心架构师,拥有 15 年软件开发经验,其中 9 年任世界级 IT 公司软件架构师/首席软件架构师,曾领导开发了亚马逊全球新外部直运平台,亚马逊物流 + 系统及基于机器学习的亚马逊全球客服系统智能化项目。

此文为蔡超在全球人工智能与机器学习技术大会(AICon)上演讲,雷锋网 AI 研习社做了不影响原意的编辑。

以下为雷锋网 AI 研习社整理的演讲全文:

有很多工程师想要投入到人工智能的实践中,最常见的学习过程大概有两种:一种是看到很多的公式就一头扎进去,花时间去研究每一条公式;二是把人工智能看成一个黑盒,就像全自动洗衣机一样,将数据或者一些 csv 文件放到黑盒里面,然后就等结果出来。基本上常见的学习方式就是这两种。 

那么我们到底应该怎样学习人工智能?我们先来看看人工智能学习和时间过程中的一些陷阱。

第一,大家一直比较强调模型的 accuracy,初学者认为,准确性可能是一个非常重要的 metric。这里我有个例子,这个模型能够预测未来两周里购买商品的人数。它的准确性有多高呢?经过简短的训练可以达到 98%。我觉得很纳闷,因为这个数据其实并不是这么容易就能预测的。

后来我把他们的数据找出来看了一下,通过两周的历史数据预测,我们发现在一百万的抽样人群里,会有两千人会购买。那么我们来看一下,如果一百万人里面只有两千人会在未来两周购买商品的话,即使你永远回答 no,永远不会购买,你的准确性都有 99.8%,大于它摸索训练出来的 98%。

 有意思吗?这只是一个小例子,这样的事情经常发生,在统计学上,这样的数据叫做 no information rate。如果你希望你的模型有意义,那么它的 accuracy 应该大于 no information rate,对吧?

当然,衡量我们机器学习模型的 metric 有很多,accuracy 只是其中一个方面,我们在判断模型好坏的时候不要陷入到这个误区当中,应该根据我们自己的 case 寻找合适的 metrics。

 

第二个误区,是数据和模型之间的关系。很多初学者对模型有中天生的热爱,他们喜欢学习各种 fanshion 的模型,拿到一些数据之后,他们就找特定的模型来训练,比如最近流行的 Xgboost,反正很多人参加比赛都是用 Xgboost 赢的。

大家在试完一个模型之后看看结果行不行,不行的话再换一个模型试试。每个模型有很多的参数,在加上模型本身,就会形成很多 combination,很多人每天就在浩瀚无边的模型和参数的 combination 里游弋,最终也不一定能够得到一个很好的结果。

很多初学者一开始最常犯的错误是认为模型是第一位的。下面我们通过一个实际的案例来看看到底是数据重要还是模型重要。 

这个例子来源于我做过的一个真实项目。亚马逊的用户不论是给亚马逊哪个 site 发邮件,亚马逊的 custom service 都会自动回复一封非常制式的邮件。你也许会觉得,它就是一个邮件模板,通过修改部分用户信息而生成。其实全球亚马逊有 10 万个这样的邮件模板,亚马逊总能在这10 万份邮件模板中找合适的模板来处理你的 case,但这也是件很麻烦的事,因为很难找到合适的模板。

有人会认为这又什么难的,Google 上有成千上万条信息,用户只要搜索关键词就能 match 到想要的信息。但亚马逊不一样,亚马逊的业务只涉及很少的几件事,可是有 10 万个模板,当你输入一个关键字时,相近的模板会全搜索出来。我们全球亚马逊的客服人员平均工作年限是七个月,所以说大部分都是新手,对于他们来讲,筛选这些模板非常困难。

有开发者会想,这不就是分类问题吗?我们找一个分类的模型把这些事办了不就行了?我不知道大家是否有共识,就是大家在看吴恩达的机器学习课程或者网上的分类问题例子,都是在讲患者是否得癌症,明天的天气怎样,分类数比较少,甚至是二分类。

其实有句话是这样说的:只要能把一个问题抽象成二分类的问题,那么基本上就胜利了一半。我们刚才谈到,我们有十万个模板,那就是十万分类问题,或者说你想要缩小范围,比如十个模板分一类,那也有一万个分类,这处理起来也是非常困难的。

回到这些模板的使用数据上,我们发现 TOP 10% 的模板其实能够 cover 到 80% 的 case,甚至是 80% 以上的 case。那么我们后来怎么做的呢?我们用上周 TOP 10 的模板为下周做推荐,这样的准确率能到 56%。后来我们在此基础上叠加一些学习算法做更有效的筛选,最终的准确性能够提高到 80%,这是一个非常不错的成绩。

通过这个例子可以看到,我们并没有去寻找 fanshion 的模型,而是从数据出发,通过数据就能解决很多问题。在现在这个大数据机器学习的时代,大多数情况下,你都会发现数据远比模型重要得多

另外,还有一个误区,大家在训练模型的时候喜欢找很多的 feature。大家总以为 feature 越多越好,把 feature 之间的组合关系做得非常巨大。我在网上找了一个广告的数据集,这个数据集很多书籍都在用,那我通过这个数据集来告诉大家, feature 和模型优劣的关系,是不是 feature 越多你的模型就会越好呢? 

这个数据显示的是在电视、收音机、报纸上投放的广告 sales 的预测。你们可以看到第一个 sales 就到代表我利用的所有 feature。那么做完之后,我们看到 PPT 的下脚,它的均方根误差 RMSE 是 1.723615。那 Rsquared 是什么呢?我简单解释下,它是用来标识这个模型的拟合程度,取值在 0 和 1 之间,越接近于 1,拟合程度越高。 

当我们把 newspaper 的 feature 去掉的时候,我们发现 RMSE 从 1.723615 降到了 1.676055,Rsquared 也得到了一个提升,变成了 0.8975927。所以说,我们在减少 feature 的情况下有时候会得到更好的效果。 

另外一个误区,很多人在学习机器学习之后,认为机器学习都应该是监督学习,而第一件是就是要找标注好的数据。其实机器学习本质上来将就是从数据中找出 pattern,并不是所有的问题都适合用监督学习解决。Cluster,聚类,就是非常重要的一种学习方式,其实还有关联关系等,在这里我们简单介绍下聚类。 

这是亚马逊网站上的客户反馈,通常情况下,不同的人对于各个商品有不同的关注度,比如说买相机,有人关注镜头,有人关注成像质量。那么每个人在挑选相机的时候就会有不同的侧重,关注点会不一样。

大家可以看看,下面这个页面和前一个页面有一点点不同,橘黄色框选中的地方是 Topic 栏,系统会自动 extract 你关注的 topic,上面列出来的也是跟所关注的 topic 相关的。这是通过聚类的方式完成的,聚类是机器学习的一种,但不是监督学习。 

OK,下面我们来讲一讲机器学习应用和实践中的一些挑战。

第一个是比较常见的挑战,我相信很多人都遇到过这个问题,比如你要做一个异常检测,监测每个应用系统是否发生了异常,那么在 99% 的情况下,甚至是 99.99% 的情况下,这些系统都不应该有异常。如果,50% 的系统有异常的话,那该系统根本就没法上线。那你知道的,我们一般用 imbalance data 去训练的时候,都会呈现出我们刚才所说的,类似 accuracy 那样的情况 

开发者训练一个模型,从整体上来看会倾向于获得高 accuracy,在这样的情况下你的模型就没法获取你想要看到的那个异常,这种模型非常难训练。在一般情况下,开发者会采用 scale up 或者 scale down 的方法,就是说我去将这个问题的数量复制一下,或者是生成一些重要的调档。有个数据是 1:5 或者 1:3,我问西雅图的同时为什么是这个数据?他们说:「It's 啊magic number」,没有证据证明为什么,但是这个数据总能获得成功。但整体而言,这个问题都是非常困难的,以 scale down 为例,你 scale down 的时候会失去大量的数据。 

接下来我们在看看,有时候我们并不需要用传统的监督学习来解决问题,有种技术叫做 Anomaly Detection 

CPU 或者是 Memory 利率的分布有可能是一个正态分布,或者经过 log 变换后变成一个正态分布。正态分布一个很大的特点就是两个方差之外的可能性只有 5%,你可以认为这个 5% 就是异常点,甚至你可以将两边扩展到三个方差,进一步缩减异常点的范围。如果你们的 CPU 和 Memory 是独立变换的话,你只要把它们相乘就行了,这是非常简单的。

当你有大量的数据,数据集的正样本数和负样本数悬殊很大的时候,应该考虑下研究它们的分布,看看能不能用 Anomaly Detection 分布既简单又高效地解决问题。

 

如果样本数相差不太大的情况下,当然,我们可以尝试使用传统的监督学习。

还有一个对初学者常见的挑战,我们找一个模型并不难,有很多现成的模型可用,甚至我们可以借鉴别人训练好的模型权值,但是对于一个初学者来讲,困难的是 feature 的预处理

当我们拿到 feature 的时候要把它中心化、缩放,我们刚才也谈到了,feature 不是越多越好,我们要选择有效的 feature,将这些 feature 组合在一起。更常见的是一些异常值和丢失数据的处理,这些需要很高的处理技巧。 

这里我给大家一个小小的建议,当你想快速实验一个不太拿手的模型时,我建议使用树模型,尤其是 Random Forest 模型。Random Forest 能够自动帮你筛选这些 feature,而且会告诉你 feature importance。

好,下面我们谈一些更具挑战性的问题,我会用实际项目给大家解释这些挑战。

 

第一, 有些图片在某些国家和地区是不能出现的,比如在有的地方展示内衣时,是不能穿在人身上的。面对这样的情况,我们可以对图像做变形、模糊化等处理,由一个样子变成多个样子。 

另外一个挑战是什么呢?你的标注数据较少,没办法做更多的实验,目前来说有没有深度学习网络的 bible 或者是一种 pattern 来告诉你最佳的结构是什么。只是大家不断地在探索。 

相关的 paper 有很多,大家随便拿一份 paper 来看,讲的都是作者用一个数据集的时候取得了一个非常好的效果,然后把这个 structure 粘贴上来,但是并不知道其中的原理。这样的 paper 非常多,昨天我听一个老师说,现在高中生都能写一篇论文发表,我看也有这个趋势,因为大家都不太追求解释这个 Why。

那么在这样的情况下可以使用一些现成的,良好的模型,一方面可以弥补训练数据的缺少,另一方面可以弥补在模型构建上经验的缺失。

 

迁移学习是另一种机器学习的方式。它会找到一个现成的模型,在深度学习里较低层模型把 feature extract 出来后,高层的模型可以从较低层的 feature 里把 high level 的 feature 一点一点的 extract 出来。我们可以看到上面这张图片变成 pixel 的 RGB 值之后呢,它的边会被 extract 出来,然后上面会是一些边的组合。

那么最后我来给大家总结一下,如何学习和实践机器学习:我们要从具体问题开始,从数据开始,不要从模型开始,另外,在选择模型时,要从简单的开始。比如现在很多人倾向从深度的神经网络开始学习,而深度神经网络涉及到的权值非常多,你的训练周期会很长,调节的时间甚至是放弃的时间也会更长,会经过非常多的迭代,训练成本也会大好多,所以一定要从简单的开始。

雷锋网

全球首份中美智能驾驶报告出炉,带你体验不一样的投资指南

人们往往以风口来描述一个显著上升期中的行业,但只有很少人能真正察觉到在风口来临之前一批创新者的铺垫。

自2014年开始,雷锋网进入智能驾驶领域的报道。至2017年,毫无疑问所有人都看到了中国、美国、日本、德国等地智能驾驶领域的繁荣。Waymo、Uber相继开始自动驾驶试运营,通用推出可量产的L4级别自动驾驶车型,英伟达发布全球首款L5级别自动驾驶芯片Pegasus……自动驾驶的实现与商业化离我们越来越近。而各国的智能驾驶技术团队又以美国和中国最为集中,并且存在最广泛的应用市场。

在过去的10个月里,雷锋网团队在北京、上海、深圳、硅谷等地密集拜访数百家智能驾驶技术团队,通过一手采访、调研和亲身体验,之后又通过2个月时间梳理和筛选了近100家智能驾驶产业链中关键的技术公司,形成了这份《中美智能驾驶白皮书》。

我们希望通过这近100家公司,向读者全方位展现中美智能驾驶的市场现状、关键技术环节发展情况以及落地情况,我们也希望读者能因此深入了解在这个庞大的产业中的机遇与挑战。以今天的关键技术发展水平为参照,我们希望读者能通过这份白皮书提前看到未来3 – 5年在各个细分环节可能产生的机会和变化。

这可能是目前市面上唯一一份专注于智能驾驶领域一线技术公司创新现状的完整报告。它的独特之处在于:

  • 一线技术公司决策层的行业洞见,尤其是位于硅谷的自动驾驶技术公司。在《中美智能驾驶白皮书》所分析的美国自动驾驶公司中,七成以上均是接受雷锋网直接采访,双方针对技术现状、技术路线、产品化策略进行详细讨论,有相当部分是雷锋网独家采集的内容。

  • 全面、结构化的细分领域解析。“知其然,更要知其所以然”。看到智能驾驶领域的繁荣,更要看到各个关键细分环节是否具有良好的发展,智能驾驶在落地应用之前需要构建一个完善的技术支撑体系。

  • 全球化的视野,洞悉中美自动驾驶的差异。白皮书所分析的中、美公司分别各占约一半,各家也均是当地最具明星气质、最有潜力的公司。通过直观的阅读即可了解两地对自动驾驶看法的区别,以及各自的发展路径差异。

  • ……

本次在《中美智能驾驶白皮书》中,我们选取了13个关键细分领域的约100家公司进行深入解析,每个细分章节均包含:

  • 该领域的整体发展现状和存在问题,

  • 关键创新公司的技术水平、技术路线以及应用现状,

  • 中美两地技术和市场的差异比较。

我们所选的这13个领域,涵盖了智能驾驶的集成方案、关键传感器技术、关键基础设施等,它们包括:

  • 全栈自动驾驶

  • 自动驾驶卡车

  • 低速自动驾驶

  • ADAS

  • 造车新势力

  • 激光雷达

  • 毫米波雷达

  • 自动驾驶芯片

  • 高精度地图

  • 模拟仿真系统

  • 高精度GNSS定位

  • 车辆改装

  • V2X

可以说,这13个领域就是在未来的汽车上实现智能驾驶的13个关键要素。

关于智能驾驶的报告有很多,但多是从政策、市场趋势等宏观角度泛泛分析,无法体现技术进程的细节和行业发展的真实面貌。我们希望这份报告能提供一个更鲜活的视角,展现出中美两地智能驾驶的生态全景。

点击进入或复制链接,https://gair.leiphone.com/gair/product/s/12r12r12r,获得《中美智能驾驶白皮书》。

购买特辑后,如果您有任何售后问题,可联系我们的小助手。

雷锋网

IBM结束五年营收低谷,但投资者并不满意

雷锋网按:昨天,IBM终于结束了连续五年的营收负增长,不过,华尔街并不满意。

尽管这一巨头在周四时宣布结束了连续23个季度的低迷销售,迎来了增长,IBM的股价在周四的盘后交易中下降了3.4%,降至163.35美元。

IBM公布,其第四季度的销售增长至225亿美元,同比增长了4%。

雷锋网了解到,就像许多其他的“老字号”企业例如思科、甲骨文一样,IBM将业务重心转向了软件销售、按需数据运算服务,以及改变企业的技术消费方式。而IBM,更是非常突出地,在Watson的数据分析服务、云计算和网络安全上砸了不少钱,以试图抵消传统软件业务的一蹶不振。

在去年10月,IBM曾暗示,其销售低谷即将结束,这让IBM的股价在过去几个月又开始上升了起来。不过,周四公布的数据却让人有点失望。雷锋网知悉,IBM的新CFO James Kavanaugh在一次报告中称分析IBM2018年的每股盈利将至少达到13.8美元,这比分析师预计的13.92美元还要低。这让IBM看起来对自己似乎没有什么信心。

GBH Insights的首席科技研究分析师Daniel Ives在IBM的收益报告公布后表示,IBM的季度销售增长表面IBM还有“生命的迹象”,只不过,IBM的战略并不大符合投资者们的期望。他表示,这一季度是IBM证明自己的重要的转折点,虽然这样一个庞然大物,上升速度可能会有点慢。

雷锋网编译,via Fourtune

雷锋网

网传央行禁止辖内支付机构为虚拟货币交易提供服务,业内人士称影响有限

雷锋网AI金融评论报道,2018年1月19日,网传央行营业管理部支付结算处发布了一份名为《关于开展为非法虚拟货币交易提供支付服务自查整改工作的通知》的特急文件(以下简称“通知”)。

据雷锋网AI金融评论了解,《通知》显示,辖内各法人支付机构自文件发布之日起在本单位及分支机构开展自查整改工作,严禁为虚拟货币交易提供服务,并采取有效措施防止支付通道用于虚拟货币交易。各单位应于1月20日将自查情况、已采取措施等上报营业管理部。

据悉,通知还要求,各单位应加强日常交易监测,对于发现的虚拟货币交易,应及时关闭有关交易主体的支付通道,并妥善处理待结算资金,避免出现群体性事件。

而所谓支付机构为虚拟货币交易提供服务,据雷锋网AI金融评论了解,继2017年9月监管当局决定关闭中国境内虚拟货币的交易所后,目前国内主流虚拟货币交易方式为场外点对点交易,虚拟货币交易平台只提供信息对接,以及点对点交易的架构、担保,并不提供支付渠道,也不调用支付机构的支付接口。所以,实际上交易双方是场外直接以银联卡、支付宝等方式转账。

“目前这对于虚拟币交易已经没什么实质性影响了,”业内知情人士对雷锋网AI金融评论表示,“文件精神早就存在了。”

雷锋网

CCCF:周志华 | 关于强人工智能

雷锋网 AI 科技评论按:本文作者周志华,首发于公众号中国计算机学会,来源于《中国计算机学会通讯》2018年第1期《专栏》,雷锋网 AI 科技评论授权转发。

近来「人工智能」很热,关于「强人工智能」的一些讨论也见诸于网媒报端。作为一名人工智能研究者,在此谈点粗浅的看法仅供大家批评。

关于人工智能,长期存在两种不同的目标或者理念。一种是希望借鉴人类的智能行为,研制出更好的工具以减轻人类智力劳动,一般称为「弱人工智能」,类似于「高级仿生学」。另一种是希望研制出达到甚至超越人类智慧水平的人造物,具有心智和意识、能根据自己的意图开展行动,一般称为「强人工智能」,实则可谓「人造智能」。

人工智能技术现在所取得的进展和成功,是缘于「弱人工智能」而不是「强人工智能」的研究。正如国际人工智能联合会前主席、牛津大学计算机系主任迈克尔·伍德里奇(Michael Wooldrige)教授在 2016 年 CCF-GAIR 大会¹报告中所说:强人工智能「几乎没有进展」,甚至「几乎没有严肃的活动」(「little progress, little serious activity」)。事实上,人工智能国际主流学界所持的目标是弱人工智能,也少有人致力于强人工智能。那么,这是不是因为强人工智能「太难」,所以大家「退而求其次」呢?不然。事实上,绝大多数人工智能研究者认为,不能做、不该做!

牛津大学迈克尔·伍德里奇教授

首先,从技术上来说,主流人工智能学界的努力从来就不是朝向强人工智能,现有技术的发展也不会自动地使强人工智能成为可能。

不妨看看现在人工智能技术所取得的成功。在图像识别、语音识别方面,机器已经达到甚至超过了普通人类的水平;在机器翻译方面,便携的实时翻译器已成为现实;在自动推理方面,机器很早就能进行定理自动证明;在棋类游戏方面,机器已经打败了最顶尖的人类棋手……可以看出,上述成功有一个共同的特点:它们都是在考虑某种特定类型的智能行为,而不是「完全智能」行为²。一方面,聚焦在特定类型的智能行为上,才使得任务成为可能而非空谈³;另一方面,如果目标是制造「工具」,那么考虑特定类型的智能行为就已足够,自主心智、独立意识、甚至情感⁴之类的东西,根本无须考虑。打个未必恰当的比方,如果人们的目标是造个工具砸东西,那么造出锤子来就好了,无须考虑让锤子有心智、意识,也不必考虑是否要让锤子自己感觉到「疼」。事实上,人工智能研究活跃的子领域,都是与制造智能「工具」直接相关的;而对「强人工智能」必不可少、却与「工具」不太相关的内容,如自主心智、独立意识、机器情感之类,罕有严肃的研究。所以,现有技术即便发展再快、发展再好,也不会直接使得强人工智能成为可能。

第二,即便想研究强人工智能,也不知道路在何方。

有一种说法,认为如果能够模拟出「人脑」,把其中的神经元、神经突触等全部同规模地仿制出来,那么强人工智能就会自然产生。然而,这种说法从来没有得到过一点点证明,严格说来甚至不能称其为「猜想」,因为猜想也应该有一些即便不够完备但尚能显示可能性的证据,例如通过仿制简单细胞,做出了单细胞智能生物。实际上,我们完全有更强烈的理由认为,即便能精确地观察和仿制出神经细胞的行为,也无法还原产生出智能行为。正如国际人工智能终身成就奖得主、多伦多大学赫克托·莱韦斯克(Hector J. Levesque)教授在他2017年的新著⁵中所说,即便在最理想的情况下,神经科学家也仅是能获得「目标代码」而已,没有理由认为获得了目标代码就能还原出源代码,因为这样的「反向工程」即便对软件程序来说也几乎是不可能的,更何况神经细胞内部还存在「分布式表示」⁶。

第三,即便强人工智能是可能的,也不应该去研究它。

任何一个科学研究领域或许都存在一些不该去触碰的东西。例如克隆人是被主流生命科学界所禁止的。强人工智能的造物将具有自主心智、独立意识,那么,它凭什么能「甘心」为人类服务、被人类「奴役」?有人把阿西莫夫的「机器人三定律」⁷奉为圭臬,但事实上这是行不通的。且不论三定律自身的矛盾和漏洞⁸,凭什么以为有自主心智和独立意识,且智能全面达到甚至超越人类水平的机器,就不会把这些约束改掉呢?即便它是善意的,人类又凭什么认为它会同意比它「愚蠢」的人类的判断?例如它会不会以为把人类全部关进监狱就可以避免人类互相残杀,这才是对人类整体最好的?至于说,到时候人类如果觉得危险了,可以把机器的电源断开……这只是开个玩笑吧,真到那个时候,机器恐怕早就能采用其他的方式摄入能源了。总之,强人工智能出现的那一天,恐怕真的就是人类面临最大生存危机的时候。所以,对严肃的人工智能研究者来说,如果真的相信自己的努力会产生结果,那就不该去触碰强人工智能。

作者介绍

周志华

CCF会士、常务理事、人工智能与模式识别专委主任。

南京大学教授、计算机软件新技术国家重点实验室常务副主任。

ACM / AAAS / AAAI / IEEE / IAPR Fellow,欧洲科学院外籍院士。

研究方向:人工智能、机器学习、数据挖掘等。

脚注

1. 全球人工智能与机器人峰会,是由中国计算机学会(CCF)主办,雷锋网承办的。此会于2016年8月12~13日在深圳举办。

2.人类始终在不断努力制造出在某个特定方面超越人类自身能力的工具,例如潜艇比人游得深、火箭比人飞得高,但似乎罕有人努力制造既是潜艇又是火箭的工具。类似地,人工智能研究也是在努力制造出在某种智能行为方面超越人类自身的工具。

3.事实上,「图灵测试」所考虑的也仅是机器能否「思考」(thinking),而不是强人工智能语境下的「完全智能」。

4.人工智能中有关于「情感计算」的研究,但并非是研究如何让人造物「拥有情感」。

5.《Common Sense, the Turing Test, and the Quest for Real AI》

6.并非由单一神经细胞对应单一功能,而是诸多神经细胞共同发生作用。

7.一、机器人不得伤害人,也不得见到人受伤害而袖手旁观;二、机器人应服从人的一切命令,但不得违反第一定律;三、机器人应保护自身的安全,但不得违反第一、第二定律。

8.由于发现三定律有漏洞,阿西莫夫后来补充了第零定律:机器人不得伤害人类整体,或因不作为而使人类整体受到伤害。


雷锋网

百度研究院新添三位世界级科学家 增为五个实验室

美国时间1月18日,百度研究院在硅谷召开全员大会,宣布设立商业智能实验室(Business Intelligence Lab,BIL)和机器人与自动驾驶实验室(Robotics and Autonomous Driving Lab,RAL),同时三位世界级人工智能领域科学家Kenneth Ward Church、浣军、熊辉加盟百度研究院。

至此,百度研究院全新升级,建立起包括七位世界级科学家、五大实验室的“全明星”阵容。

全员大会上,百度副总裁、AI技术平台体系(AIG)总负责人、百度研究院院长王海峰表示,这是百度研究院新征程的开始。百度研究院将聚焦前瞻基础研究,布局百度人工智能未来发展方向,服务百度作为人工智能公司的长期发展战略。

据雷锋网了解,升级后,百度研究院由原来的三个实验室增加为五个实验室,分别是:

  • 深度学习实验室(IDL)、

  • 大数据实验室(BDL)、

  • 硅谷人工智能实验室(SVAIL)、

  • 商业智能实验室(BIL)、

  • 机器人与自动驾驶实验室(RAL)。

新成立的商业智能实验室将聚焦用于新兴数据密集型应用的高效数据分析技术;而机器人与自动驾驶实验室则重点关注机器人技术,尤其是在自动驾驶领域夯实百度无人驾驶基础技术。百度研究院将以人工智能技术的前瞻性和基础性研究为核心,以其长期创新突破为目标,并与百度其它技术部门互补协同,共同推动百度AI的跨越式发展及商业化落地。

与此同时,百度研究院的科学家团队也再度壮大,堪称百度研究院史上最强阵容。除了院长王海峰,还有徐伟、李平、杨睿刚三位已经任职于百度研究院的资深科学家,本次加盟的Kenneth Ward Church、浣军、熊辉均是AI领域的世界级学者。

据雷锋网了解,Kenneth Ward Church是自然语言处理领域的大师级人物,是经验主义方法的奠基人之一。他在麻省理工学院获得学士、硕士及博士学位,曾先后在贝尔实验室、微软研究院、约翰霍普金斯大学、IBM Watson Research Center工作。Church创立了自然语言处理领域最重要的学术会议之一EMNLP(Empirical Methods on Natural Language Processing)并多年担任主席,他曾于2012年担任自然语言处理领域最顶级的国际学术组织ACL(Association for Computational Linguistics)主席,现为ACL Fellow。浣军曾任美国国家基金委项目主任,主管大数据, 此前任堪萨斯大学终身教授。熊辉是美国罗格斯-新泽西州立大学终身正教授。

会上,Kenneth Ward Church表示,“人工智能的价值有目共睹。百度不仅致力于基础研究,还创造性地将实验室技术转化为真实的应用,让我们的世界变得更加美好。我很高兴能够加入这个团队,与才华横溢的研究者和工程师们一起探索人工智能的前沿技术。”

据雷锋网了解,早在2013年初,百度就组建了深度学习研究院,即百度研究院的前身。2014年,百度研究院正式成立,包括IDL、BDL和SVAIL。2017年3月,百度明确把人工智能作为公司发展战略,整合AI核心技术,成立AI技术平台体系(AIG),任命副总裁王海峰为总负责人,推动研发领先的AI核心技术,对内赋能重要业务,对外繁荣技术生态,加速AI商业化落地。

至今,百度已经构建起包括基础层、感知层、认知层、平台层等在内的完整AI技术布局,并通过AI 开放平台对外开放包含语音、图像、视频、增强现实、自然语音处理等在内的90多项AI核心能力,同时积极与行业合作伙伴和广大开发者一起共建AI技术生态。

“人工智能是第四次工业革命的核心驱动力,不仅促进了各行各业的变革,也在催生新的行业;同时,人工智能系统也在与用户、需求场景的互动中持续进化,”王海峰认为,“毫无疑问,百度已经是一家AI公司,是人工智能技术研究和创新的理想之地。”

雷锋网

搞事了:Satori 变种开始盗币,E-mail被记者盯上,作者怒了

还记得大明湖畔的Mirai吗?就是造成美国东部大断网的“初代”僵尸网络。

这位明星级别的僵尸网络当时可是赚足了眼球,2016 年 10 月 21日,其对美国互联网域名解析服务商 DYN 发起 DDoS 攻击,而 DYN 服务器被攻击导致 Twitter、亚马逊、华尔街日报等数百个重要网站无法访问,美国主要公共服务、社交平台、民众网络服务瘫痪。

而直到一年后,2017 年 12 月 13 日晚,在美国的阿拉斯加法庭上,这起引人注目的网络安全事件终于尘埃落定,三个美国年轻人承认造成“美国断网事件”的 Mirai 僵尸网络工具是他们开发的。

事后 FBI 还特意发推特感谢了一票帮忙寻找犯罪者的安全公司。

但 Mirai 僵尸网络开了个坏头,随之而来其他针对物联网设备的僵尸网络所造成的影响也如同倾斜的多米诺骨牌,愈演愈烈。

这里就不得不提到另一位明星选手 Satori 僵尸网络了。其一经出现就在短短 12 小时内感染了超过 28 万个 IP 地址,利用最新发现的零日漏洞控制了数十万台家庭路由器,速度比 Mirai  快了不止一点点。

这大炮级别的威力让各路人马吃了一鸡,众多 ISP 和网络安全公司纷纷祭出“天马流星拳”一锤锤向 Satori 僵尸网络的 C&C服务器,灭了 50 多万台僵尸网络。逼得对方设法扫描端口,寻找肉鸡。

就在安全公司松了一口气时候,Satori 又出幺蛾子了。

有黑客将 Satori 的恶意软件的代码公布在 Pastebin 上,意味着想搞事情的黑客只要复制粘贴一下就可以让恶意软件运行,进一步扩大感染和攻击范围。

而且在12月份,安全人员分析 Brickerbot 恶意软件源代码的片段时,发现了和 Satori 代码相同之处。可以证明 Satori 的代码已经开始在黑客内部流传。

一周后,1 月 17 日下午 360 团队在 Twitter 的 blog 中更新了一篇文章,称他们发现 Satori 变种正在通过替换钱包地址盗取 ETH 数字代币。

据雷锋网了解,博客中提到,从 2018年1月8日开始,360 安全团队开始检测到 Satori 的后继变种正在端口 37215 和 52869 上重新建立整个僵尸网络。新变种开始渗透互联网上现存其他 Claymore Miner 挖矿设备,通过攻击其 3333 管理端口,替换钱包地址,并最终攫取受害挖矿设备的算力和对应的 ETH 代币。于是他们将这个变种命名为 Satori.Coin.Robber。

黑别人机器用来挖矿的,常见,黑挖矿设备进去换个钱包地址的,不多见。

截止 2018-01-16 17:00 ,矿池的付费记录显示:

Satori.Coin.Robber 当前正在持续挖矿,最后一次更新大约在5分钟之前;

Satori.Coin.Robber 过去2天内平均算力大约是 1606 MH/s;账户在过去24小时累积收入 0.1733 个ETH代币;

Satori.Coin.Robber 已经在2017年1月11日14时拿到了矿池付出的第一个 ETH 代币,另有 0.76 个代币在账户上;

值得一提的是,Satori.Coin.Robber 的作者通过下面这段话宣称自己当前的代码没有恶意,并且留下了一个电子邮箱地址:

中文大意是“我是Satori的作者,现在这个 bot 还没有什么恶意的代码,所以暂时放轻松。联系我的话,邮件写给curtain@riseup.net。”

蛤?Satori 作者竟然自曝了邮件地址?

有趣的是,在这篇博文发布后,推特上某疑似 Satori 作者的人发了一条推文艾特 360 团队,大意是说,看看你们做的好事,暴露了我的 email 地址,现在老哥我被记者追着问问题。

并且还附上了一张图片,上面显示有三封邮件都来自媒体。其中一封邮件标题十分直接:一个马上要到截稿大限的记者想要问点关于Satori的问题。

360 团队也迅速给出了回应,表达大意是终于等到你,还好我没放弃,这位作者还愿意share一些细节吗?

不说了,雷锋网编辑也去发邮件了,至于这位小哥回不回那就是未知了。

雷锋网相关文章:

巨大僵尸网络 Satori 冲着中国某品牌路由器而来,作者身份被披露

“美国断网”案件告破,FBI致谢中国安全企业

巨大僵尸网络 Satori 冲着中国某品牌路由器而来,作者身份被披露

雷锋网

AI 赋能 AR 眼镜,亮亮视野是怎么做的?

亮亮视野 CEO 吴斐

1 月 17 日,发布会结束后,有媒体同行一见到亮亮视野的 CEO 吴斐就问,“听说你们前几天帮警察找到了嫌疑犯?”,吴斐笑着说,“对,但这些事不怎么能宣传,我们也没对外说。”

这天下午,他们发布了一款新的 AR 眼镜 GLXSS ME,用户可与手机或其他终端相连,可直接在手机屏幕或者终端按键进行操作,在一些场景中也可使用固定的手势进行操作。

从外观上看,新产品跟上一代 GLXSS Pro 没有特别大的区别,长相类似于 Google Glass 的穿戴设备,采用单目摄像头。但吴斐告诉雷锋网,GLXSS ME 最大的提升有两方面,一是 AI,另一个是在行业的深度应用。

关于 AI 方面,GLXSS ME 采用了 Movidius Myriad 2 芯片,吴斐表示,相比传统架构,其计算性能提升了 10 倍,而功耗仅为 1/5。基于该芯片,他们研发出可适配主流训练框架的神经网络推理框架,这使得计算性能又提升了 2.25 倍。

为什么会使用 Movidius 的芯片,吴斐说,“这是大势,AR 是增强现实,你把数据与现实做结合,就要有计算”,双方 2016 年曾在 CES 结识并产生了合作意向。

基于强大的计算能力,GLXSS ME 可进行前端人脸物体的采集和识别,据吴斐介绍,人脸检测在 FDDB 库(全世界最权威的人脸检测评测平台之一)上,100fp 达到 92.8% 的准确率;人脸识别在 LFW(麻省大学计算机视觉实验室维护的一套公开数据库) 准确率达到 99.4%。

用矿泉水跌落的速度来检测识别的速度

除了硬件外,GLXSS LIVE 远程指导平台主要是面向企业的操作平台,像运维场景可实现远程教学与协作。现场吴斐介绍,由于没有适合于 AR 传输的协议架构,第一视角的远程传输面临很大的挑战。

为此,他们研发了可以传输 AR  Streaming 的协议,将 GLXSS LIVE 底层的流媒体平台架构升级为 AR Streaming 的双流架构,把特征流和视频流独立开来,增加新的数据流传输闭环,实现双向 AR 互动。最大的不同是,传统的视频数据是以帧为单位、静态的,而 AR Streaming 的数据是以对象为核心的,每个对象都是独立的、可交互的。

另一方面则是行业应用。目前,他们已经服务于通讯、制造、医疗、工程、交通等行业的一些企业,其中包括与必维国际合作,研发远程联合检验平台,实现全球员工与后台专家及时沟通;与宣武医院合作,将北京专家与丽江基层医生和当地居民相连通,实现远程会诊和急救。吴斐称,“最初只是远程运维,现在有专家呼叫、AR 知识库和物联网的结合,还有底层的 AR Streaming 协议,我们的产品已经越做越深,而且是多维度的协同”。

吴斐透露,2017 年亮亮视野服务的大中型企业达 100 家以上,国内外业务比例约为 2:1,客户全年共完成远程指导 180,000 次,节省成本 84 亿元。对于 2018 年,他们预计服务大中型企业将扩展到 500 家以上。

不过对于 2017 年的产品出货量,吴斐表示,“我们担得起批量出货这四个字,客户基本要直接到我们库房里取货。”

成立于 2014 年,吴斐算得上是最早一批的 AR 从业者,雷锋网了解到,亮亮视野在 2015 年 2 月获得猎豹移动和经纬中国数百万元天使轮投资,在 2016 年 4 月获经纬中国领投的数百万美元 A 轮投资,在 2017 年 5 月,获得来自由蓝驰创投领投的千万美元 B 轮融资。

对于过去三年的行业变化,他说自己越来越乐观,“最悲观的时候已经过去了”。他说,“ 2014 年、2015 年热的是 VR,大家分不清 VR 和 AR,但二者的技术路径特别不一样,这说明大家只关注热度并不关注事件本身。我们在很长的一段时间内做的都很辛苦,因为客户也要花很长时间才能明白你到底提供的是什么价值,甚至包括投资人。今天我们有很多的一线公司对 AR 理解已经很深刻了,而且有自己的布局。”

2017 年 12 月低,明星公司 Magic Leap 终于公布了产品渲染图,有的外媒评价说,Magic Leap 就是为了让大家“勿忘我”。雷锋网编辑曾一度怀疑,这种单目的智能眼镜到底能不能被称为“AR 眼镜”?不过,现在看起来,这个问题似乎没有太大的意义,毕竟能解决市场需求的产品就是有意义的。而与 Magic Leap 为我们展示的技术美景相比,这样智能眼镜正在真实地变革着各行各业。

雷锋网

DARPA 挑战赛亲历者 Adrian Kaehler :自动驾驶时代的计算机视觉 | GAIR硅谷智能驾驶峰会

雷锋网 · 新智驾按:1 月 16 日,由雷锋网 · 新智驾主办的 GAIR 硅谷智能驾驶峰会在美国加州 Palo Alto 如期落地。18 位中美顶尖自动驾驶行业嘉宾到场, 7 场主题演讲,2 大圆桌论坛,几乎覆盖了自动驾驶相关的各个话题。从今天起,我们将陆续放出嘉宾演讲与论坛的精华部分,并将在后续的《GAIR硅谷智能驾驶峰会》特辑中送上整场峰会的全部内容。该系列的第一篇,来自 DARPA 挑战赛亲历者、Silicon Valley Deep Learning Group CEO Adrian Kaehler。

作为自动驾驶领域绝对的老兵, Adrian Kaehler 的职业生涯介绍理所自然更长一些,他是 Giant.AI 和非营利组织 Silicon Valley Deep Learning Group 的创始人兼 CEO,担任 Applied Minds 副总裁和机器人与机器学习负责人 8 年,并曾在伊朗和阿富汗战争期间为 JIEDDO 开发自动驾驶车辆。 2005 年,斯坦福大学的车队夺得 DARPA 挑战赛冠军,Adrian 便在其中负责计算机视觉系统的开发。

Adrian 的演讲基本以 DARPA 挑战赛为间隔,前半部分,他主要介绍了自动驾驶技术发展的几个重要节点与表现,包括 2005 年和 2007 年的 DARPA 挑战赛,计算机视觉、深度神经网络的发展,之后,Adrian 则重点谈了后 DARPA 时期自动驾驶的发展。

DARPA 之前的自动驾驶

关于自动驾驶的发展起源,Adrian 直接追溯到了 15 世纪。1478 年,达·芬奇(Leonardo Da Vinci)设计出了预编程发条马车的草图,如果研发成功,这辆车就可由一个大型螺旋型发条弹簧驱动,按照预定路线实现车辆的自动驾驶。

90 年代,斯坦福的人工智能实验车(Stanford Cart)率先使用人工智能和机器视觉进行了陌生环境的导航。当时,激光雷达非常昂贵,并没有在自动驾驶中发挥突出作用。多数研究者还是倾向于依靠摄像头和计算机视觉方案完成车辆的自动驾驶,而自动驾驶的应用也主要集中在军事领域。

转折点出现在 DARPA 挑战赛之后。

斯坦福大学的参赛车“Stanley”通过视觉进行道路识别,通过激光雷达检测短距离内的道路,并以此预测前方更远距离的路况。当时,一些其它车队也在使用视觉方案,Oshkosh Defense 的“TerraMax ”就用了激光雷达和立体视觉进行障碍物识别。

2007 年 DARPA 城市挑战赛中,车辆需要展示停车、路径跟踪和车辆交互等功能,车辆视觉变得更为重要,也更广泛地出现在参赛车辆中。

我们都知道,成立于 1999 年的 Mobileye 主要聚焦于 ADAS 系统的视觉开发。他们的技术被用在了 DARPA 城市挑战赛卡耐基梅隆大学的参赛车上,并且取得了非常好的成绩。Mobileye 的早期系统可以提供车道线检测、车道偏离预警、障碍物识别和车距检测功能。2007 年,他们的产品已经用在很多商用车辆上,包括凯迪拉克的 STS 和 DTS。

自动驾驶的第二阶段

2009 年,谷歌开始了自动驾驶研发,他们招揽了 DARPA 挑战赛的很多重要参与者,包括斯坦福的大量人才,而后者不依赖视觉的传统也在谷歌的自动驾驶汽车上得到了延续。不过,在很多任务执行中,摄像头仍是不可或缺的因素。

现在,激光雷达已经成为自动驾驶技术的主流,不过,仍然可以看到很多玩家使用计算机视觉方案。这之中,高昂的成本是很多人对激光雷达望而却步的重要原因。

高校的技术研究已经有了很大发展。DARPA 挑战赛之后这些年,很多研究者整合比赛中的经验,将其中的技术转化成更坚实的理论基础。在计算机视觉方面,类似 Dalal 和 Triggs “HOG”行人检测的重要算法得到改善,新技术发展,车辆识别自行车或其它物体的可靠性也在增加。

重要的数据集也在发展。2012 年,KITTI 数据集发布,它涵盖了 GPS RTK 惯性导航系统、立体摄像头、激光雷达的探测数据。惯性导航系统和激光雷达可以建立一个地面实况数据集,评估视觉算法的表现。专业的标注者则标定出重要物体(车辆、行人、自行车等)的边界框和目标物等级。这些技术都是发展立体系统、光流、三维重构、三维物体检测、三维目标追踪的重要基础。

KITTI 这类数据集的出现推动新算法更快发展,帮助其进行更高效的比对,现在很多从业者就在努力解决这方面的问题。

2012 年,“AlexNet”在一项重要的计算机视觉基准任务上战胜了其它方法,让神经网络重新回归自动驾驶的版图。并且,深度神经网络几乎打开了解决各种问题的大门,在依赖计算机视觉的年代,这些问题都被认为在几十年之内很难找到解决方案。同时,视觉方案的经济性也开始得到前所未有的重视。一个摄像头最低只要 1 美元,但一个 64 线的激光雷达却要 7 万美金。

计算机视觉和机器学习迅速探索着这项技术的边界,并不断得到新的突破,很多原本认为应该在很多年后才能取得的成果开始定期出现。

下一个主题是 SegNet 分割和 Remapping。原始的 SegNet 主要被用于分割,深度神经网络从场景中学习,之后再对其进行解释。

YOLO 算法目标识别也是非常重要的技术,可以识别图像中的目标,在分类的同时预测边界框。它应用了深度神经网络与传统的概率统计技术,最新版本 YOLO-9k 可以识别 9000 种不同目标物。

视觉的探索没有终点。深度神经网络为很多问题提供了解决方法,Mask R-CNN 的先进算法也在提升,它将对象查找与每个对象的像素标记结合在一起,还可用于人体姿态的评估。

最后,Adrian 表示,虽然自动驾驶的问题很难在短时间内全部克服,但许多重要环节已经得到很好的解决,而这些已足够支撑这项技术投入市场。在其一直关注的计算机视觉方面,他也给出了自己的多项建议,这些建议,以及 Adrian 的 40 分钟演讲全文,雷锋网 · 新智驾都将在后续的《GAIR硅谷智能驾驶峰会》特辑中完整送上。

雷锋网

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?| 分享总结

雷锋网AI科技评论按:随着强化学习在机器人和游戏 AI 等领域的成功,该方法也引起了越来越多的关注。在近期雷锋网GAIR大讲堂上,来自清华大学计算机系的博士生冯珺,为大家介绍了如何利用强化学习技术,更好地解决自然语言处理中的两个经典任务:关系抽取和文本分类。 本文根据视频直播分享整理而成,内容若有疏漏,以原视频嘉宾所讲为准。

视频回放地址:http://www.mooc.ai/open/course/318

在关系抽取任务中,尝试利用强化学习,解决远程监督方法自动生成的训练数据中的噪音问题。在文本分类任务中,利用强化学习得到更好的句子的结构化表示,并利用该表示得到了更好的文本分类效果。本次分享的两个工作均发表于 AAAI2018。

冯珺,清华大学计算机系博士五年级,师从朱小燕和黄民烈教授,主要研究方向为知识图谱,强化学习。目前已在 AAAI,COLING,WSDM 等国际会议上发表多篇文章。

分享内容:

大家好,我是来自清华大学的冯珺,分享的主题是当强化学习遇见自然语言处理,分享内容主要是以下三方面:

  • 强化学习基本概念简要介绍

  • 基于强化学习的关系抽取方法,解决远程监督方法自动生成的训练数据中的噪音问题

  • 基于强化学习的句子结构化表示学习方法


强化学习的基本概念

状态,是agent从环境中得到的动作;agent,是基于它得到的当前状态后做出相应的动作。reward ,是环境给agent 的一个反馈,收到这个reward就知道做的这个动作是好还是不好。agent 的目标就是选动作,将全部reward最大化。

agent会和环境做很多的交互,环境每次做的动作可能会有一个长期的影响,而不仅仅是影响当前的reward。reward 也有可能延迟。在这里简单介绍一下policy的概念。policy是决定一个agent的动作的一个函数。

如果读者对上述概念还不清楚可以观看视频中的迷宫例子:http://www.mooc.ai/open/course/318

我们组做的两个工作是关系抽取和文本分类。

首先是第一个工作:利用增强学习从噪声数据中进行关系抽取 (Reinforcement Learning for Relation Classification from Noisy Data)

任务背景

关系分类任务需要做的是,判断实体之间是什么关系,句子中包含的实体对儿是已知的。关系分类任务是强监督学习,需要人工对每一句话都做标注,因此之前的数据集比较小。

之前也有人提出Distant Supervision 方法,希望能利用已有资源对句子自动打上标签,使得得到更大的数据集。但这种方法是基于已有知识图谱中的实体关系来对一句话的实体关系进行预测,它的标注未必正确。

这篇文章就是用强化学习来解决这个问题。之前也有一些方法是基于multi-instance learning 的方法来做的。

这样做的局现性是不能很好处理句级预测。

基于以上不足,我们设定了新模型。包括两个部分: Instance Selector 和 Relation Calssifier。

这个模型有两个挑战,第一是不知道每句话的标注是否正确‘;第二个挑战是怎么将两个部分合到一块 ,让它们互相影响。

Instance Selector 和 Relation Calssifier 的结构图

在Instance Selector中的“状态”就表示为,当前的句子是哪一句,之前选了哪些句子,以及当前句子包含的实体对儿。

 Relation Classifier 是直接用了一个CNN的结构得到句子的表示。

模型训练步骤

实验部分关于数据集和baseline来源

总结

我们提到一个新的模型,在有噪声的情况下也能句子级别的关系分类,而不仅仅是bags级别的关系预测。

第二个任务

任务背景

如果做一个句子分类,首先要给句子做一个表示 ,经过sentence representation得到句子表示,把“表示”输入分类器中,最终就会得到这个句子属于哪一类。

传统的sentence representation 有以下几个经典模型:

  • bag-of-words

  • CNN

  • RNN

  • 加入注意力机制的方法

以上几种方法有一个共同的不足之处,完全没有考虑句子的结构信息。所有就有第五种 tree-structured LSTM。

不过这种方法也有一定的不足,虽然用到了结构信息,但是用到的是需要预处理才能得到的语法树结构。并且在不同的任务中可能都是同样的结构,因为语法都是一样的。

所以我们希望能够学到和任务相关的结构,并且基于学到的结构给句子做表示,从而希望能得到更好的分类结构。但面临的挑战是我们并不知道什么样的结构对于这个任务是好的,我们并没有一个结构标注能够指导我们去学这个结构。但我们可以根据新的结构做出的分类结果好不好从而判断这个结构好不好。

这个任务同样可以建模为强化学习问题,用强化学习的思想来解。同样的,在这个任务中的reward也是有延迟的,因为需要把整个结构都学到后,才能得到句子的表示,才能用句子的表示做分类,中间的过程是不知道这个结构是好的还是不好的。

实验部分的数据集来源

实验的分类结果;最后两行是我们的方法。

总结

在这个工作中,我们学习了跟任务相关的句子结构,基于句子机构得到了不同的句子表示,并且得到个更好的文本分类方法。我们提出两种不同的表示方法,ID-LSTM和HS-LSTM。这两个表示也得到了很好的分类结果,得到了非常有意思的和任务相关的表示 。

雷锋网提供视频直播回放,如果对文中有不清楚的地方,可点击观看视频 :http://www.mooc.ai/open/course/318。

雷锋网