标签归档:Facebook

Facebook 推 Portal 视频聊天设备,涉足消费硬件业务

雷锋网按,据腾讯科技报导,外媒报道称,消息人士周二透露,Facebook 将通过推出名为“Portal”的视频聊天设备涉足消费硬件业务。此举也将让 Facebook 与谷歌、亚马逊等推出智能音箱的互联网巨头展开更直接的对抗。

报道称,不同于亚马逊把 Echo 与智能语音助手连接在一起,Facebook 的目的是通过 Portal,让用户能够与家人、好友通过视频聊天和其他社交功能保持联络。据悉,Facebook 将在今年 5 月初举行的年度全球开发者大会中正式推出 Portal,并将从今年下半年开始发售这款设备。

类似于带有显示屏的亚马逊智能音箱 Echo Show,Facebook 的 Portal 被设计在室内使用,且能够通过语音指令进行控制。据熟悉 Facebook 计划的消息人士称,Portal 将配有一个广角镜头,具备面部识别功能,能够通过面部识别把用户同他们的 Facebook 账号联系在一起。

消息人士透露,Facebook 当前计划以 499 美元的价格发售 Portal。不过为了进一步刺激消费者的采用,Facebook 有可能会调低这款设备的售价。与之形成对比的是,亚马逊 Echo Show 的售价为 230 美元。据悉,Facebook 联合创始人、首席执行官马克-扎克伯格已向员工表示,他不在乎设备是否能够盈利,但他关心这款设备能否改变用户的习惯,能够更多的使用这款设备。

据悉,Portal 将由 Facebook 通过实体店和网络进行发售。

截至目前,Facebook 对是否将推出 Portal 一事未予置评。

雷锋网

针对校园欺凌 英国拟向 Facebook 和 Twitter 征收网络安全税

在去年底,曾经有篇《每对母子都是生死之交,我要陪他向校园霸凌说NO!》的文章刷屏了不少家长的朋友圈,把校园欺凌这一话题送上了风口浪尖。而现在,随着网络在学生生活中扮演的角色越来越重要,这一问题在网络中也越来越受重视。

据 BBC 报道,英国政府近日提案,向脸 Facebook 、Twitter 等社交媒体公司额外征税,帮助英国的网络安全战略筹措资金,该战略旨在解决针对儿童和弱势用户的网络霸凌、网络滥用和其它风险问题。这类政策在赌博行业已有先例,目前赌博公司承担了一部分治疗赌瘾的费用。

英国政府还提议,社交媒体平台应公开网络仇恨的真实规模,以及每年清除多少内容。

根据报道,网络安全战略旨在解决互联网上存在的以下问题:

cyber-bullying 网络欺凌

trolling 网络喷子

abuse 网络欺辱

under-age access to pornography 未成年人接触色情内容

英国文化部长凯伦•布莱德利称,社交媒体公司必须正视自己的责任。

 互联网一直是一股神奇力量,但它也导致了不可否认的痛苦,对于儿童和弱势群体来说,互联网的危害尤其严重。 现实生活中不可容忍的行为在电脑屏幕上同样不可接受,我们需要一种在不限制数字经济增长和创新的前提下保护所有人的方法。

据英国政府称,在 12 至 15 岁的青少年中,有近 20% 的人在社交媒体上看到过令他们感到不安或冒犯的内容,而近一半成年人有此经历。

针对此政策,雷锋网发现脸书目前已有回应。

我们的首要任务是让脸书成为对所有年龄段的人都安全的地方,因此,我们花费大量时间和英国互联网安全中心等安全专业机构合作,研发能够带给用户积极上网体验的有力工具。我们欢迎企业、专家和政府密切合作,解决这一关键问题。"

参考来源:https://www.google.com.hk/amp/s/www.bbc.co.uk/news/amp/technology-41566833

雷锋网

Facebook 收购老员工创办的AI助手公司Ozlo

雷锋网消息,根据外媒Venturebeat的报道,Facebook已经收购了AI助手创业公司Ozlo,以帮助Facebook建立“由人工智能和机器学习加持吸引人的Messenger使用体验”。Ozlo将会加入Messenger团队的消息也在Ozlo官网上得到了确认。

此次收购,Facebook将获得Ozlo的技术和30人的团队。Ozlo将会关闭其网站API。Ozlo是Facebook的前员工Charles Jolley与 Mike Hanson于2014年创办的,此前Jolly是Facebook的平台负责人。Ozlo主要关注用对话的形式帮助用户筛选餐馆,2016年19月,Ozlo发布了iOS客户端。Ozlo后期也逐渐将服务范围扩大至为有饮食禁忌的用户服务,提供天气预报,以及推荐电影等。

Ozlo利用了Yelp, Doordash(雷锋网注:Yelp是美国在线点评公司,Doordash是美国外卖送餐服务公司)的API。今年三月,Ozlo也推出了自己的API。

上周,Facebook进军智能音箱的新闻才刚刚发布。这周,Facebook就收购了Ozlo。

Information也在今年早期报道了Facebook聊天机器人M与人类进行秘密的beta测试。M与人类的首次交互将是M Suggestion. M会根据人类的对话,为人类提供建议。此次Facebook收购Ozlo,将有利于提高M的用户体验。


雷锋网

Facebook 发布不久的 AR Studio,为什么首家合作伙伴是美图?

不久前,Facebook 宣布美图将作为 Facebook AR Studio(AR工作室)Beta 合作计划的首家合作伙伴,为其推出三款 AR 相机特效:明日自拍、美图家族和瞬间魅力。美图表示,目前这款工具正在封闭测试中,只有少数跨国公司被选中参与这项合作计划。

打造 AR 相机平台

今年四月份的 F8 大会上,扎克伯格曾表示,Facebook 一天用户数为 11.5 亿,同时旗下的 Instagram 仅 Stories 版块的每日活跃用户数就达到 2000 万。

现在来看,增强现实眼镜还难以在短时间内成为主流。Oculus Research 首席科学家 Michael Abrash 预测,至少未来五年我们不会看到消费级的 AR 设备,“也有可能是十年,甚至更长的时间”,那时 AR 也将成为我们日常所需的技术。

于是,依靠庞大的用户量,Facebook 推出带有 AR 效果的滤镜,是他们继续推进 AR 发展的第一步。此外,Facebook 还在开发更好的 AR 效果,如识别视频中的物体,将真实世界与虚拟的动画物体融为一体,基于 2D 图片打造 3D 场景等。“我们将让相机成为增强现实的首个平台。”小扎大会上说道。

为什么是美图?

Facebook 发布 AR 相机特效平台,其中包括 AR Frame 和  AR Studio 两款开发工具。AR Frame 是一个制作特效相机框的工具,Facebook 用户拍照时,可选择有特色的相框加入到照片中。AR Studio 则可以让开发者或艺术家制作有意思的效果,叠加到照片中。现在,已经有不少的艺术家、公司加入,创作更具有想象力的 AR 相框或是 AR 效果。

据美图介绍,他们与 Facebook 的合作从 2016 年就开始了。那时的 F8 大会上,Facebook 宣布美图旗下的美颜相机、BeautyPlus (海外产品)成为首个支持 Facebook 视频插件的美颜类 APP。

今年年初,美图秀秀强大的 P 图功能,让更多的美国人民认识了美图这家公司。当时,在免费的 Photo&Video应用类别中,美图秀秀升至第七位,排名甚至高于 VSCO 和 Instagram 的 Boomerang。

可见,美图再次成为 AR Studio 合作伙伴,不仅技术上,而且群众基础上,都是有积累的。

AR 平台现在能做什么?

不过,Facebook 展示过 AR 特效平台所呈现的效果后,雷锋网觉得似曾相识。因为此前已经有不少公司在做类似的事情,国外较为有名的莫过于 Snapchat,国内早些时候的 Faceu 激萌拍照软件,当然,还有美图旗下的美图秀秀和美颜相机。

但话说回来,尽管 Facebook 不是第一个做 AR 相机特效的,但其强大之处在于“开放”。也正如前面所说的,不管你是开发者,还是艺术家,或者是跟雷锋网编辑一样的普通人,都可以在 Facebook 应用上制作 AR 特效。

目前,打开桌面版 Facebook,可以在【发现】一栏中找到【创建效果框】,进入后出现【相机特效锅里平台】。在【效果框工作室】即可自己上传图片,审核通过后,便生成相框。而 AR Studio 由于针对的专业人士,需要申请,才能加入公测。

雷锋网发现【合作伙伴精选】中还包括:Triplt 相机特效、华纳兄弟:正义联盟、GIPHY Thoughts(GIF动图制作网站)等合作伙伴。

美图透露,他们制作的 AR 相机特效近期将会上线 Facebook。但至于利用 AR Studio 工具制作 AR 相机特效,与他们自己之前推出的一些 AR 特效,有什么不同之处,美图方面并没有回应。

雷锋网

一文看懂 Facebook 在AI+广告中的应用和探索

自2012年以来,随着大数据和机器学习技术的发展,全球广告市场得到了持续性的爆发增长。尤其是以Facebook为首的科技巨擘,凭借其强大的社交网络积累了数十亿量级的用户数据,并运用机器学习在广告市场中如鱼得水。

据Facebook今年第一季度财报表明,该公司总营收为80.32亿美元,其中广告收入78.57亿美元,占其总营收的98%,超过去年同期的97%和2012年的84%。特别是在移动广告上,收益增势明显,占总体广告营收的85%,2016年占比曾高达97%。

这些有力的数据有理由让我们相信,Facebook卖力推广移动视频广告的努力已卓见成效。并且也让我们不禁好奇:Facebook究竟利用AI在广告业务上实现了哪些应用?

Facebook都有哪些广告产品和广告形式?

1、广告产品

从广告产品来看,众所周知Facebook有3个坚实的阵地:

▪ Facebook

▪ Instagram

▪ Audience Network

Facebook的广告业务推出已有多年。2012年,Facebook开始推出品牌页面功能,营销人员可在Facebook上建立品牌页面,用户的点赞等传播行为都可为Facebook带来收益。同年的第一季度,广告业务即为Facebook贡献了84%的营收。

2012年,Facebook以10亿美元收购Instagram。相比Facebook广告,Instagram的形式更为简单,且收费更高,效果也更好。如Image Ads、Carousel Ads、30s Video Ads。去年8月推出的“Story”动态故事功能也在今年1月向广告主开放了广告版位,全屏的方式对广告主吸引力剧增。据 Salesforce 统计,Instagram 的CTR(点击率)大约是 Facebook 的两倍。

2014年,Facebook推出移动广告服务Audience Network(简称FAN)。开发者不用自行销售广告、进行目标定位、测量广告效果及提供支付通道即可赚钱,一切可由Facebook代劳。FAN 广告有三种形式:标准的 IAB 横幅广告、标准的 IAB 插页式广告和原生广告。不过Facebook指明发行商在屏幕上只能一次显示一个广告。前期Audience Network的广告效果并不太理想,后Facebook对其进行了一系列的改善措施,如推出广告版位评分定价系统,而广告主而言更为人性化。

2、广告形式

根据Facebook的官方介绍,可将其广告形式概括为以下6种。

▪  Image Ads(图片广告):内容为单张图片的广告。

▪  Video Ads(视频广告):通过动态画面和声效来传达品牌形象,一般为60s。

▪  Carousel Ads(轮播广告):在单条广告中展示多张图片或多个视频。

▪  Slideshow Ads(幻灯片广告):创建轻量级视频广告,在任何网速下都能和用户建立联系。

▪  Canvas Ads(全屏广告):类似于微信朋友圈的H5广告,可通过图片、视频、文字和链接给用户提供全屏互动体验的广告。

▪ 360 Video Ads(VR全景广告):这个相对来说比较好理解。因为Facebook本身的VR技术比较优秀,所以该广告形式在互动性和广告效果上都优于其他,当然广告费也更高。

3、不得不提的News Feed Ads

以上6种即为出现在Facebook三大产品中最基础的广告形式。对于Facebook 广告而言,还有一种不得不提的、非常受广告主欢迎的形式:News Feed Ads。

News Feed Ads 也称为信息流广告,即在用户新鲜事里插入广告,会针对不同的内容源为用户匹配不同的呈现方式。该广告的创新型形式于2011年推出,2012年正式上线。上线4年间,以它为主的广告业务已为Facebook带来近400亿美元的收入。

针对该广告形式,Facebook对其上线了以下4种功能:

▪  Suggested Page (你可能喜欢的公众页):该功能的目的在于让用户与更多的人或物连接,这样可以在用户的“新鲜事”里展示内容。

▪  Page Post (公众号帖子推广):因为每天出现在用户的新鲜事里多达1500条,一般用户很难浏览完这么多信息。Facebook为考虑到广告主公众号推广的需求,只要他们给的推广费多,也能进入这一页面。

▪  Suggested App (你可能喜欢的应用):这个功能出现的非常广泛,相信大家都在国内的新浪微博、淘宝等看到吐了。据前Facebook工程师连乔表示,该功能在广告效果中反馈不错,尤其在游戏行业里。

▪  Video Ads (视频广告):这个与前文提到的类似,只是出现的页面不同而已。

连乔告诉雷锋网,这四种功能,如今来看,Video Ads的广告转化率最高,其次为Page Post和Suggested App,排在末尾的为Suggested Page。不过Facebook也在陆续研发新的广告形式。

根据 AdRoll 公司在2014年的调查显示,出现在 News Feeds 中的广告的CTR是右边栏中传统 banner 的49倍,加上 Facebook 本身特色的 Like、Comment、Share 功能,也让广告主特别青睐这种广告形式。更有业内人士表示,Facebook 扭亏为赢的一大原因就是来自该广告形式的收入的贡献。

随着 Facebook 广告内容形态的不断推陈出新,也让 Google 的广告业务受到一定威胁。据分析机构 eMarketer 预测,今年 Instagram 的广告收入可能会超过 Google 和 Twitter 的移动广告收入。

Facebook在广告中都用了哪些AI技术?

虽然相较 Google 而言,Facebook的广告形式更偏传统媒体,但其用户数据更为优质。甚而有前 Facebook员工如此评价其前东家的广告,“ Facebook 知道用户喜欢什么”。分析背后的原因,除了 Facebook 数十亿量级的用户之外,其 AI技术 也为此贡献了大部头的力量。

通过使用AI技术扫描用户的状态更新、上传的图片、视频、签到、点赞,甚至是 Linked Apps(连接应用)等相关数据,Facebook 能够生成用户的数字档案和用户画像,从而实现智能投放和精准营销服务。

雷锋网此前报道

在Facebook,有两个实验室领导着 AI 发展方向,一个是Yann LeCun领导的 FAIR 实验室,偏向 AI 的基础研究;另一个,就是 AML(机器学习应用)实验室,偏向机器学习应用,负责将AI技术落地在Facebook各种产品中。

二者结合自身重点紧密合作。其中,AML实验室在2015年变成由 Candela 领导。AML旨在为提供排名、广告、搜索、语言翻译、语音识别、自动产生视频字幕以及自然语言理解等所有领域开发更好的算法以提升 Facebook 的底线。2012年, Candela跳槽微软加入 Facebook ,任职广告部门的负责人,旨在用机器学习的方法改革公司的广告运营,让广告投放更加具有相关性和有效性。所以,在3年后被调任领导AML实验室,且兼任管理广告部门,这对Candela、Facebook来说都是机会。

究其缘由,是因为就Facebook当时的广告业务而言,需要一个人类工作无法实现的系统,即对广告点击人数的即时预测。最后,Candela 基于机器学习的方法带领他的团队创造出一个新系统,成功实现了这一功能。这一次的行动也让Candela相信,该系统还可以扩展到更多的服务中去。

基于此,经过和FAIR实验室的相互合作,几年的时间里,Facebook在其广告业务板块做出了多次AI技术应用的尝试。

1、建立机器学习平台

据雷锋网此前报道,Candela 带领其团队建立机器学习平台的目的是为了获取更多的高质量数据。众所周知,Facebook 的日活用户已达10亿以上,所以每天该公司都创造着大量的数据。该机器学习平台在此数据的基础上得以不断训练。当他们开始测试时,也能有取之不尽的用户行为样本。“这使得广告团队进展很快,从每几周推出一个新模型到每周推出一个新模型”,Candela表示,“我们在预测广告点击率上取得了巨大成功,就像是一次大转变。”并且,这些模型最后终将成为一个平台,这一平台最大的优势在于重复使用性。

2、FB Learner Flow平台

建立该平台之初,Facebook 的AML团队主要考虑5个方面的要素:性能、重复使用性、自动化、成套系统和应用研究社群。而在该平台成立之后,虽然仅限Facebook内部使用,但其“重复使用性”确实让整个AML团队都惊喜了一番。

以Instagram为例。去年6月,Instagram开始对其News Feeds进行排序,该公司的几名工程师在很短的时间内就完成了这一功能。而在前几年,相同的Feed功能却是一个大工程,需要经历从无到有的建立过程。所以,这一进步在很大程度上都可归功于该平台上的的重复使用性,工程师们可在其他工程师发布的WorkFlow的基础上来构建自己的算法。

Candela 对此表示,假设Facebook有新的垂直广告业务,专门在News Feeds投放富媒体广告,当负责这项工作的团队没有很多机器学习方面的专家时,就能在该平台里浏览到整个公司在此开发的每一项实验和产品原型,从而抓取符合自己目标的模块。

3、Deep Text系统

就AI 的另一项基础技术——自然语言而言,AML 建立了 “Deep Text” 的系统,可结合机器学习来辅助 Facebook 完成每日40亿次以上的翻译功能的处理。此外,该系统还能在一秒之内理解超过二十多种语言的数千封邮件的内容。

通过对神经网络的训练和使用真实数据对模型的测试,Facebook已经可以探查到非常细微的语言区别,准确探查到哪个用户正在询问某地区内的餐厅或商场,进而触发一个指令,并将相关的链接展示在用户的 News Feed 上。而当某人分享一个推荐时,机器学习也会在用户的 News Feed 上显示出相关的餐厅或商场的地理位置。

如前文所提到的,News Feeds中的 Suggested Page、Suggested App等功能就与该系统的支持脱不了干系。特别是在该页面上推送广告,将遵循该系统的文本处理,以及 Facebook 的AI基础技术,从而提升广告投放的智能化程度。

4、Lumos计算机视觉平台

针对Facebook平台上的所有图像和视频,AML 团队还建立了一个叫做“Lumos”的机器学习视觉平台,以期对其进行更好地处理。该平台被视为Facebook的“视觉皮质”,公司里的每个人都可以使用 Lumos上的神经网络的各种功能来构建自己的模型方案。

据雷锋网了解,Facebook旗下Instagram、Messenger、WhatsApp 和 Oculus都在使用这一视觉处理方法。长期来看,Facebook 还会把 Lumos 与其自然语言平台相融合,从而可以确保 News Feeds 上要为用户展示怎样的内容。

结语

事实上,随着 FAIR 和AML 两大实验室的持续研究,Facebook在AI+广告中的应用必将也是一个持续探索的过程。正如 Candela 在今年的@Scale大会上所说,Facebook如果没有AI,那就会失去存在根基。在如今广告已成为 AI 商业落地最成功的领域之一的大环境下,Facebook 对其必将多加重视。

对于 Facebook 而言,AI+广告不仅是“一棵大摇钱树”,也是可作为模型扩展到其他产品和业务的成功案例。在对外竞争上,Facebook也能凭此笑傲 Google 和微软。

雷锋网

Facebook 内容审核标准首次曝光,允许用户直播自残

雷锋网消息,英国卫报在近期的一次调查中,首次揭露了 Facebook 对其平台内容的审核标准。这些内部培训文件多达 100 多个,涉及包括暴力、恐怖主义、色情、种族主义、自残行为等话题。这些文件详细地告诉工作人员如何评判内容是否违规,并决定是否删除。

绿色是允许发布,红色是需要删除的内容

在去年《卫报》发现的一些 Facebook 内部培训文件中这样写道:

  • 类似 “射杀特朗普” 的评论应该被删除,因为特朗普是美国元首,需要被保护的。


  • 场面暴力的死亡视频可以不被删除。虽然它们的标签是 “令人不安”,但是它们可以提升人们对一些问题的认识,如精神疾病;


  • 一些非性虐待儿童的照片可以不删除,除非有施虐狂或庆祝等因素;


  • 虐待动物的照片可以分享,只有那些极度过分的照片才会标记为 “令人不安” ;


  • 允许用户直播自残行为,因为 Facebook“不想惩罚那些处于痛苦中的人”;

  • ……


此外,Facebook 还告诉卫报,除了人工审核外,他们内部还会使用某些软件对一些违规的图片进行拦截,被拦截的图片将无法上传到网站。

对于这些文件,Facebook 的全球政策管理负责人 Monika Bickert 表示:Facebook 有差不多 20 亿的用户,他们有责任维护平台的安全,也有责任继续坚持这些审核行为。另外,我们也欢迎用户积极向我们举报那些违反规定的内容。

雷锋网

F8 2017 | Facebook Messenger 平台 2.0,有哪些聊天机器人的新玩法?

雷锋网消息:在昨晚的 F8 开发者大会上, Facebook Messenger 事业部副总裁 David Marcus,宣布了新一代 Messenger 平台的诞生——即 Messenger Platform 2.0。

这标志着 Messenger 离成为“信息工具的黄页”,以及微信式的一站式商业服务平台更近一步。

但是,Messenger Platform 2.0 的重点,却在聊天机器人(chatbot)。新功能大多围绕着提升 chatbot 的消费者、企业端体验而展开。与去年 F8 大会上“开启 chatbot 革命”雷声大雨点小的情况不同;今年的 F8 chatbot 主题格外实在——全是 Messenger 对 chatbot 进行支持的一系列新功能特性。

Discover Tab

迄今为止, Messenger 只支持搜索聊天机器人,这一情况即将改变。

即将添加的 Discover Tab 则是专属的聊天机器人寻找区,为用户所在区域内最好的聊天机器人和商业交互提供露出。

在 Discover Tab,用户能找到最近使用的 chatbot ,浏览 chatbot 分类,看到正在流行的 chatbot,以及进行搜索。用户可在进入对话环节之前,看到 chatbot 的功能介绍。

外媒 Techcrunch 表示:

“Facebook 推出 Discover Tab,是为了吸引更多开发者到 Messenger 聊天机器人平台。为此,Facebook 必须提供市场增长潜力。去年发布的平台没有专门的 chatbot 入口,只能搜索。但现在,Facebook 能进行推荐,帮助用户对不同场景找到合适的 chatbot,并具有了销售推广位置的可能性。”

Chat Extensions

大会演讲中,David Marcus 说道:

“大家都知道,现在 Messenger 上的聊天机器人交互是一对一的。Facebook 想要改变这一状况,这便导致了 Chat Extensions 的诞生。它让开发者把 chatbot 加入人类用户的双人、多人聊天中。”

据雷锋网了解,Chat Extensions 功能很明确:为群聊加入聊天机器人。

这使得多名用户能在同一时刻、与同一个公司的 chatbot 对话。比方说,如果用户想要分享一首歌,可以把相关的音乐 chatbot 直接加入群聊,音乐会对所有人实时播放。目前,Spotify 已支持 Chat Extensions。

Smart Replies

这是 Facebook Messenger 内置的新 AI 功能,说白了就是自动回复。它能让 AI 能学习常见问题的答案,以帮助公司对客户的一般性询问进行自动回复。David Marcus 表示,Smart Replies 旨在“把自动化带给最需要的人——小微企业主。“他们的时间非常紧张,或许也缺乏人力资源对客户进行 7 天 24 小时的回复。“

Smart Replies 的引擎,能自动从公司的主页采集信息,识别用户问题,然后进行答复。

在第一阶段,Facebook 将与美国的大小餐厅合作推广 Smart Replies。

“M”

雷锋网获知,Messenger 内置的虚拟智能助手 M,也得到了大幅优化。

相比微软小冰、苹果 Siri、亚马逊 Alexa、Google Assistant 等竞争对手,M 的知名度要低得多。但 Facebook 表示将不断升级 M,使其更加智能。

此次 F8 大会的前夕, Facebook 为 M 加入了一项新功能:M Suggestions。它背后的愿景,是以智能化的建议,帮助用户缩短从他们想要做的事,到最终完成它所花费的时间、精力或者步骤。

M Suggestions 能对用户正在进行的特定任务进行识别,然后在聊天窗口跳出来提供建议。举个例子,当你和朋友约饭,它可能会跳出来提供餐厅推荐。David Marcus 提到,M 根据使用场景提供的建议包括制定计划、约会提醒、收发红包、点单、位置分享,甚至是表情图。用户使用 M 的次数越多,它会越智能,建议越精准。David Marcus 还表示,当 M 智能到一定程度,甚至能为用户创建的 Chat Extensions 提供建议。

Facebook 正和 Delibvery.com 合作,开发 M 的智能点单服务。

雷锋网

Oculus 联合创始人 Palmer Luckey 离开 Facebook

雷锋网消息,Oculus 联合创始人 Palmer Luckey(人称帕胖),Rift VR 头盔最初原型的开发者,在把公司卖给 Facebook 后选择离开。

根据 Oculus 的声明,本周就将是他在 Facebook 工作的最后一周。声明中这样写道:

Palmer 将被大家记住。他的遗产远远超越了 Oculus。他的发明精神推动帮助开启了这场现代 VR 的革命,并推动了这个产业的建立。我们对他为 Oculus 和VR 所做的一切非常感激,并附以最美好的祝愿。

对于帕胖是否是自愿离开的,外媒 UploadVR 询问了Facebook,但后者不愿置评。

最近,Oculus 刚刚庆祝了 Rift 上市一周年,推出大量内容优惠。而开启这个一周年的,正是去年的这个时候,帕胖亲自为阿拉斯加的一位用户送出 Oculus Rift。

仅仅一年时间,胖帕从一个 VR 行业的鼻祖的外界形象,四处露面站台,社交媒体也很活跃,到去年美国大选期间,选择在公众面前消失,后面只在法庭上出现过一次。

这个转变都是从去年 9 月的一次事件开始的。根据雷锋网当时的报道,当时,美国新闻网站The Daily Beast报道,Palmer Luckey 原来在秘密投钱给一个非官方的特朗普支持团体,后者在互联网上制作传播损希拉里的帖子和流行图片(memes)。该团体名为Nimble America,是特朗普(Donald Trump)的拥趸。团体在 Reddit 上贴出过一些白人至上的种族主义帖子。

当时这件事引发了巨大的争议,配合之前 Oculus 封杀 Revive,以及一些游戏独占策略,引发许多VR粉丝对 Oculus 的不满(主要是在美国)。

后来帕胖在 Facebook 上发表声明,对这件事进行了解释,表示自己是一个自由意志主义者(Libertarian),Reddit 上 NimbleRichMan 发的帖子不是我写的,自己也不是 Nimble America 的成员,这项捐赠不代表 Oculus。

他在 Twitter 上转发了Facebook的这条链接后就一直没有露面或是更新 Twitter 了,直到今年1月,Facebook 和 ZeniMax 打官司时,才再次出现在法庭上做证。

ZeniMax 与 Oculus 间的技术专利纠纷从2014年起一直未能尘埃落定。今年年初,这起诉讼终于进入庭审阶段。

雷锋网报道,2月1日,达拉斯法院公布了 ZeniMax 状告 Oculus 知识产权剽窃的判决结果,法院认为 Oculus 并未在Rift 头盔上盗用 ZeniMax 的知识产权,但前者包括 Palmer Luckey 在内的多名高管涉嫌违反保密协议,因此总共被判处5亿美金的赔偿。

VR 人都会记住他

2012年,通过一次非常成功的 Kickstarter 众筹,Oculus 重新激发了大众对虚拟现实的热情,并在后来促使 Facebook 用 30亿美元(后曝出还有 10 亿美元的额外花费)收购了这家公司,开启了这波VR浪潮。

“我们做的很多东西都不由我们发明的,”帕胖有次说道。“它们是由其他人发明的,而我们恰好有幸处在一个正确的时间点将其实现。”

关于帕胖离开 Facebook,也许从他被曝支持 Nimble America 那一刻起就已经埋下种子。但政治上的立场之外,怕胖以及其他联合创始人在推动这一波 VR 浪潮方面起的作用没有人会否认。

雷锋网

Facebook 田渊栋详解:深度学习如何进行游戏推理?

雷锋网按:腾讯围棋 AI 程序“绝艺”(Fine Art)在世界电脑围棋大赛 UEC 上力压多支日韩参赛退伍获得冠军,一时间又引发了大家对 AI 和围棋的关注和讨论。

其实,自去年 3 月份 AlphaGo 战胜李世石之后,人们对会下围棋的人工智能程序已经不陌生了。大部分人都知道 AlphaGo 是利用了一种名叫深度学习的技术,然后基于互联网棋谱大数据的支持,每天自己跟自己对弈,所以才能这么厉害。

但鲜有人知道的是:在围棋这种逻辑缜密的推理游戏中,AI 究竟是怎么“思考”每一步的落子的?AI 真的清楚自己每一步落子的意义么?AI 真的具有推理能力?

为了彻底揭开其中的奥秘,地平线大牛讲堂邀请到 UEC 曾经的打入决赛的队伍 —— Facebook 围棋 AI 程序 DarkForest 的首席工程师及第一作者田渊栋博士为我们一探究竟,本文由亚萌和奕欣整理,并由田老师做了审核和编辑,特此感谢。

嘉宾介绍

田渊栋,Facebook 人工智能研究院研究员,Facebook 围棋 AI 程序 DarkForest 首席工程师及第一作者,卡耐基梅隆大学机器人研究所博士,曾担任 Google 无人驾驶团队软件工程师,并获得国际计算机视觉大会(ICCV)马尔奖荣誉提名。

今天非常荣幸能来地平线科技做分享。我将简单介绍一下深度学习在游戏领域的进展,结合最近的一些热点新闻,比如说像CMU的Poker Player战胜了世界上最强的扑克高手,大家也一定很好奇这是怎么回事,当然也会结合我们目前所做的一些工作。

游戏已经成为AI研究测试平台

研究者可能以前会觉得游戏只是消遣的工具,但随着人工智能的发展以及它在游戏上的一些应用,大家也开始意识到,游戏现在已经演变为一种AI研究的工具,游戏可以作为一个平台,作为一个虚拟环境,用于测试人工智能的一些技术。

游戏作为平台有两个好处。

  • 其一是可以生成无限多的带标注的数据以供神经网络训练,解决数据不足的问题;

  • 其二是游戏的环境是完全可控的,难度可以调节,重复性也非常完美。

这两点让它成为一个很好的研究平台。游戏其实有很多种,在这里我们分为两类,即:

  • 完全信息博弈游戏:所有玩家都知道发生了什么事情;

  • 不完全信息博弈游戏:玩家需要在环境中探索,才能了解对方玩家在做什么。

当然还有其它的一些分类,在此不做赘述。

有些游戏规则很简单,但实际玩起来的时候并没有想象中的容易。我举一个非常简单的例子:假设有三张牌JQK,两个人玩这个游戏,每个人各抽一张牌后,可以根据牌的大小选择放弃或是加注。最后双方亮牌比较大小。大家可以猜下哪一手具有优势?后手其实是有优势的。根据最优策略的指导,先手有可能会输掉1/18的钱,因为先手不得不做一些决定,而后手可以根据先手的决定来决定自己的策略。

如果我们把游戏树画出来的话,可以看到,即使是这样一个简单的游戏,它可能有无穷多个纳什均衡点。所以你会发现一个很简单很简单的游戏,其中也有很多讲究,没有那么容易理解,更何况围棋呢?

围棋的规则非常简单,但我们可能要花一辈子的时间才能真正理解这个游戏的内涵。大家都知道AlphaGo的故事,一年前我们见证了这场震惊世界的比赛。一开始我们可能还认为AlphaGo可能不敌世界上最强的棋手,但结果发现完全不是这么回事。通过这个事实,我们就可以理解以下两点:

  • 游戏能作为一个平台,对我们的算法进行效果测试。

  • 游戏自身也是一个好的体验平台,能够检验我们的算法。

比如说我们要花很长时间才能证明无人车的效果是否好,目前来看,不如做一个游戏,能够打败最强的棋手,让大家了解人工智能的水平,这样的影响力。

当然和围棋相比,游戏《星际争霸》要难得多。其中有意思的一个地方在于,它的每一个策略及动作的可选范围非常大,而且在很多地方属于不完全信息博弈,你需要猜测对方在做什么。另外游戏的时间非常长,每一步的选择非常多时,就需要做更多更复杂的决策。

我对于游戏的观点是:游戏最终会与现实接轨。如果我们能将游戏做得越来越好,就能将游戏模型通过某种方式转换到现实世界中使用。在我看来,通过游戏这条路,是能够让人工智能在现实世界中实现广泛应用的。

Game AI是如何工作的?

首先我先简单介绍一下Game AI是怎么工作的。

大家可能觉得计算机非常强、无所不能,但这是不对的,因为就算计算机有超级超级强的计算能力,也不可能穷尽所有的情况。

那么计算机是怎么做的呢?计算机其实是通过以下的方式来进行游戏决策。

首先有一个当前状态,从这个当前状态出发,我们会做一些搜索。就像我刚才所说的,计算机不可能穷尽所有的决策情况,因此在某些节点时需要停下来计算一下当前的状况,并用这个结论反过来指导最优的策略。现在基本上所有游戏智能都是这么做的。

当然具体到游戏里就各有巧妙不同,主要根据不同的action数目,游戏所采用的技术也不同。比如跳棋游戏每步的决策比较少,国象稍微多一些,这样我们可以用传统的Alpha-Beta Pruning再加逐步加深的搜索法。在这个办法里面,每一次向下搜索,是要考虑到所有的决策的。这是很多国际象棋AI采用的方法,这个方法因为是深度优先搜索,内存占用很小。

但是同样的办法不能用在围棋上,因为每一步的可能选择太多。所以后来采用了蒙特卡洛树搜索,这个方法其实在十几年前才第一次被用在围棋上,在用了这个方法之后,围棋的棋艺也提高了很多。在此之前人类学习半年就可以战胜它。而在深度学习出现之前,这一数字延长到了几年时间,当然现在你基本上学一辈子也干不掉了。而像《星际争霸》这种比较开放的问题,根据你盘面上的各种单位的数目和种类,可能每一步都有指数级的可选行为,现在就没有人知道怎么做,如果要从搜索下手的话,第一步都跨不出来。

第二部分估值函数(就是对盘面的估计)也有很多可以讨论的地方,比如这里主要的问题是“这游戏到底有多难?”,如果这游戏搜索的深度很浅的话,也许我们可以倒过来做,用一种叫End-game database(残局库)的办法。比如像国际象棋,如果棋盘上只有两个子或者三个子,那么它的所有可能位置都能够穷尽出来,然后反向建立一个数据库,数据库会告诉你,如果处于某个局面,下一步该怎么下,子数少的时候,这完全是可以搜索出来的。这个条件是树要浅,每一步的可能性要少,深的话就很难做。

另一个盘面估计的方法是人工去设计一些特征,把这个棋局局面拿过来之后,把这些特征的值算出来,再加以线性组合得到一个估值。这样的好处是速度很快,给一个局面可以用微秒级的速度得到结果,但就需要人类去甄别什么样的特征是重要的、什么样的特征是不重要的,这个就是传统的办法。

当然,还有在深度学习出现之前围棋AI里面用的方法,从当前局面开始通过随机走子到达一个容易评分的状态,然后根据得到的结果反过来推刚才的局面是会赢还是会输。最后现在出现了深度学习的方法,我把关键局面输进神经网络里去,输出的结果就是当前局面的分数。

接下来我们讲得更细一点。

像国际象棋(中国象棋也差不多)。这两个游戏的特点是,它们战术很多,你可能会挖很深,这个局面可能走了10步、20步,就可以把它将死。这样的话,靠人去算就会发现总有方法算出所有情况。

这种情况下搜索是很重要的,但对局面的评判没那么难,因为对象棋来说,少个马或者多个车,都会知道你是不是快输了,或者是不是处于劣势。虽然评估不是特别难,但对搜索的要求很高,以下有几种方法可以加速它的搜索。比如 Alpha-beta Pruning(剪枝算法)、iterative Deepening 和 Transition Table。

我在这简单介绍下 Alpha-beta Pruning。假设玩家需要对下一步做出判断,需要搜索它的特征,一旦发现对方在某一分支有很好的应招,那么这条路就不用再搜索了,因为对方这个应招会让你这个分支的最优解劣于另一个分支的最差解。这就是它的一个简单思想概括。

这样的搜索是深度优先,所以不需要把之前的动作都保留下来,只要保留从根到叶子节点的搜索栈就可以了。需要从左边开始搜,搜到最下面到某个固定的深度之后返回。所以要先定好深度,不能搜无限深,否则第一个分支都出不来。注意在使用时,搜索的深度也不是完全固定的,有时候要多往下走几步。比如说算到这一步看起来很好,我用皇后吃你个车,我多个车特别开心,但再往下算发现自己的皇后被人吃回去了,这个叫作Horizon Effects,需要很多特别的处理步骤。因为存在这个问题,所以要先搜到一些比较好的策略,再一点一点加深 。

围棋是另外一种思路,它特点是不一样的:

  • 首先,它的每一步的可能性比较多;

  • 第二,它的路径比较难做。在座如果有对围棋有兴趣可能会知道,围棋少个子、多个子,就会对整个局面有天翻地覆的变化,完全不能以子数或者位置作为评判输赢的标准。

我先介绍一下AlphaGo是怎么做的,之后说一下我们是怎么做的。

大家知道,AlphaGo用的神经网络分为策略网络和值网络,主要能实现以下功能:

  • 给出一个局面后,可以决定下哪些位置;

  • 给出一个关键局面时,判断它们的值,到底是白优还是黑优。

AlphaGo首先用了很多的计算机资源,采用了上万块GPU进行训练,甚至采用像TPU这样的硬件进行处理,所以计算资源是非常多非常厉害的。

具体到细节上来说,分为以下几个部分:

  • Policy network,决定下一步怎么走;

  • Value network,决定这个局面分数是多少。

  • 中间还有一部分是High quality playout/rollout policy,是在前两者返回结果速度较慢的时候,在微秒级可以先得到结果。就是说我如果用微秒级的快速走子预测下一步,它的准确率是24.2%,但后来我自己做实验发现可以做到30%多些。

AlphaGo的训练分为以下几个部分:

第一部分,通过人类游戏先去训练一个神经网络下棋,不然对于神经网络来说每个步骤要往怎么下子都不知道,如果你随便搜,很多东西都搜不到,所以需要人类棋谱先进行训练。这其实是围棋革命的开始,可以训练出很好的结果。


这张图上有一些trade off,虽然训练的第一步走子准确率比较高,但训练出来的网络可能前馈速度比较慢。所以最后取了折衷原则,灰色的那行就是最后采用的网络(至少是在AlphaGo这篇文章发布的时候),所以可以发现时间是比较快的,4.8毫秒就可以往前算一步。

这里就可以发现游戏AI的指标是比较综合性的,不仅包括一步预测的准确度,还包括每秒能跑多少次,这样树会很深,棋力就会变强,一定程度上也是提高棋力的一种方法。

AlphaGo快速走子(Fast Rollout)可以做到2微秒,同时也有比较好的精确度。

如果从开始预测游戏最后的结果,那就是瞎猜50%的正确率。但在游戏进行一阵之后再预测的时候,正确率就会提高。我希望这个下降的速度越快越好,比如在下到40手或45手的时候就知道游戏结局是什么。所以,这条线下降得越快,结果应该越好。我们这里看 Fast Rollout 这条虚的蓝线,效果当然没有用神经网络来得好,但是它兼顾了速度和准确率,下降的速度也是比较快的。 

AlphaGo用的另一个主要的技术是蒙特卡罗树搜索。这其实是个标准的方法,大家可以在任何一本教科书上找到怎么做。它的中心思想是,在每个树节点上存有目前的累计胜率,每次采样时优先选胜率高的结点,一直探索到叶节点,然后用某种盘面估计的方法得到胜负的结果,最后回溯刚才探索的过程,反过来更新路径上节点的胜率。这样的话,下次探索的时候,如果发现这条路线的胜率变高了,下次更有可能往这上面走。

所以它与Alpha-beta Pruning不一样的地方是,没有界定它的深度是多少,就从0开始,让它自动生长,长出来后我们会发现很多路线是不会搜索的,可能往下走几步就不走了,因为它发现这几步非常糟糕,就不会走下去;而有些招法非常有意思,就会挖得非常深,在某些特定招法下可能往下挖五六十步,都是有可能的。最后算法会选探索次数最多的节点作为下一步的棋。

这是蒙特卡罗树搜索比较有意思的地方,它比较灵活,不像国际象棋,后者每次打开树的时候,要保证所有下一步的招法都要考虑到;而蒙特卡罗树搜索不需要,有些招不会搜索到。反过来说,它也有可能漏掉一些好棋,这样就需要好的策略函数来协同。

接下来我介绍一下值网络(Value Network),AlphaGo称是用了3000多万场次左右互搏的游戏训练出来的,左右互搏是怎么生成的呢?这是我早上画的一张图,解释了系统是如何收集数据的:

  • 游戏开始,我们先让算法自动走,走的时候是去采样通过监督学习学得的策略网络(SL network)。

  • 走到某一步的时候,我们随便走一步,感觉好象我要故意输的样子,这样的好处是让棋局更加多样化(diverse),让算法看到完全不一样的棋局,扩大它的适用面。

  • 随机走那一步之后,得到了当前棋局,然后用更准确的通过强化学习增强的策略网络(RL network)去计算之后的应对,得到最后的输赢。这样就得到了当前状态到输赢之间的一个样本点,用这些样本点去训练策略网络。

然后你会发现,AlphaGo的能力变得很强,这个图表最右栏有个叫ELO Ranking的东西(雷锋网按:Elo Ranking是一种用于计算对抗比赛中对手双方技能水平的方法,由Arpad Elo创建),这决定了围棋的棋艺有多强。右边本来是2400,现在变成快2900,中间差了500分,500分基本上相当于两个子的差距。本来是业余高段的水平,现在变成了职业初段的水平。当然,现在应该要比以前牛很多很多,我这里讲的只是公开出来的一些例子。

腾讯“绝艺”

最近“绝艺”打UEC杯,还赢了冠军,我相信很多人都对此感兴趣。我们去年也参加了拿了第二名。当然,今年的水平高出去年非常多。我不知道他们是怎么做的,文章也没有发出来,所以也不是特别清楚,但是我相信他们应该达到了AlphaGO 发文章时候的水平。之后AlphaGO又做了很多改进,变成了Master,但那些改进到最近都没发出来,这部分还是未知的。 

去年8月份我去美国围棋大会(US Go Congress),见到了Aja Huang和Fan Hui,就问他们AlphaGO现在做的怎么样?他们没有透露,但是从言语中我感觉到之前Nature上发的那篇文章,其实是有瓶颈的,就是说沿着这条路走下去,可能不一定能做的非常好。所以,他们如果是要再往上走,比如走到Master这个层面,需要用一些其它的方法,要有更进一步的创新。像我是听说他们最近把训练好的值网络单独拿出来,根据它再从头训练一个策略网络。我觉得这样做的好处是会发现一些看起来很怪但其实是好棋的招法,毕竟人类千百年下棋的师承形成了思维定式,有些棋在任何时候都不会走,所以按照人类棋谱训练出来的策略网络终究会有局限性;而从头训练一个策略网络的话,则会发现很多新招。

当然,我不知道现在腾讯是不是有特别好的新想法出来,或者用了更大量的对局数据。不过看他们跟Zen对弈的棋局,我稍微点了一下步数,大概200步不到就可以让Zen认输,所以还是非常厉害的。

德州扑克 

接下来我们讲一下德州扑克。首先我们要确认,这是“一对一无限注德州扑克”游戏(Heads-up no-limit Texas Hold'em)。“一对一”意思就是我和你两个人的零和游戏,我输钱你赢钱、我赢钱你输钱,并不是很多人在一张牌桌上有人当庄家的那种。多人游戏要难很多,主要是现在用的办法在多人游戏下不能保证效果,然后状态空间也变大很多。

“无限注”就是你每次下注的时候不一定是之前的整数倍,可以是任意数。那么有限注德扑就是每次下注的时候,是成倍数地下,“有限注”的问题已经在两三年以前就解决了,当时是发了一篇Science文章。那篇文章其实本应该会跟AlphaGO一样受到很大瞩目,但是不知道为什么,当时并没有。 

有两个很牛的扑克AI,这两个都是用的同样的框架,叫作Counterfactual Regret Minimization(CFR),简言之是把游戏中遇到的可观测状态(叫作信息集Information Set)都罗列出来,然后对于每个可观测状态,通过最小化最大悔恨值的办法,找到对应的策略。然后反复迭代。

  • 一个是CMU的Libratus,它打了20天的比赛,赢了4个最牛的扑克玩家。(雷锋网按:在2017年1月,Libratus玩了12万手一对一不限注的德州扑克。到比赛结束时,人工智能领先人类选手共约177万美元的筹码。)

  • 另外一个叫DeepStack(雷锋网按:加拿大阿尔伯塔大学、捷克布拉格查理大学和捷克理工大学训练的AI系统与11位职业扑克手进行了3000场无限注德州扑克比赛,胜率高达10/11),他们在网上也打过一些大型职业比赛。

CMU Poker bot

CMU Poker bot没有用深度学习。他们用到了End-game solver,因为德扑一局时间比较短,可能就几个回合就结束了,所以你可以从下往上构建游戏树。这样的好处是,最下面节点游戏树的状态是比较容易算出来的,用这个反过来指导设计上面的游戏树。另外他也用了蒙特卡罗方法,标准的CFR在每次迭代的时候,要把整个游戏树都搜一遍,这个对于稍微复杂一点的游戏来说是不可接受的,因为是指数级的复杂度,所以用蒙特卡罗方法,每次选一些节点去更新它上面的策略。还有一点就是,一般来说我们在做游戏的时候往往会想到怎么去利用对方的弱点,但其实不是这样的。更好的方法是,我尽量让别人发现我的弱点,然后据此我可以去改进它,变得越来越强。用术语来讲,就是去算一下对手的最优应对(Best response),让对手来利用你的弱点,然后用这个反过来提高自己的水平。

阿尔伯塔大学的DeepStack 

我们看到DeepStack的基本流程是AlphaGo和国象的某种混合版本,即有限深度的搜索,加上用值网络估值。具体来说,从当前状态出发向前看三四层的子树,在最底一层用值网络估算一下值(谁好谁坏),然后用通常的CFR去求解这棵子树的的最优策略。对于值网络来说,每个人有两张手牌,52选2,就有1326种情况,但每种情况都有概率,以这个作为输入。输入同时也包括当时的筹码数和公共牌。输出的是在每种手牌情况下,估计的值函数(counterfactual value)会是多少。

深度学习在游戏AI中的角色

之前说了各种各样的游戏AI,为什么Deep Learning 在其中扮演重要的角色呢?

游戏AI里需要解决的一个核心问题就是,给策略函数和值函数建模。那传统的方法存在两个缺陷,一个是传统方法需要很多手动步骤把一个大问题分解成子问题,然后把每个子问题单独建模,这个造成工作量很大;还有一个问题就是手调的参数太多,以前的游戏AI就是这样,每个参数都要调,人力是要穷尽的,这也是个缺陷;最后就是写游戏AI的人需要真的精通这个游戏。比如说写围棋AI,作者得要有棋力,然后把棋力变成一条条规则放进去。那现在我们用深度学习的方法,就会发现能够很大程度上解决这些问题,而且效果还好很多,像我围棋水平很烂也没有关系。这也是它为什么那么火的原因。

DarkForest 

接下来我介绍一下我们的围棋AI,DarkForest。当时我们在AlphaGo出来的3个月前(2015年11月),就发了一篇文章,并且公布了在KGS(一个国外的围棋平台)上的对局统计。当时很多人跑过来说这个很有意思,也有一些媒体报道。这个想法其实很简单,就是我们设计一个神经网络,输入当前局面,希望预测一步甚至三步的落子,通过这种方式提高性能。DarkForest当时在没有搜索的时候,在KGS上能够做到业余三段的水平,这在当时是非常有意思的结果。当然现在随便一个本科生都可以训练出来了。 

这是一些分析,左边是一些特征,右边是通过训练的时候,发现三步比一步要稳定,效果也要好一点。

当时我和我的实习生去参加第九届UEC的比赛,我们从DCNN里拿出来前3或前5步使用,每一步做蒙特卡洛树搜索了75000次,达到了业余五六段的水平,拿了第二名。之后我们就把代码都放在网上,大家都可以用,都是开源的。当然,我们在围棋上的投入还是比较少的。

DarkForest也可以拿来分析AlphaGO和李世石的对弈。可以发现胜率会有变化。第一局102手,AlphaGO的打入,当时讨论这是不是一个胜负关键点,至少会认为在那个点认为有点意思。我们也拿来分析一下,最近Master下的两局,也可以看到胜率的变化情况。

最近,我们也用了比较相似的框架做了First Person Shooter Game,当时做的是Doom,这是比较复古的一个游戏。就是在一个虚拟环境里用上下左右键操纵,然后看到敌人就开枪,最后看分数是多少。

我们在这个工作中用了Actor-Critic模型,不仅输出策略函数还输出值函数,两个函数是共享大量参数的。 这个模型我这里就讲一些直观上的理解。 

首先,这个模型在训练时,会奖励那些导致超越目前期望分数的行为。也就是说,我们对每个状态的值有一个估计,在做完了某个动作(或者一连串动作)之后,如果新状态的综合奖励值高于由值函数算出的预期,我们就可以更多地鼓励它做这个动作。

其次,我们希望值函数的估计越来越准。值函数一开始是随机的,这样就连带拖慢了整个算法的收敛速度。在训练时,我们可以用探索得来的综合奖励值去更新估计值。这样反复迭代,时间长了以后会迭代到真实的值。

另一个要求是增加多样性,我们希望输出的行动不要太集中在一个动作上,不然你会发现训练一阵之后AI变得很机械,只会做固定的动作,或者卡死在一些地方(比如说卡在角落里转不出来)。这个通过加一个最大熵的能量项来实现。

这是一方面,算是目前比较标准的强化学习的步骤。这篇文章的创新点是我们加了一个“课程学习”( Curriculum Training)的过程,因为游戏里地图比较复杂,需要让它先从简单地图学会基本操作(开枪、上子弹等),有了这些基本操作再把这个AI放到比较复杂的环境里再训练。 

像这个就是我们设计的简单地图。在这个地图里我们有8个不同的场景,每个场景里的敌人都不一样。第一个场景里敌人动作都非常慢,血也很少,可能一枪就打死了;第二个场景可能敌人行动快一些,难度大些,开始用火箭弹而不是用手枪来对付你。通过这种方法会把bot一点点慢慢训练出来,然后一点点让AI变得越来越强。 

我们参加了VizDoom AI Competition,这个是机机对战。我们拿了第一个Track的第一名。我们发现最后得分比其它参赛者的高很多。网上有一些视频可以看一下,视频里比较有意思,就是我们这个AI的动作比较坚决,击中和移动速度都比较灵活,打别的人时候,自己还会主动躲闪其它人射来的火箭弹。

除了机机对战,他们还做了一个比赛,让所有BOT跟一个比较厉害的人类打,很有意思。我们的BOT有30秒钟的分数超过人的水平,不过后来就不行了。你们会发现,机器和人会有不同的行为,因为人的反应速度不会特别快,但人有一些长期的计划,他会知道什么是你的弱点然后去利用它。但BOT在比赛的时候,并不具备学习的能力,所以它们都有恒定的行为模式。像有些BOT一直在转圈子,有些BOT在原地不动,还有些BOT(比如说第二名)就一边蹲着一边打人,没人打得到它。

这是一些分析,可以看到什么样的场景下它的值函数最高和最低。上面一排是分数最高的,也就是子弹马上就要打到对方了,我们的bot马上要得分,这个可以说是它最得意的时候;下面一排是分数最低的,也就是我给对方一枪,对方没死,但此刻我自己也没有子弹了。

以上,我们可以总结成下面两句关键点:

  • 第一点,就是通过搜索来做出对将来的规划和推理。 

  • 第二点,就是深度学习来做策略函数和值函数的逼近,是比较好的方法。 

其实很单调,不是么?接下来要做什么?其实我们还有很多问题没有办法解决,这里列了很小一部分。

  • 在星际里面,我们有指数级的行动可能,在这种情况下怎么做决策?

  • 如果你要用强化学习的方法来做,没有激励机制怎么办,这种情况下去训练一个机器人,它不知道怎么做才能提高自己的水平。但是人类似乎就可以找到自己的目标;

  • 多个AI间如何沟通协作;

  • 在虚拟环境中训练出一个AI,要如何应用于现实生活;

  • 我们训练模型,一般需要大量的数据(数百万级甚至上亿),但是人类稍微在一个环境里待一段时间就适应了,那么我们如何让机器也能做到这一点;

  • 如何让bot学会战略性思考,分清战略和战术的区别。如何让它的思考有层次性?

等等,还有很多问题等待我们去解决。

这就是我的发言,谢谢大家! 

AI科技评论注:目前田渊栋老师的演讲视频已上传到腾讯视频,欢迎关注“AI科技评论”后回复“田渊栋演讲”获取视频链接。

雷锋网

Facebook 推出 VR 全景应用,Oculus 卡马克起诉 ZeniMax | 沉浸感周刊

沉浸感周刊带你回顾一周 VR/AR 热门事件。

Facebook为Gear VR推全新应用,让你更容易找到VR内容

每天都有海量的 360° 全景照片和视频上传到 Facebook 平台,你可以通过 Gear VR 头显欣赏这些内容。但是其最大挑战在于,如何让用户在 Oculus Video Store 或者海量的自拍和病毒式传播视频里快速找到最好的 VR 内容。

了解决这个问题,Facebook 为 Gear VR 开发了一款专门的 App —— Facebook 360。它的界面主页有 4 个选项卡,分别为“Explorer”、“Following”、“Saved”、以及“Timeline”,可以帮助用户浏览以及启动 360° 媒体资料。比如“Explore”选项卡,会列出最受欢迎的上传内容,“Following”则会列出你的朋友或者你关注的所有内容。

Facebook 表示,到目前为止,该平台上已经有超过 100 万个 360° 视频以及 2500 万张 360° 照片。虽然这些数字让人印象深刻,但这些跟 Facebook 上所有媒体内容的数量相比,只能算是沧海一粟。

在发布新的 Gear VR 应用之后,Facebook 希望能够确保 360° 全景内容让尽可能多的观众看到。这对 Facebook 来说非常重要,因为如果不能激励用户观看这些内容,那么媒体或者内容创作者制作 VR 内容的积极性将受到打击。虽然他们对 VR 的兴趣消退,可能不会对 Facebook 整体的成功造成很大影响,但是对于 Oculus,以及其正在与三星进行的合作来说,可能是至关重要的。

Vive 追踪器实现全身追踪,HTC 将把它开源给所有开发者

据外媒 Uploadvr 报道,在此前刚结束不久的 MWC 和 GDC 大会上,他们深度体验了 Vive 追踪器。在身上绑上追踪器后,身体可精准地出现在 VR 中。据了解,HTC 也将向开发者开源 Vive 追踪器。

将三个 Vive 追踪器绑在脚部和腰上,你可以在《Island 359》(由 CloudGate Studio 制作的 VR 冒险游戏)来回走动,并能精准地在 VR 中看到自己的身体。你能够面对面地对抗恐龙,完全开启了新的控制方式,体验到别样的临在感。那么,除了在这款游戏中感受到 Vive 追踪器带来的良好体验外,是否还能用于其他游戏?

HTC 方面表示,他们正在研发 Vive 追踪器的全身追踪,之后所有开发者都可使用。HTC Vive 中国区总裁汪丛青表示,在中国的研发实验室,HTC 一直致力于研究全身追踪系统,该系统也将为所有开发者开源,免费让他们应用到 VR 内容中。

汪丛青解释说,Vive 追踪器追能自由选择。例如,《Island 359》用 Vive 手柄也可以玩的很好,不太需要在游戏中加入 Vive 追踪器,但是,如果使用了 Vive 追踪后,你会有更好的沉浸体验。也就是说,Vive 追踪器易于使用,其他开发者容易上手,这可能也是 Vive 追踪器最大的卖点了。

Vive 追踪器可能对像射击游戏具有重要的意义。目前来看,像《Superhot VR》这样的游戏会给你一个隐形的虚拟人物,但 VR 中看不到双手,躲子弹时感觉很奇怪。但如果你能看到身体,整个体验会容易理解一些。此外,Vive 追踪器在 VR 电影制作上也有大的应用潜力。

索尼 PS4 软件更新 4.5 版本:提升 PSVR 追踪性能

索尼将更新 PS4 系统软件到 4.5 版本,此次升级后将提升 PSVR 头盔的追踪效果,并增加 3D 蓝光播放。

随着《Farpoint》和 PSVR Aim 控制器的发布时间临近,PS4 系统将发布 4.5 版本,提升 PlayStation 摄像头对物体的追踪,包括对 Move 手柄和 Aim 控制器的追踪。此前参与 PSVR 和《Farpoint》的开发人员在 GDC 的演讲中确认到,《Farpoint》将于 5 月 16 日发布。

至于在追踪方面到底有哪些提升,该开发人员没有透露具体参数,但他表示主要是针对 Aim 控制器的提升,但整体追踪效果会增强。PS4 系统软件更新 4.5 版本后,追踪性能提升会应用于所有的 PSVR 游戏上,而不需要将游戏本身升级。PSVR 的开发者提醒用户,追踪性能没有重大的改变,但能明显感受到比之前的好。

据外媒 RoadtoVR 报道,自去年十月 PSVR 发售后,一直在提升追踪性能,大部分的改善是针对特殊情况,如强烈的光照条件。目前尚不清楚的是,比起此前的追踪效果,PS4 系统软件更新 4.5 版本到底会带来多大的改变。

59%的 VR 开发者使用 Unity,但基于 Unreal 的游戏赚的钱更多

在刚结束不久的 GDC 大会上,外媒 Venturebeat 记者分别采访了 Unity 公司 CEO John Riccitiello 和 Epic Games 的创始人 Tim Sweeney。

Epic 旗下的 Unreal Engine 4 从一开始专注于高端游戏,通过价格策略和迭代版本,他们开始不断向低端市场转移,使 Unreal Engine 4 成为移动端游戏开发的基础。与之相比,Unity 则关注低端游戏,让移动设备能够较好地运行 2D 和 3D 图形。不过,我们无法知道哪家在市场上更具优势,因为双方的数据没办法比较。

在采访中,Riccitiello 表示,2016 年通过 Unity 开发的游戏安装量已经超过 160 亿次,比 2015 年上升 31%。自 2106 年 GDC 到现在,用 Unity 开发的游戏已经被安装到 10 亿台新设备上。

他透露,据 VisionMobile 的调查数据显示,59% 的 VR 开发者正在使用 Unity。1000 款免费游戏中的 38% 是用 Unity 开发的,同时所有 Daydream 应用中的一半内容使用 Unity 开发。此外,一半的主机游戏和 PC 游戏的开发使用的是 Unity,70% 的移动端游戏也使用的是 Unity。

“我们的市场份额占到 4 或 5,”Riccitiello 说,“ 去年 Unity 的使用量增长了三倍,成为西方市场下一个最大用户量的引擎。越来越多的人使用 Unity 为苹果、谷歌和微软制作内容。”

美大学生用逆向工程,让 Gear VR 用上 SteamVR 的位置追踪

雷锋网消息,据外媒报道,日前,犹他州立大学的两名学生在逆向工程实践中,使用 SteamVR 的追踪技术让三星的 Gear VR 头显也具备了位置追踪功能。

目前比较流行的移动 VR 头显,例如三星的 Gear VR 和谷歌的 Daydream View 以及 Cardboard,都仅支持头部旋转追踪,这意味着用户可以从不同的角度环视四周,但是头部在 3D 空间的移动(如向前或者向后倾斜)则不能被追踪。位置追踪不仅增加了 VR 体验的舒适性,而且还加强了沉浸感,这是所有有线 VR 头显(如 HTC Vive 和 Oculus Rift )的都具备的一个功能。但是,要在移动 VR 头显上实现相同的功能并不是一件容易的事情。

作为移动 VR 头显迫切需要的一个功能,位置追踪很早就被 Oculus 列为内部优先开发的项目,并且诸如 Vico 和 Universe 之类的各种替代解决方案也已陆续出现。虽然未来可能是一体化的“inside-out”追踪技术,而微软的混合现实头显 HoloLens 以及谷歌的 Tango 也都已经初步实现这种功能,但犹他州立大学的两名学生 Bradly Riddle 和 Sam Junfertat 利用被验证过的 SteamVR 追踪系统为 Gear VR 搭建了一套位置追踪方案。

这两名学生的做法是:将三个可以检测来自 Lighthouse 基站闪光的红外传感器安装在 Gear VR 头显的前部,并将其连接到用来收集时序数据的微控制器。这些数据将通过 WiFi 以 UDP (用户数据报协议)数据包的形式传送给电脑,然后利用电脑上的 Unity 引擎来计算并呈现结果。

大朋 VR 头盔要捆绑戴尔电脑一起卖,还剧透了新款 PC 头盔 E3

雷锋网消息,3月9日,戴尔(DELL)与大朋 VR 在北京共同召开新闻发布会,宣布确认战略合作关系。

据了解,双方将利用各自的优势和渠道,以及戴尔公司的销售和服务团队共同推广戴尔、大朋的产品和解决方案,在产品规划、技术研发、生产制造、市场推广、销售渠道等各个环节结成紧密的合作伙伴关系,并逐步深化合作进程。此外,双方还将协力打造基于双方产品的内容生态,针对休闲用户、游戏玩家和内容创作者的不同需求和使用场景提供配套的 VR 解决方案。

谈到双方此次战略合作的达成,戴尔大中华区副总裁林浩介绍到,去年四月戴尔召开了中国 VR 战略新闻发布,当时便说明了戴尔(中国区)不做 VR 头盔,“致力于 VR 内容创建和消费的技术架构服务商”。双方在那时便有合作。

大朋 VR 首席战略官章立表示,新一代 PC 端头盔 E3 将于月底发布。戴尔将为他们提供一系列的电脑支持,从入门级笔记本电脑,到高端的 PC,让人们体验到 PC VR 头盔带来的更好体验。双方是互补的。

VR第一案又添新剧情,Oculus 卡马克反诉前雇主欠钱

雷锋网消息,Oculus 公司的 CTO 约翰·卡马克在本周二(美国当地时间)起诉 ZeniMax,控诉 ZeniMax 收购了他此前创建的游戏工作室 id Software,但未支付全部费用。2009 年 ZeniMax 收购 id Software,2013 年卡马克离开,加入 Oculus 担任 CTO。

据雷锋网了解,卡马克起诉称,ZeniMax 同意以 1 亿 5000 万美金收购 id Software,但 ZeniMax 没有支付所有现金。

当时收购 id Software 时,卡马克是主要持股人,并接受了价值超过 4510 万美元的可转换期票。他将期票的一半转换成 ZeniMax 的股份。卡马克起诉 ZeniMax,要求其支付另一半欠款。

雷锋网