搜索
当前位置: 678彩票官网 > 递归计算 >

多智体深度强化学习研究中首次将概率递归推理引入AI的学习过程

gecimao 发表于 2019-04-18 14:27 | 查看: | 回复:

  受人类递归推理思维启发,UCL汪军教授组在多智体深度强化学习研究中首次将概率递归推理引入AI的学习过程,让智能体在决策前预测其他智能体的反应对自身的影响。这项工作提升了AI群体思考深度,也为MARL研究提供了全新的思路。

  假设你跟其他正在看这篇文章的读者一起玩一个游戏,从0到100当中猜出一个数,最后最接近所有人猜的数字平均值的2/3的那个人获胜,那么作为一个个体,你会说几?

  这个游戏来自著名的博弈论游戏“猜平均数的三分之二”(guess 2/3 of the average-game),严格来说,人类玩家之间并没有一个必胜的策略。但是,通过不断思考对手可能的决策,这个游戏的众多答案中就会出现一个唯一的纳什均衡,也就是0。

  0到100的平均值是50, 如果每个个体完全不考虑对手的数字而是随机选择一个数字,那么猜的数字的均值就是50.

  这时候有人就可以想了,假设其他人都是无脑瞎猜,那么要获胜,自己就需要多想一步,说出50的三分之二也就是“50*2/3=33”。

  假设其他人都说“33”,又会有人想,要获胜,自己就需要再多想一步,说出33的2/3“22”。

  这个过程不断重复下去,最终,就会得到0。实际上,0也是这个问题的纳什均衡。

  但注意,这是在所有人都完全极度理性的情况下,现实生活中,没有人是绝对理性的,所以并不会出现所有人都猜到0的情况,一般群体能收敛到“22-33”之间已经很不错了。

  更重要的是,这个游戏充分说明了预测其他人猜的数字对自己将要给出的结果的影响即使是完全理性的玩家,在这样的游戏中也不应该猜“0”,除非能够确认:1)其他玩家也都是理性的,2)每个玩家都知道其他玩家是理性的。

  只要上述两点没有同时成立,也即存在非理性玩家的情况下,要获胜至少应该猜大于0的数字。现实生活中,大多数情况下人类的决策都会有非理性的因素。为了对真实的决策过程更好的建模,那么考虑非理性的因素对于多智能体AI的研究来说就是至关重要了。

  1981年,Alain Ledoux在他的法国杂志《游戏与策略》(Jeux et Stratgie)中提出了“猜平均数的三分之二”这个游戏,结果分布如下图。

  1981年2898位读者参与“猜平均数2/3”的结果分布,来源:维基百科

  这个游戏也可以用来反映群体的“思维深度”,最终数字越小,说明群体的思考层数(回数)越多。

  实验心理学领域详细研究了不同职业不同人的思维深度,厉害的国际象棋大师能够预测未来7个来回甚至更远的情况,然后根据预测,返回来决定眼下在哪里落子。事实上,人类作为一个整体平均的思维深度是1.5 2。

  绝大多数的人都会在做事前对自己行为的结果进行某种程度上的预估,具体说,人会先预测自己的行为可能对他人影响,然后再进一步预测受了影响的他人将如何反过来影响自己,这是一个递归的过程。

  认知心理学认为,递归推理(recursive reasoning)也即推测他人认为自己在想什么,是人类固有的一种思维模式,在社交生活中对人类行为决策起到重要作用。放在猜数字游戏里,就是“我猜你猜我在想什么”。

  在传统的多智体学习过程当中,有研究者在对其他智能体建模(也即“对手建模”, opponent modeling)时使用了递归推理,但由于算法复杂和计算力所限,目前还尚未有人在多智体深度强化学习(Multi-Agent Deep Reinforcement Learning)的对手建模中使用递归推理。

  在被深度学习顶会ICLR 2019高分接收的一篇最新论文中,UCL汪军教授组首次将递归推理的思维模式引入多智体深度强化学习。

  具体说,他们提出了一个递归概率推理框架Probabilistic Recursive Reasoning, 简称PR2,让每个智能体在决策时考虑其他智能体将如何回应自己接下来的行动,然后做出最优的决策。

  k 阶递归推理图模型。a代表思考深度,隐式的对手建模用函数-i逼近。0阶模型认为对手完全随机。上图灰色区域表示智能体 i 的递归推理思考过程。想得更深一级的智能体返回得出当前轮次的最优结果。每一级计算都包含上一级的计算,比如2阶包含1阶。来源:

  基于PR2框架,研究人员提出了分别对应连续和离散动作空间的PR2-Q 和 PR2-Actor-Critic算法。有趣的是,这些算法是天生的分布式算法,不需要Centralized Value Function。多次实验结果表明,PR2有效提升了多智体强化学习中单个智能体的学习效率。

  “我们在MARL智能体的递归推理中,使用了概率图模型建模,最后得到了一个soft learning的结果,”参与这项工作的UCL计算机学院博士生Yaodong Yang告诉新智元:“巧妙的是,这和单智能体的最大熵强化学习有相通之处。”

  研究人员希望这项工作为MARL的对手建模带来一个全新的角度。论文的第一作者、UCL计算机学院的博士生温颖在接受新智元采访时表示:“在PR2的基础上,针对更深层的递归推理,我们设计了一个特殊的trick,能保证训练时每一步更深层的推理都比上一次迭代要好,同时不是无限制地计算下去,那样的话计算资源的消耗太大。”

  研究负责人UCL汪军教授说:“ICLR的工作主要是考虑了1阶递归思考,也就是考虑别人会怎么想自己,接下来,我们将继续研究多智体强化学习中AI的递归推理,在ICML 2019的投稿中,我们将其推广到 n 阶递归思考的过程,从而让多智能体AI在更加有效有意义的纳什均衡,相关理论将在机器人、自动驾驶汽车等应用中都有重要意义。”

  原文标题:ICLR19高分论文:为思想“层次”建模,递归推理让AI更聪明

  文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

  主题简介及亮点:以AI智能语音陪护机器人为载体,彻底讲解整个机器人研发的全流程,从开发环境搭建、到软硬件设计、再到现场写

  人工智能无疑正在成为这个时代最火热的关键词,也成为本届车展各界关注的一个重点领域。在向人工智能时代迈....

  随着近些年政府、企业等各方人员的共同努力,平安城市已不再是遥远的概念规划,而是切切实实走进了我们的日....

  三星代工业务高级副总裁Shawn Han表示,这款芯将于明年第二季度全面生产。新的芯片可以帮助三星为....

  今年来,以深度学习为核心的人工智能技术得到广泛引用,而2018年图灵奖颁给了深度学习领域三剑客。得益....

  “芝麻,芝麻,开门吧。”随着阿里巴巴一声咒语,山洞的大门应声打开,阿里巴巴发现洞里大量财宝和金币……....

  坦桑尼亚一位农民拿着手机对着枯萎的木薯植株扫描。在几秒钟内,她就能诊断出影响这种农作物的疾病,以及如....

  利用特定图像进行干扰,特斯拉的 Autopilot 输出了「错误」的识别结果

  自动驾驶是未来智能交通的发展方向,但在其安全性获得完全检验之前,人们还难以信任这种复杂的技术。

  传感器、加速计算、存储以及物联网、人工智能和工业4.0等等话题是当下半导体产业的关注焦点。日前,在第....

  从去年开始,手机中的人工智能应用开始大规模普及,为我们带来丰富的应用特性。

  近日,中国畜牧业协会智能畜牧分会成立大会在北京隆重召开。大会汇集来自研究机构、养殖企业的负责人,科学....

  当前,智慧社区进入AI时代,产品品类变得越来越丰富,相应所涉及的领域也更加广泛。智慧社区中有如下的....

  以人工智能为引擎的第四次工业革命,正驱动新一轮产业变革,引领人类进入一个万物感知、万物智联、万物智能....

  联合国人居署与腾讯在纽约联合国总部共同举办主题研讨会,探讨地球所面临的最基础的挑战,以及如何利用人工....

  人工智能已经不是什么新鲜词汇,单靠简单的黑科技和炫酷外观是无非吸引买家眼球的,更重要的是产品的智能化....

  据称,该委员会将重点对人脸识别、机器学习算法等争议性应用给出更负责任的意见,对其中涵盖的伦理和准则问....

  Rizon是世界上第一个自适应机器人,结合了前沿的力觉控制及AI技术,为最终在制造业、医疗、零售等多....

  纵观2018年,从硬件到软件,从自动驾驶配送服务到自动驾驶卡车运输,众多自动驾驶初创公司正在为我们勾....

  人工智能伦理是机器人和其他人工智能生物特有的技术伦理的一部分。它通常分为机器人伦理(roboethi....

  凭借 Twitter 治理天下的美国总统特朗普发消息称,“刚刚与 Google CEO 皮查伊会面,....

  据Gartner统计,2018年全球手机终端消费的市场规模超4100亿美元,远高于PC和平板的210....

  重量仅17g的搜狗智能录音笔,能否用AI+互联网重新定义“传统产业”?

  再譬如搜狗最新推出的一款智能硬件——搜狗智能录音笔C1,虽然重不过17克,大小不过拇指一般,但这背后....

  「安博会上那么多人脸识别一体机,无论系统根据现场情况如何进行了调整,你一家一家观察下来会有一些答案。....

  我们拥有前所未有的海量重要数据,这些数据不仅可以用于各行各业的高效预测,还可以真正成为企业创收和颠覆....

  和前几年一样,看衰AI行业前景的言论最近又此起彼伏。难道真如该观点支持者们所说的那样,”投资额减少、....

  类脑智能作为人工智能的另一条发展路径,也是实现通用人工智能的最可能路径,成为各国的关注焦点。

  过去20多年,中国是全球唯一没有发生大面积停电事故的国家。背后的原因有很多,其中最重要的是中国有很多....

  近日,云从科技与国美零售签署战略合作协议,双方将共同开启AI技术在零售领域的深度应用,基于AI技术实....

  今天我们就来学习用Keras构建模型,识别NSFW图片,俗称造个鉴黄AI。

  虽然行走和抓取对许多生物来说是小菜一碟,但机器人在步态移动和灵巧性方面一直不尽人意。

  “AI对人类来说只是一个孩子,18年以后是给你一个温暖的拥抱,还是用一把刀对着你,这是由人类自己决定....

  日前,中怡康时代公布了2019年四月及五一彩电市场预测报告,数据显示,四月及五一假日促销期彩电零售量....

  进入2019年,AIoT已是群雄入场,在新的一年还将迎来更多的伙伴,AIoT赋能产业本身就是互相依托....

  “正是站在华为这个巨人的肩膀上,企业通信业务不论在用户体验,还是在产品的前瞻性研究,都走在行业前列。....

  “人工智能”这个词汇在社会各大领域中出现的次数愈发频繁。无论是生产建设、经营管理,抑或是日常生活,都....

  2025年全球将有650万个5G基站 华为胡厚崑谈万物互联智能世界两大趋势

  4月16日,在深圳华侨城洲际酒店大宴会厅,华为全球分析师大会盛大召开,华为轮值董事长胡厚崑表示,未来....

  学术出版商 Springer Nature 出版了第一本由 AI作家创作的书籍

  学术出版商 Springer Nature 出版了第一本由机器学习生成的书籍——《锂离子电池:机器生....

  在本次活动中,阅面科技联合创始人宋向明在现场为大家分享了一个人工智能领域从业者眼中的未来智能与社区生....

  未来是一个伟大的时代,刷脸在银行取钱、招手即停的无人驾驶车、在家就能就医的智慧医疗等等这些,人工智能....

  在 AI 语音助手界,资历最老的前辈 Siri 如今却时不时要被大家拿出来用「人工智障」调侃几句,或....

  MIT研发“神经架构搜索”算法,将AI优化的AI设计过程加速240倍或更多

  麻省理工学院(MIT)的一个研究小组将展示一种所谓的“ 神经架构搜索”算法 ,该算法可以将AI优化....

  其他配置方面,小米9SE布朗熊限量套装与小米9SE普通版一样。搭载了骁龙712处理器,电池容量为30....

  作为面部识别系统的构建方,那些试图通过这种富有威胁性的技术来获利的企业,不该忽视自己责任和潜在危害,....

  高通公司估计Cloud AI 100的峰值性能将是Snapdragon 855和Snapdragon....

  英特尔与西门子医疗(Siemens Healthineers)* 正在合作开发一种突破性的基于人工智....

  DeepMind以光学相干断层扫描视网膜图像 AI技术尚难以取代医生专业

  DeepMind以光学相干断层扫描(Optical coherence tomography,OCT....

  高通发布加速 AI处理速度的新型数据中心芯片,与NVIDIA、Intel争夺市场

  据报道,高通于美国当地时间周二发布了一款可以加速人工智能处理速度的新型数据中心芯片,从而进入目前由英....

  人工智能时代,每一个体都是单一的存在,同时,每一个体业也是相互拥有。物联网将设备与设备之间互联,形成....

  谷歌表示,它们对语音模型进行了改进,“让客户能更容易与虚拟代理进行对线、Avaya、....

  作者们提出的方法让机器人有能力学习如何把不同的物体当作工具以完成用户给定的任务(第一行图中用黄色箭头....

  来自加拿大人工智能公司Element AI近日推出一份《2019年全球AI人才报告》,旨在对快速变化....

本文链接:http://windsorflowers.net/diguijisuan/139.html
随机为您推荐歌词

联系我们 | 关于我们 | 网友投稿 | 版权声明 | 广告服务 | 站点统计 | 网站地图

版权声明:本站资源均来自互联网,如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

Copyright @ 2012-2013 织梦猫 版权所有  Powered by Dedecms 5.7
渝ICP备10013703号  

回顶部