您的位置:首页 >资讯>春季养生

强化学习中智能决策的新方法

2023-08-03 01:47:51 来源:互联网 收藏
导读 7 月 6 日发表在《智能计算》上的一篇新论文提出了复杂动态环境中智能决策的强化学习面临的主要挑战。强化学习是机器学习的一种,其中代...

7 月 6 日发表在《智能计算》上的一篇新论文提出了复杂动态环境中智能决策的强化学习面临的主要挑战。

强化学习是机器学习的一种,其中代理通过与环境交互来学习做出决策并获得奖励或惩罚。代理的目标是通过确定在不同情况下采取的最佳行动来最大化长期奖励。然而,南京大学的吴晨阳和张宗章研究员坚信,单纯依靠奖惩的强化学习方法无法成功产生学习、感知、社交、语言、泛化和模仿等智能能力。

吴和张在他们的论文中指出了他们认为当前强化学习方法的缺点。一个主要问题是需要通过反复试验收集的信息量。与人类可以利用过去的经验进行推理并做出更好的选择不同,当前的强化学习方法严重依赖于大规模重复尝试的代理来学习如何执行任务。当处理涉及影响结果的许多不同因素的问题时,智能体有必要尝试大量的示例来找出最佳方法。如果问题的复杂性略有增加,则所需示例的数量会快速增长,从而使代理高效运行变得不切实际。去把事情弄得更糟,即使智能体拥有确定最佳策略所需的所有信息,弄清楚它仍然非常困难且耗时。这使得学习过程缓慢且低效。


(资料图片仅供参考)

统计效率低下和计算效率低下都阻碍了从头开始实现通用强化学习的实用性。当前的方法缺乏在没有大量计算资源的情况下充分发挥强化学习在开发多种能力方面的潜力所需的效率。

吴和张认为,可以通过获取观测中的高价值信息来克服统计和计算挑战。这些信息可以仅通过观察来改进策略,而不需要直接交互。想象一下,一个智能体需要多长时间才能通过下围棋来学习下围棋——换句话说,通过反复试验来学习下围棋。然后想象一下,通过阅读 Go 手册(换句话说,通过使用高价值信息),代理可以学习得快得多。显然,从信息丰富的观察中学习的能力对于有效解决复杂的现实世界任务至关重要。

高价值信息具有两个独特的特征。首先,它不是独立且同分布的,这意味着它涉及复杂的相互作用和依赖关系,这与过去的观察不同。要充分理解高价值信息,必须考虑其与过去信息的关系并承认其历史背景。

高价值信息的第二个特征是它与计算感知代理的相关性。拥有无限计算资源的智能体可能会忽视高级策略,而仅依赖基本级规则来得出最佳方法。这些代理忽略更高级别的抽象,这可能会导致不准确,并且优先考虑计算效率而不是准确性。只有意识到计算权衡并能够欣赏计算有益信息的价值的代理才能有效地利用高价值信息的好处。

为了使强化学习能够有效利用高价值信息,必须以新的方式设计代理。根据他们将智能决策形式化为“有界最优终身强化学习”,吴和张确定了代理设计中的三个基本问题:

克服信息流的非独立性和同分布性,动态获取知识。这需要将过去与未来联系起来,并将持续的信息流转化为可供未来使用的有用知识。然而,有限的计算资源使得不可能记住和处理整个交互历史。因此,需要结构化知识表示和在线学习算法来增量组织信息并克服这些限制。

在给定有限资源的情况下支持有效推理。首先,在计算限制下,有助于理解、预测、评估和行动的普遍知识已经不够了。为了应对这一挑战,高效推理需要一种结构化的知识表示,该知识表示能够利用问题结构并帮助代理以特定于问题的方式进行推理,这对于计算效率至关重要。推理过程的第二个方面是顺序决策。这在指导智能体确定其行动、处理信息和制定有效的学习策略方面发挥着关键作用。因此,为了最大化计算资源的利用率,元级推理变得必要。第三,成功的推理需要智能体有效地将其内部能力与从外部观察中收集的信息结合起来。

确定推理目标,确保代理人寻求长期回报,避免仅仅受短期利益驱动。这就是所谓的探索-利用困境。它涉及在探索环境以收集新知识和根据现有信息利用最佳策略之间找到平衡。当考虑计算角度时,这种困境变得更加复杂,因为代理的资源有限,必须在探索替代计算方式和利用现有最佳方法之间取得平衡。由于在复杂环境中探索一切是不切实际的,因此智能体依靠其现有知识来概括未知的情况。解决这一困境需要将推理目标与智能体的长期利益结合起来。还有很多东西需要理解,特别是从计算的角度来看。

版权声明:本文由用户上传,如有侵权请联系删除!

关键词:

相关的文章>>

标签:
7月6日发表在《智能计算》上的一篇新论文提出了复杂动态环境中智能决策[ 查看全文 ]
标签:
图灵波浪看市82再次收获原油上涨130余点继续多原油原油由于多头趋势强[ 查看全文 ]
标签:
欧美股市最新实时行情报告近期,欧美股市涨势持续,全球股市也在反弹。[ 查看全文 ]
标签:
海科新源8月2日在互动平台上称,目前电池回收仍处于起步阶段,公司也在[ 查看全文 ]
标签:
为保证案件调查顺利进行,最大限度地维护投资人权益,请尚未报案的投资[ 查看全文 ]
标签:
中新网8月2日电据北京西站官方微博消息,受降雨影响,8月2日北京西站、[ 查看全文 ]
标签:
CAD立体三维茶壶如何绘制当我们想要画一个立体的茶壶模型,该如何绘制[ 查看全文 ]
标签:
2023年8月2日氧化钴、碳酸锂、高镍生铁最新价格。[ 查看全文 ]
标签:
在布莱顿队的年度颁奖典礼上,布莱顿球员莫伊塞斯-凯塞多分别被评为由[ 查看全文 ]
标签:
为有效发挥党支部书记的“领头羊”作用,深化打造“一支部一品牌”。近[ 查看全文 ]
标签:
实行能源消费总量和强度双控是落实生态文明建设要求、促进节能降耗、推[ 查看全文 ]
标签:
进村没有垃圾、入户不见闲杂,小康房鳞次栉比、水泥路通村入户……走在[ 查看全文 ]
标签:
8月1日,工银创新成长混合A最新单位净值为0 7184元,累计净值为0 7184[ 查看全文 ]
标签:
8月2日电,慧智微在互动平台表示,公司将积极布局5G毫米波等产品线,进[ 查看全文 ]
标签:
墨玉主要产自中国新疆、甘肃、内蒙古等地区,墨玉产于新疆的主要有喀纳[ 查看全文 ]
标签:
原标题:ATP巡回赛商竣程、张之臻双双获胜新华社华盛顿8月1日电在1日进[ 查看全文 ]
标签:
抖音作为最受欢迎的短视频软件,里面不仅有很多好看的视频还有很多好听[ 查看全文 ]
标签:
2天下完了以往近2年的雨。为什么千里之外的“杜苏芮”会让北方内陆地区[ 查看全文 ]
标签:
得益于与Adob​​e、Autodesk、Linux基金会和Nvidia的合作,利用皮克斯[ 查看全文 ]
标签:
据日本共同社当地时间8月2日消息,位于日本福井县的日本关西电力公司高[ 查看全文 ]

热门标签

热门搜索:

春季养生 健康问答 资讯

资讯

更多
  • 欧美股市最新实时...

  • 海科新源:目前电...

  • 受降雨影响,8月2...

  • CAD立体三维茶壶如...

  • 去意已决?凯塞多...

  • 一四四团:织密建...

图说健康

更多

体育健身

更多