‘乐鱼电竞’强化学习机器人也有很强环境适应能力，伯克利AI实验室赋能元训练+在线自适应

2024-06-12　阅读次

本文摘要：图一【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR 】(公众号：)按：在现实生活中，人类可以只能地适应环境的变化，但机器人在适应力方面却展现出得一般，要如何让机器人像人一样需要较慢适应环境现实世界呢？

图一【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR 】(公众号：)按：在现实生活中，人类可以只能地适应环境的变化，但机器人在适应力方面却展现出得一般，要如何让机器人像人一样需要较慢适应环境现实世界呢？加州大学伯克利分校人工智能实验室 BAIR 近期讲解了自己研究具备很高的环境适应能力的机器人的近期成果，全文编译器如下。人类需要无缝地适应环境的变化：成年人需要在几秒内学会拐杖两头走路；人们完全在瞬间可以拾起意料之外的轻物体；不必新的学走路，儿童也需要让自己的步法较慢适应环境从平地到上坡的改变。这种适应力在现实世界中起着很最重要的起到。另一方面，机器人一般来说被部署了相同不道德（无论编码还是自学），这让它们在特定的环境中做到的很好，但也造成了它们在其他方面做到很差：系统故障、遇上陌生地带或是遇上环境转变（比如风）、必须处置有效载荷或是其他意料之外的变化。

BAIR 近期研究的点子是，在目前阶段，预测和仔细观察之间的不给定应当告诉他机器人，让它去改版它的模型，去更加准确地叙述现状。荐个例子，当我们意识到我们的车在路上爆胎时（如图二），这不会告诉我们，我们的不道德经常出现了意料之外的有所不同影响，因此，这让我们适当地规划我们先前的行动。要让机器人需要更佳地适应环境现实世界，就要让它们需要利用它们过去的经验，享有较慢地、灵活性地适应环境的能力，这是最重要的一点。

为此，BAIR 研发了一个基于模型的较慢自适应元增强自学算法。图二【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR 】较慢适应环境先前的工作用于的是试错适应环境方法(Cully et al., 2015)以及权利模型的元增强自学方法(Wang et al., 2016;Finn et al., 2017)，通过一些训练，让智能体去适应环境。然而，BAIR 研究人员的工作是要让适应能力充分发挥到淋漓尽致。人类的适应环境不必须在新的设置下体验几回，这种适应环境是在线再次发生的，仅有在几个时间步内（即毫秒），太快了以至于无法被注意到。

通过在基于模型自学设置中适应环境元自学（下文不会辩论），BAIR研究人员构建了这种较慢适应环境。用作改版模型的数据应当在基于模型中设置，而不是根据推算出过程中取得的奖励而展开调整，根据近期经验，这些数据以模型预测错误的形式在每一个时间步长中发挥作用。

这个基于模型的方法需要让机器人利用仅有的少量近期数据，有意图地改版模型。方法阐述图三【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR 】BAIR研究人员的方法遵循图三中的普适公式，利用对近期数据的仔细观察去自适应模型，类似于自适应控制的总体框架(Sastry and Isidori, 1989; Åström and Wittenmark, 2013)。

然而，确实的挑战是，当模型是简单的、非线性的、高容量的函数近似于者（如神经网络）时，模型该如何顺利地自适应。为了展开有意义的自学，神经网络必须很多数据，因此，在模型权重上实施SGD是违宪的。因此，通过在（元）训练时间里具体地按照这个适应环境目标展开培训，需要在测试的时候较慢自适应，如下节所述。

在多种不同设置的数据中展开元训练，一旦获得了一个擅于自适应的先验模型（权重用θ∗来回应）之后，这个机器人就需要在每个时间步内（图三）根据这个θ∗来适应环境，把先验模型和当前的经验结合，把它的模型调整到合适当前状况的样子，从而构建了较慢在线自适应。元训练：等价给定时间步长t，我们正处于st阶段，我们在at时刻采取措施，根据底层动力学函数st+1=f(st,at)，我们最后将获得st+1的结果。对我们来说，现实的动态是不得而知的，所以我们反而想数值一些自学过的动力学模型s^t+1=fθ(st,at)，通过观察表单(st,at,st+1)的数据点，作出尽量好的预测。

为了继续执行不道德自由选择，策划者需要利用这个评估过的动态模型。假设在首次展出过程中，任何细节和设置都需要在任何时间步长内再次发生转变，我们将把继续相似的时间步看作需要告诉他我们近况的“任务”细节：在任何空间状态下运营，持续的阻碍，尝试新的目标/奖励，经历系统故障等等。因此，为了模型需要在规划上变为最简单的模型，BAIR研究人员想利用近期仔细观察到的数据展开首次改版。在训练时间里（图四），这个总和是自由选择一个倒数的(M+K)数据点的序列，用于第一个M来改版模型权重，从θ到θ′，然后优化新的θ′，让它擅长于为下一个K时间步预测状态切换。

在利用过去K点的信息调整权重后，这个新的阐释的损失函数代表未来K点的预测误差。【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR 】换句话说，θ不必须造成好的动态预测。忽略，它必须需要用于具体任务的数据点，将自身较慢适应环境到新的权重中去，依赖这个新的权重获得好的动态预测结果。

有关此公式的更好直观信息，可参看MAML blog post。图四【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR 】模拟实验BAIR研究人员在仿真机器人系统上展开实验，测试他们的方法在环境中适应环境瞬间变化的能力，并且在训练环境之外，这种方法否也需要一般化。

值得注意的是，BAIR研究人员对所有智能体展开任务/环境产于的元训练（参见本文），但是研究人员在测试的时候评估了它们对不得而知的和大大变化的环境的适应能力。图五的猎豹机器人在有所不同随机浮力的飘浮板上训练，然后在一个水里具备有所不同浮力的飘浮板上展开测试。这种环境指出不仅必须适应环境，还必须较慢/在线适应环境。

图六通过一个有有所不同腿部残疾的蚂蚁机器人做到实验，也指出了在线适应环境的必要性，但是在首次展出的时候，一条看不到的腿半途再次发生了故障。在下面的定性结果中，BAIR研究人员将基于梯度的适应环境学习者(‘GrBAL’)和标准的基于模型的学习者(‘MB’)展开较为，这个基于模型的学习者是在某种程度的训练任务变化但是没具体的适应环境机制中展开训练的。图五【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR 】图六【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR 】这个基于模型的元增强自学方法的较慢适应能力让这个仿真机器人系统在展现出和/或样本效率方面比起之前的最差的方法获得了明显的提高，以及在这同一个方法的对照实验中，有在线适应环境比起没在线适应环境、有元训练比起没元训练、有动态模型比起没动态模型，都可以看见系统展现出和/或样本效率的提高。

这些定量较为的下文可参看论文。硬件实验图七①【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR 】图七②【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR 】不仅要特别强调元增强自学方法的样本效率，而且还要特别强调在现实世界中较慢在线适应环境的重要性，BAIR研究人员在一个现实的动态的有足微型机器人展示了这个方法（见图七）。

这个小型的6脚机器人以高度随机和动态运动的形式，展出了一个建模和掌控的挑战。这个机器人是一个杰出的在线适应环境候选人，原因有很多：结构这个机器人用于了较慢生产技术和许多自定义设计步骤，这让它不有可能每次都拷贝完全相同的动力学，它的连杆机构和其他身体部位不会随着时间的流逝而发育，并且，它移动的速度十分慢，并且不会随着地形的变化而展开动态转变。BAIR的研究人员们在多种不同的地形上元训练了这个步行机器人，然后他们测试了这个智能体在线适应环境新任务（在运营的时候）的自学的能力，还包括较少了一条腿回头直线任务、从未见过的湿滑地形和斜坡、位姿估算中具有校正错误或误差，以及首次让它机车载荷。在硬件实验中，BAIR的研究人员们把他们的方法和两个方法做到了较为，1，标准的基于模型自学(‘MB’)的方法，这个方法既没自适应也没元自学；2，一个具有适应环境需要力的动态评估模型（‘MB’+“DE”），但它的适应能力是来自非元自学获得的先验。

结果（图8-10）指出，不仅必须适应力，而且必须从显式的元自学获得的先验展开适应环境。图八【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR 】图九【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR 】图十【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR 】通过有效地在线适应环境，在较少了一条腿回头直线的实验中，BAIR的方法制止了飘移，制止了滑下斜坡，说明了位姿错误校准，以及调整到机车有效载荷。

值得注意的是，这些任务/环境和在元训练阶段自学的运动不道德有充足的共性，从先前的科学知识（不是从零开始自学）中萃取信息是简单的，但是他们的差异相当大，必须有效地的在线适应环境才能顺利。图十一【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR 】未来方向通过用于元自学，这项工作需要让高容量神经网络动态模型在线适应环境。从以前的元自学开始，通过让模型的局部微调，BAIR研究人员回避了对准确全球模型的市场需求，而且需要较慢适应环境到新的情景中，例如意料之外的环境变化。

尽管BAIR研究人员展现出了仿真和硬件在有所不同任务中的适应环境结果，但是，仍不存在许多涉及的改良途径。首先，虽然这种设置很强劲，它总是从提早训练的先验中展开微调，但这个方法有一个容许，就是即使看了几遍这个新的设置，也不会获得像第一次看见的某种程度的展现出。在先前工作中，BAIR研究人员将采取措施，准确地解决问题这个随时间而显得相当严重的问题，同时不要也因为试验了新技能而记得原有技能。另一个提升的领域包括了制订条件或分析性能，以及适应环境的容许：鉴于前面所包括的科学知识，什么是需要适应环境的？什么是不需要适应环境的？荐个例子，两个人正在学骑自行车，谁不会忽然在路面减速呢？假设这两个人之前都没有骑马过自行车，因此他们也不有可能从自行车上摔下来过。

在这个实验中，第一个人A可能会跌倒，手腕伤势，然后必须展开几个月的物理化疗。忽略，另一个人B有可能糅合与他先前习过的武术科学知识，从而继续执行了一个较好的“摔倒”程序（也就是说，跌倒的时候下坠背部来缓冲器而不是尝试用手腕来弱化上升的力量）。

这就是一个实例，当这两个人都在尝试继续执行一项新任务的时候，那些他们先前科学知识中的其他经验不会明显地影响他们适应环境尝试的结果。因此，在现有的科学知识下，有某种机制来解读适应环境的局限性，应当不会很有意思。原论文地址：https://arxiv.org/abs/1803.11347（已被 ICLR 2019 接管）项目主页：https://sites.google.com/berkeley.edu/metaadaptivecontrol代码开源地址：https://github.com/iclavera/learning_to_adapt录：本文编译器自BERKELEY BAIR版权文章，予以许可禁令刊登。

下文闻刊登须知。

本文关键词：乐鱼电竞

本文来源：乐鱼电竞-www.shunqisiwang.com

上一篇: 以后的Kindle可能变成彩色显示哟【乐鱼电竞】

下一篇: 乐鱼电竞：IoT：利尔达的半壁江山

网站首页

关于乐鱼电竞

荣誉资质

新闻资讯

工程管理

联系乐鱼电竞