使用潜在动作向量调节的控制器神经网络来控制机器人的制作方法

allin2025-03-31  17



背景技术:

1、本说明书涉及使用机器学习模型来处理数据。

2、机器学习模型接收输入并基于所接收的输入生成输出,例如预测输出。一些机器学习模型是参数模型,并且基于所接收的输入和模型的参数值来生成输出。

3、一些机器学习模型是采用多层模型来生成接收到的输入的输出的深度模型。例如,深度神经网络是包括输出层和一个或多个隐藏层的深度机器学习模型,每个隐藏层将非线性变换应用于接收到的输入以生成输出。


技术实现思路

1、本说明书总体上描述了一种实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统,该系统使用包括任务策略神经网络和低级控制器神经网络的分级控制器来控制与环境交互的智能体。

2、可以实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。

3、所描述的技术通过使用可以将潜在动作向量映射到智能体的有效控制输入的低级可重复使用延迟调节控制器来控制智能体。在下面描述的技术的示例中,控制器的架构防止控制器在训练期间简单地记忆潜在动作序列,而是代替地允许控制器有效地控制真实世界机器人,即使当控制器(和对应的任务策略神经网络)在仿真中被训练时。此外,在示例中,控制器的架构导致在真实世界中安全采用的控制输入,即,避免可能导致机器人磨损或导致硬件故障并且通常存在于其他仿真训练系统中的高扭矩和急动(jerk)。

4、通过如示例中所描述的训练该模型,系统可以使用相同的控制器基于参考轨迹集来学习机器人的可重复使用的运动技能的多样的集合,例如,该参考轨迹集描绘自然人或动物移动或描绘硬连线机器人的移动。习得的技能是多用途的,使得它们可以用于各种不同的任务,例如行动(locomotion)任务,并且它们是稳健的,使得它们可以被传送到真实机器人,同时保持由其他智能体采用的期望的平滑和自然外观的运动风格。

5、参考示例描述的方法减轻了在训练面向任务的控制器时对精心设计的学习目标或正则化策略的需要,并且构成了用于学习有用和功能机器人技能的一般策略。

6、在附图和下面的描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求,主题的其他特征、方面和优点将变得显而易见。。



技术特征:

1.一种用于控制与环境交互的智能体以执行任务的方法,所述方法在多个时间步中的每个时间步处包括:

2.根据权利要求1所述的方法,其中,所述智能体是机器人,并且其中,所述环境是真实世界环境。

3.根据权利要求2所述的方法,其中,所述任务策略神经网络已经通过强化学习被训练以控制仿真智能体在所述真实世界环境的计算机仿真中执行所述任务。

4.根据权利要求3所述的方法,其中,所述低级控制器神经网络在通过强化学习训练所述任务策略神经网络之前被预训练,并且在通过强化学习训练所述任务策略神经网络期间被保持固定。

5.根据权利要求3至4中任一项所述的方法,其中,所述任务策略神经网络已经通过动演员-评论员强化学习技术与值神经网络联合训练,并且其中,所述值神经网络被配置为:

6.根据权利要求5所述的方法,其中,所述附加信息包括以下中的一个或多个:

7.根据任一前述权利要求所述的方法,其中,所述第一神经网络分支包括一个或多个递归神经网络层,并且所述第二神经网络分支仅包括前馈神经网络层。

8.根据任一前述权利要求所述的方法,其中,通过包括多个第一神经网络层的第一神经网络分支处理所述传感器数据以生成第一分支输出包括:

9.根据权利要求8所述的方法,其中,所述第二分支输入进一步包括所述归一化传感器数据。

10.根据任一前述权利要求所述的方法,其中,从所述第一分支输出和所述第二分支输出生成所述策略输出包括:

11.根据任一前述权利要求所述的方法,其中,所述方法进一步包括:

12.根据权利要求11所述的方法,其中,所述任务输出包括(i)所述潜在动作空间上的多变量高斯分布的均值和(ii)所述潜在动作空间上的所述多变量高斯分布的协方差矩阵。

13.根据权利要求12所述的方法,其中,所述任务输出包括(iii)过滤值,并且其中,生成所述概率分布的所述参数包括:

14.根据权利要求13所述的方法,其中,将所述过滤值应用于所述任务输出中的所述均值以生成所述概率分布的均值包括:

15.根据权利要求13所述的方法,当还从属于权利要求4时,其中,将所述过滤值应用于所述任务输出中的所述均值以生成所述概率分布的均值包括:

16.根据任一前述权利要求所述的方法,当还从属于权利要求3时,其中:

17.根据权利要求16所述的方法,当还从属于权利要求13至15中的任一项时,其中:

18.根据任一前述权利要求所述的方法,其中,所述观察进一步包括表征所述任务的任务数据。

19.根据权利要求18所述的方法,其中,所述任务数据包括以下中的一个或多个:

20.一种用于训练高级编码器神经网络和低级控制器神经网络的方法,

21.根据权利要求20所述的方法,其中,所述调度是所处理的环境步数量的递增函数,并且其中,根据所述调度增加所述正则化强度值包括:

22.根据权利要求21所述的方法,其中,所述调度将阈值数量之后的每个环境步数量映射到恒定最大值。

23.根据权利要求20至22中任一项所述的方法,其中,所述概率分布是所述潜在动作空间上的自回归分布。

24.根据权利要求23所述的方法,其中,所述概率分布是在所述潜在动作空间上的1阶自回归分布。

25.根据权利要求20至24中任一项所述的方法,其中,所述一个或多个模仿学习项包括一个或多个奖励项,所述一个或多个奖励项各自测量所述智能体模仿每个对应智能体的良好程度的对应方面,并且其中,在所述训练数据上训练所述高级编码器神经网络和所述低级控制器神经网络包括通过强化学习在所述训练数据上训练所述高级编码器神经网络和所述低级控制器神经网络。

26.一种系统,包括:

27.一个或多个非暂时性计算机存储介质,所述一个或多个非暂时性计算机存储介质存储指令,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行所述操作。


技术总结
用于控制智能体的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。具体地,可以使用包括任务策略神经网络和低级控制器神经网络的分级控制器来控制智能体。

技术研发人员:斯蒂芬·博贺兹,萨兰·图恩雅苏弗纳库尔
受保护的技术使用者:渊慧科技有限公司
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-19780.html

最新回复(0)