400米2分34秒破纪录伯克利双足机器人接管人类

2024-3-27 16:00| 发布者: admin| 查看: 84| 评论: 0|来自: superlife.ca

摘要: 　　UC伯克利的双足机器人，400米直接跑进了2分34秒，这个速度属实是超越不少人类了。而背后的RL通用框架，让它无论是站立，还是跑步、跳高、跳远

　　UC伯克利的双足机器人，400米直接跑进了2分34秒，这个速度属实是超越不少人类了。而背后的RL通用框架，让它无论是站立，还是跑步、跳高、跳远，动作都十分丝滑。　　UC伯克利的双足机器人，跑步又破纪录了！　　最近，HYBRID ROBOTICS研究团队的Cassie，给我们来了一段惊艳的表演—— 　　以2分34秒的成绩，跑完了400米！　　随后，它又在不需要额外训练的情况下，完成了1.4米的跳远。　　是的，相信你已经注意到了，它的外形十分独特——只有下半身！　　没错，跑步什么的，要上半身干啥。　　400米冲刺脚下生风　　没有腿意味着什么？当然是——速度就是一切！　　一声令下，Cassie就开始跑400米了。　　只见它两脚生风，脚步敏捷。　　就是，不知道脚下这双跑鞋有没有速度加成？　　可以看到，Cassie的跑步姿势十分标准，没有任何累赘的动作。　　而研究人员则全程跟在后面陪跑。　　现在，Cassie在做最后的冲刺，它集中精力一鼓作气，一跃而冲过了终点线。　　它最后的成绩是——2分34秒！　　这个成绩，或许已经超越了不少人类。　　算起来，Cassie的步速是每分155.6米。　　在21年，Cassie在中途不充电的条件下，完成了5公里的户外长跑，用时53分钟，这个步速是每分94.3米。　　这个进步是肉眼可见的。　　Cassie是利用神经网络强化学习进行训练的，因此，它可以从头掌握简单的技能，比如原地跳跃、向前走或跑而不摔倒。　　它被孤立模仿人体动捕的数据，和动作的演示动画。　　最后，团队还测试了Cassie的跳远能力，注意，这是在它没有经过额外训练的情况下。　　它的成绩是1.4米。　　RL通用框架，跑步、跳高、跳远多才多艺　　Cassie怎么这么强？　　我们在这篇发表于1月底的论文中，找到了答案。　　　　论文地址：https://arxiv.org/pdf/2401.16889.pdf 　　利用深度强化学习（RL），研究者为双足机器人创建了动态运动控制器。　　他们开发出了一种通用控制解决方案，可用于一系列动态双足技能，比如周期性行走，跑步，以及非周期性的跳跃和站立。　　　　这个通用控制框架，可以实现各种周期性和非周期性的双足运动技能　　基于强化学习的控制器，他们采用了新颖的双历史架构，利用了机器人的长期和短期输入/输出(I/O)历史。　　当通过端到端强化学习方法进行训练时，这种控制架构在模拟和现实世界中的各种技能上，都始终优于其他方法。　　另外，RL系统还引入了适应性和鲁棒性。　　可以证明，通过有效利用机器人的I/O历史记录，架构就可以适应各种变化，如接触事件。　　　　鲁棒性的另一个关键来源，就是任务随机化。　　因此，我们就看到了Cassie的各种运动技能。比如稳稳地站立，多才多艺地步行，快速跑步，以及各种跳高和跳远。　　　　这个研究所基于RL的控制器架构如下图，它利用了机器人的输入和输出（I/O）的双重历史记录。　　　　利用这个多阶段的训练框架，就可以获得零样本转移到现实世界的通用控制策略。　　　　如下是基于RL的双足机器人运动控制策略架构各种基线的图示。　　　　利用研究者开发的多功能跑步策略，Cassie成功完成了400米冲刺。　　这个过程是使用单一跑步策略完成的。　　它使得机器人能够从站立姿势转变为平均2.15m/s和峰值3.54m/s的快速跑步步态。　　　　使用微调的跑步策略，Cssie还以快速的跑步步态完成了100米短跑。　　　　用训GPT的方法，训出人形机器人　　400米2分34秒破纪录，伯克利双足机器人「接管」人类　　新智元·2024-03-26 06:05 　　关注　　用训GPT的方法，训出人形机器人　　UC伯克利的双足机器人，400米直接跑进了2分34秒，这个速度属实是超越不少人类了。而背后的RL通用框架，让它无论是站立，还是跑步、跳高、跳远，动作都十分丝滑。　　UC伯克利的双足机器人，跑步又破纪录了！　　最近，HYBRID ROBOTICS研究团队的Cassie，给我们来了一段惊艳的表演—— 　　以2分34秒的成绩，跑完了400米！　　随后，它又在不需要额外训练的情况下，完成了1.4米的跳远。　　是的，相信你已经注意到了，它的外形十分独特——只有下半身！　　没错，跑步什么的，要上半身干啥。　　400米冲刺脚下生风　　没有上半身意味着什么？当然是——速度就是一切！　　一声令下，Cassie就开始跑400米了。　　只见它两脚生风，脚步敏捷。　　就是，不知道脚下这双跑鞋有没有速度加成？　　　　可以看到，Cassie的跑步姿势十分标准，没有任何累赘的动作。　　而研究人员则全程跟在后面陪跑。　　　　现在，Cassie在做最后的冲刺，它集中精力一鼓作气，一跃而冲过了终点线。　　　　它最后的成绩是——2分34秒！　　这个成绩，或许已经超越了不少人类。　　算起来，Cassie的步速是每分155.6米。　　在21年，Cassie在中途不充电的条件下，完成了5公里的户外长跑，用时53分钟，这个步速是每分94.3米。　　这个进步是肉眼可见的。　　Cassie是利用神经网络强化学习进行训练的，因此，它可以从头掌握简单的技能，比如原地跳跃、向前走或跑而不摔倒。　　它被鼓励模仿人体动捕的数据，和动作的演示动画。　　最后，团队还测试了Cassie的跳远能力，注意，这是在它没有经过额外训练的情况下。　　它的成绩是1.4米。　　RL通用框架，跑步、跳高、跳远多才多艺　　Cassie怎么这么强？　　我们在这篇发表于1月底的论文中，找到了答案。　　　　论文地址：https://arxiv.org/pdf/2401.16889.pdf 　　利用深度强化学习（RL），研究者为双足机器人创建了动态运动控制器。　　他们开发出了一种通用控制解决方案，可用于一系列动态双足技能，比如周期性行走，跑步，以及非周期性的跳跃和站立。　　　　这个通用控制框架，可以实现各种周期性和非周期性的双足运动技能　　基于强化学习的控制器，他们采用了新颖的双历史架构，利用了机器人的长期和短期输入/输出(I/O)历史。　　当通过端到端强化学习方法进行训练时，这种控制架构在模拟和现实世界中的各种技能上，都始终优于其他方法。　　另外，RL系统还引入了适应性和鲁棒性。　　可以证明，通过有效利用机器人的I/O历史记录，架构就可以适应各种变化，如接触事件。　　　　鲁棒性的另一个关键来源，就是任务随机化。　　因此，我们就看到了Cassie的各种运动技能。比如稳稳地站立，多才多艺地步行，快速跑步，以及各种跳高和跳远。　　　　这个研究所基于RL的控制器架构如下图，它利用了机器人的输入和输出（I/O）的双重历史记录。　　　　利用这个多阶段的训练框架，就可以获得零样本转移到现实世界的通用控制策略。　　　　如下是基于RL的双足机器人运动控制策略架构各种基线的图示。　　　　利用研究者开发的多功能跑步策略，Cassie成功完成了400米冲刺。　　这个过程是使用单一跑步策略完成的。　　它使得机器人能够从站立姿势转变为平均2.15m/s和峰值3.54m/s的快速跑步步态。　　　　使用微调的跑步策略，Cssie还以快速的跑步步态完成了100米短跑。　　　　用训GPT的方法，训出人形机器人　　机器人接管旧金山？　　在今年1月，UC伯克利的人形机器人显眼包「小绿」，就曾经大规模引起了人们的注意。　　那时它长这样—— 　　　　看着挺好，就是没脖子。　　只见它在围观人群的惊叹声中，大摇大摆地走出UC伯克利校门。　　　　在操场草坪上，跟大爷一样练习倒步走。　　　　身影遍布UC伯克利校园的各个角落。　　　　　　　　甚至引起网友惊呼：机器人接管旧金山了？　　　　　　预测下一个动作，控制人形机器人行走　　不久后，就在2月底，UC伯克利就发表了一篇重磅论文，介绍「小绿」是怎么训练出的。　　　　论文地址：https://arxiv.org/pdf/2402.19469.pdf 　　在这篇论文中，他们介绍了训练人形机器人的方法——跟训练GPT的方法是一样的。　　用这种训练GPT的方法，研究者成功地训练出了人形机器人的类人运动。　　重点就是：通过预测下一个动作，来控制人形机器人的行走。　　　　人体运动作为下一个token预测　　在一系列模拟轨迹上，他们对模型进行了训练。　　而这些轨迹，来自之前的神经网络策略。　　　　使用不同数据源进行训练的通用框架　　人形机器人所学习的，就是基于模型的控制器、动捕数据和YouTube上的人类视频。　　　　训练数据集的4个来源　　结果，这个模型能让全尺寸的人形机器人在完全未经训练的情况下，直接完成行走！　　仅仅用了27个小时的训练，模型就能在现实世界中泛化了。　　而训练过程中从未见过的指令，机器人也能应对。　　从此，机器人可以学习真实世界的控制任务了。　　参考资料　　https://arxiv.org/abs/2402.19469 　　https://arxiv.org/abs/2401.16889