具身智能中的act算法

好的,这个问题非常专业且切中前沿。在具身智能 的语境下,ACT 特指一个非常重要和著名的算法:

ACT(Action Chunking with Transformers)

它是一种基于模仿学习的算法,核心思想是让机器人学会像人一样,将连续的动作流分解和规划成有意义的“组块”来执行。它被认为是推动具身智能发展的一个关键性工作。


1. 核心思想与要解决的问题

问题:
传统的机器人模仿学习通常让机器人逐帧地(或以很高的频率)预测下一个微小的动作(如关节角度变化量)。这种方式存在两个主要问题:

  1. 累积误差:在长周期任务中,每一步微小的预测误差会逐渐累积,导致机器人最终偏离目标,任务失败。
  2. 缺乏高层规划:机器人只是在“模仿动作”,而不是在“执行任务”。它没有学会任务中的高层结构、关键节点和可重用的“技能片段”。

ACT的核心思想:
受人类神经科学和心理学中“动作组块”的启发(例如,我们不会一个音符一个音符地思考如何弹奏一首熟悉的曲子,而是将其作为几个熟悉的乐句“组块”来执行),ACT 试图让机器人:

  • 预测动作序列(Chunk):不再一次只预测一个瞬时动作,而是直接预测未来一小段时间的整个动作序列(例如,未来2秒内所有动作)。
  • 以较低的频率执行:每预测出一个动作序列(一个 Chunk),机器人就会以较高的控制频率(如每秒100次)执行完这一整个序列,然后再进行下一次预测。这样,决策频率降低了,但每次决策的“视野”更长了。

这种方法极大地提高了任务的长期一致性和稳定性。


2. ACT 算法的工作原理

ACT 的工作流程可以分解为以下几个关键步骤,其核心架构是一个动作编码器-解码器模型

1. 数据收集(Demonstration)

  • 由人类专家通过遥操作(例如,用VR手柄控制机器人)演示需要学习的任务。
  • 记录整个过程:观测图像 $o_t$ 和 专家动作 $a_t$。

2. 训练阶段(Training)

  • 核心模型:使用一个Transformer架构(通常是编码器-解码器结构)。
  • 输入(Encoder)
    • 当前观测:最新的相机图像。
    • 目标图像:任务完成时的目标图像。这为模型提供了任务成功的“愿景”。
    • (可选)自然语言指令。
  • 输出(Decoder)
    • 模型不是输出一个动作,而是直接输出未来 K 个时间步的所有动作 $(\hat{a}t, \hat{a}{t+1}, …, \hat{a}_{t+K-1})$,这就是一个 “Action Chunk”
  • 损失函数:使用均方误差(MSE)比较预测出的整个动作序列与专家演示的真实动作序列之间的差异。

3. 推理/执行阶段(Inference)

  • 观测:机器人获取当前图像和目标图像。
  • 预测:ACT 模型基于当前观测,预测出未来 K 步的动作序列 $(a_0, a_1, …, a_{K-1})$。
  • 执行:机器人以底层控制器的高频率(如每秒100次)依次执行这 K 个动作,在此期间模型不再进行新的预测
  • 循环:执行完这 K 个动作后(例如,已经过去了0.5秒),机器人再次获取新的当前图像,重复上述过程,预测下一个动作组块,直到任务完成。
ACT Algorithm

3. 为什么ACT非常适合具身智能?

  1. 缓解累积误差:通过一次规划一个短序列,而不是只规划一步,大大减少了需要做决策的次数,从而显著降低了因单步错误累积而导致失败的可能性。
  2. 隐含的时间抽象:模型学习的“动作组块”实际上就是一些可重用的、有意义的低级技能(如“伸手”、“抓握”、“放置”)。这为从低级模仿到高级规划搭建了桥梁。
  3. 利用Transformer的强大能力:Transformer的自注意力机制非常擅长处理多模态输入(图像、目标、语言),并能捕捉输入中不同部分之间的长程依赖关系,这对于理解任务和生成连贯的动作至关重要。
  4. 实现长视距任务:通过这种“分块执行”的策略,机器人能够有效地完成需要长时间跨度的任务。

4. 优点与局限性

优点:

  • 效果卓越:在大量的真实机器人任务(如精细操作、装配等)上,ACT 表现出了远超传统逐步预测方法的性能和高成功率。
  • 计算高效:降低了推理频率,节省了计算资源。
  • 概念优美:巧妙地借鉴了人类的运动认知原理。

局限性:

  • 依赖于高质量演示:其性能上限严重依赖于模仿数据的质量和数量。
  • 环境变化的适应性:如果在执行一个“组块”的过程中环境发生剧烈、未预见的变化(比如有人挡住了路),由于在此期间模型不会重新规划,机器人可能会执行错误的动作直到当前组块结束。这个问题可以通过将 K 设置得小一些来缓解,但这会牺牲一些长远规划的优势。

总结

在具身智能中,ACT(Action Chunking with Transformers) 是一个里程碑式的算法。它通过让机器人预测和执行未来的动作序列组块,而非单步动作,巧妙地解决了模仿学习中长期依赖和误差累积的核心难题。它充分体现了“具身”智能中感知、规划与行动的紧密耦合,是当前将Transformer模型应用于机器人控制的一个典范。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部