好的,这个问题非常专业且切中前沿。在具身智能 的语境下,ACT 特指一个非常重要和著名的算法:
ACT(Action Chunking with Transformers)
它是一种基于模仿学习的算法,核心思想是让机器人学会像人一样,将连续的动作流分解和规划成有意义的“组块”来执行。它被认为是推动具身智能发展的一个关键性工作。
1. 核心思想与要解决的问题
问题:
传统的机器人模仿学习通常让机器人逐帧地(或以很高的频率)预测下一个微小的动作(如关节角度变化量)。这种方式存在两个主要问题:
- 累积误差:在长周期任务中,每一步微小的预测误差会逐渐累积,导致机器人最终偏离目标,任务失败。
- 缺乏高层规划:机器人只是在“模仿动作”,而不是在“执行任务”。它没有学会任务中的高层结构、关键节点和可重用的“技能片段”。
ACT的核心思想:
受人类神经科学和心理学中“动作组块”的启发(例如,我们不会一个音符一个音符地思考如何弹奏一首熟悉的曲子,而是将其作为几个熟悉的乐句“组块”来执行),ACT 试图让机器人:
- 预测动作序列(Chunk):不再一次只预测一个瞬时动作,而是直接预测未来一小段时间的整个动作序列(例如,未来2秒内所有动作)。
- 以较低的频率执行:每预测出一个动作序列(一个 Chunk),机器人就会以较高的控制频率(如每秒100次)执行完这一整个序列,然后再进行下一次预测。这样,决策频率降低了,但每次决策的“视野”更长了。
这种方法极大地提高了任务的长期一致性和稳定性。
2. ACT 算法的工作原理
ACT 的工作流程可以分解为以下几个关键步骤,其核心架构是一个动作编码器-解码器模型:
1. 数据收集(Demonstration):
- 由人类专家通过遥操作(例如,用VR手柄控制机器人)演示需要学习的任务。
- 记录整个过程:观测图像 $o_t$ 和 专家动作 $a_t$。
2. 训练阶段(Training):
- 核心模型:使用一个Transformer架构(通常是编码器-解码器结构)。
- 输入(Encoder):
- 当前观测:最新的相机图像。
- 目标图像:任务完成时的目标图像。这为模型提供了任务成功的“愿景”。
- (可选)自然语言指令。
- 输出(Decoder):
- 模型不是输出一个动作,而是直接输出未来
K个时间步的所有动作 $(\hat{a}t, \hat{a}{t+1}, …, \hat{a}_{t+K-1})$,这就是一个 “Action Chunk”。
- 模型不是输出一个动作,而是直接输出未来
- 损失函数:使用均方误差(MSE)比较预测出的整个动作序列与专家演示的真实动作序列之间的差异。
3. 推理/执行阶段(Inference):
- 观测:机器人获取当前图像和目标图像。
- 预测:ACT 模型基于当前观测,预测出未来
K步的动作序列 $(a_0, a_1, …, a_{K-1})$。 - 执行:机器人以底层控制器的高频率(如每秒100次)依次执行这
K个动作,在此期间模型不再进行新的预测。 - 循环:执行完这
K个动作后(例如,已经过去了0.5秒),机器人再次获取新的当前图像,重复上述过程,预测下一个动作组块,直到任务完成。

3. 为什么ACT非常适合具身智能?
- 缓解累积误差:通过一次规划一个短序列,而不是只规划一步,大大减少了需要做决策的次数,从而显著降低了因单步错误累积而导致失败的可能性。
- 隐含的时间抽象:模型学习的“动作组块”实际上就是一些可重用的、有意义的低级技能(如“伸手”、“抓握”、“放置”)。这为从低级模仿到高级规划搭建了桥梁。
- 利用Transformer的强大能力:Transformer的自注意力机制非常擅长处理多模态输入(图像、目标、语言),并能捕捉输入中不同部分之间的长程依赖关系,这对于理解任务和生成连贯的动作至关重要。
- 实现长视距任务:通过这种“分块执行”的策略,机器人能够有效地完成需要长时间跨度的任务。
4. 优点与局限性
优点:
- 效果卓越:在大量的真实机器人任务(如精细操作、装配等)上,ACT 表现出了远超传统逐步预测方法的性能和高成功率。
- 计算高效:降低了推理频率,节省了计算资源。
- 概念优美:巧妙地借鉴了人类的运动认知原理。
局限性:
- 依赖于高质量演示:其性能上限严重依赖于模仿数据的质量和数量。
- 环境变化的适应性:如果在执行一个“组块”的过程中环境发生剧烈、未预见的变化(比如有人挡住了路),由于在此期间模型不会重新规划,机器人可能会执行错误的动作直到当前组块结束。这个问题可以通过将
K设置得小一些来缓解,但这会牺牲一些长远规划的优势。
总结
在具身智能中,ACT(Action Chunking with Transformers) 是一个里程碑式的算法。它通过让机器人预测和执行未来的动作序列组块,而非单步动作,巧妙地解决了模仿学习中长期依赖和误差累积的核心难题。它充分体现了“具身”智能中感知、规划与行动的紧密耦合,是当前将Transformer模型应用于机器人控制的一个典范。