具身智能是什么?为什么这么受欢迎?
如果说2024年,什么领域最受欢迎,我相信大家会异口同声地喊出:具身智能。具身智能广义上是指具有物理身体的智能体,能够与环境进行互动,感知周围世界,自主学习、决策并执行任务。像人形机器人、四足机器人、机械臂系统、自动驾驶系统算广义上的具身智能,能够感知周围环境并作出反应或执行。GPT这类大模型从狭义上理解,当然也可以算。

而工业上应用最多,也最有市场的莫过于机械臂加持的智能机器系统,像工厂内的人形机器人、机械臂系统、足式+机械臂系统、轮式+机械臂等都是。我们期望借助这类机器人,将人类从繁杂的劳动中解放。国外像擎天柱、波士顿动力系列,国内的宇树科技、云知深、智元机器人等都相继完成了系列产品的量产。可以说,具身智能的发展空间非常大,将会带动工业、服务业、C端、B端等市场的全面崛起,因此格外受资本青睐。

具身机器人的技术栈有哪些?
一般来说,任何机器人系统,都基本由这几部分构成:硬件系统、软件系统、规划控制系统,其中硬件部分主要包括机器人关节、电机、编码器等等;软件系统则包括感知识别、位姿估计、标定等等;而最后的规划控制系统则是根据已有的感知信息规划最优路径并执行到目的地。
机械臂系统一般是用于完成抓取工作,无论是单机械臂系统还是轮式载体或者足式载体。当前主流的抓取方案包括基于视觉的通用抓取、基于端到端的抓取、还有远程遥控抓取(基于VR等技术)。
基于视觉的通用抓取方案主要涉及视觉识别、位姿估计、机器人轨迹规划和抓取等任务,采用模块化设计,各步骤独立分离,具备高可解释性和性能稳定性。这种方案广泛应用于工业和商业场景,便于模块化问题排查,同时支持灵活的系统调优,是大多数量产机械臂机器人抓取任务的主流选择。

端到端抓取方案基于Transformer结构的视觉-语言-动作模型,能够通过视觉信息和语言指令,直接生成机器人可执行的动作,代表作如RT-1和RT-2系列。这种方法通过端到端的学习实现全局优化,具有很强的学习能力,尤其适用于复杂的非结构化环境,是前沿研究机构如谷歌等关注的重点方向。
机器人模仿学习致力于模仿人类操作技能,代表作包括斯坦福的Aloha和HumanPlus。这些机器人能够完成各种复杂的操作任务,如叠衣服、敲键盘、弹钢琴等,凭借模仿学习技术,逐步提高操作的精确度和灵活性,非常适合需要高度拟人操作 的应用场景。
远程操控抓取通过VR等远程操控设备实现远程机器人操作,当前比较有代表性的项目是加州大学的Open-TeleVision。该方法为操作者提供实时的操作反馈和灵活的控制能力,特别适用于操作环境复杂、任务变化频繁的场景,成为机器人操作领域的重要研究方向之一。

入门学习依然很困难?
无论是传统视觉抓取,还是端到端方案,其中涉及到的模块、细节众多。如何进行手眼标定、位姿估计怎么做?轨迹怎么生成?平面抓取涉及哪些内容?以及后续的端到端抓取模型怎么训练?人形机器人怎么抓取的?数据是怎么采集的?模仿与强化学习怎么做?我们怎么遥控抓取?
微信扫码学习课程

这类知识点琐碎,系统也比较复杂,如果没有比较好的教程带着入门,往往会踩坑,后期不知道怎么学习。为此,我们联合业界知名的机器人系统与算法专家,联合展开了业内首门具身智能理论与实战课程,让大家真正能够学得透彻,后期配有代码讲解,助力大家真正从实现的角度上搞懂算法。课程大纲:

本课程覆盖了通用视觉抓取、端到端抓取、人形机器人、机械臂、远程操控等领域主流方案,一网打尽相关的技术栈,并配有多个实战,知其然知其所以然,从零开始你的项目。
课程内容一览
1)传统视觉抓取




2)端到端的抓取




3)遥操作数据采集系统

适合人群
- 想要转入到具身智能领域的同学;
- 机械臂抓取、人形机器人、远程操作抓取相关方向的同学;
- 机器人与AI相关方向的硕士、博士;
讲师介绍
宇哥,985本硕,10年机器人相关项目从业经验。长期从事机器人与人工智能相关研究。精通机器人一体化关节控制、运动控制及具身智能相关领域。
木木,985本硕,11年机器人行业经验。先后担任研究所、国企、大厂具身智能负责人,有ACT,RT2,3D_diffuser_act等多类前沿算法复现改进经验。
课程基础
- 一定的深度学习与transformer基础;
- 一定的概率论和矩阵论相关基础;
- python和torch基础,具备代码读写的能力;
- 需要自备GPU,显存不低于12G;
学后收获
- 精通机器人领域常用的抓取方案,对具身智能领域的技术栈有着深刻理解;
- 能够将端到端抓取、通用视觉抓取应用到自己项目和科研中,并对实现有着较深理解;
- 对人形机器人、远程遥控抓取方案有着代码级实现理解;
- 熟悉具身智能的整体架构与发展路线;