鲍雁辛
AI大模型+人形机器人,迈出了通向通用人工智能的一大步。机器人进化路径:从固定到移动,从独立到协作,从单一到通用。服务机器人商业化落地的前提是产品能提供真实价值,真实价值的判断在于机器人能否通用。把机器人做成人形,就是为了使机器人的执行能力更加通用,上游核心零部件随着协作机械臂的兴起快速发展,促进了人形机器人硬件本体制造能力的提升,同时伴随自动驾驶技术的高速发展,人形机器人在视觉、SLAM与基础AI上有了更多的方案选择,大模型的出现,会从语音、视觉、决策、控制等多方面实现同人形机器人的结合,形成感知、决策、控制闭环。我们认为机器人产业将进入渗透率快速提升的新阶段,看好机器人产业发展前景。
AI大模型从语音、视觉、决策、控制等多方面实现同人形机器人的结合,形成感知、决策、控制闭环,使机器人具备常识。1)语音:语言大模型为机器人的自主语音交互难题提供了解决方案,在上下文理解、多语种识别、多轮对话、情绪识别、模糊语义识别等通用语言任务上,CHATGPT显著优于深度学习,表现出了不亚于人类的理解力和语言生成能力。2)视觉:人形机器人的场景相对工业机器人更通用、更复杂,通用视觉大模型的All in One 的多任务训练方案能使得机器人更好地适应人类生活场景:大模型的强拟合能力使人形机器人在进行目标识别、避障、三维重建、语义分割等任务时,具备更高的精确度;通用视觉大模型通过大量数据学到更多的通用知识,并迁移到下游任务中,基于海量数据获得的预训练模型具有较好的知识完备性,提升场景泛化效果。3)决策:基于多模态的预训练大模型将增强机器人可完成任务的多样性与通用性,让其不局限于文本和图像等单个部分,而是多应用相容,拓展单一智能为融合智能,使机器人能结合其感知到的多模态数据实现自动化决策。
驱动:相比工业机器人,人形机器人硬件需求更复杂、更多元,特斯拉采用的电驱方案具备商业化应用基础。特斯拉Optimus采取电驱方案,预计全身共40个执行器,其中:身体关节28个执行器,旋转关节方案采用伺服电机+减速器方案,我们推测单台人形机器人将搭载6台RV减速器(髋、腰腹)和8台谐波减速器(肩、腕);我们猜测摆动角度不大的关节(膝、肘、踝、腕)采用力矩电机+行星滚柱丝杠方案,将使用14个线性执行器。2)机械手采用微型电机+腱绳驱动传动结构,单手6个电机,11个自由度。空心杯电机结构紧凑、能量密度高、能耗低,和人形机器人机械手需求契合度高。
减速器、伺服电机、线性执行器、滚柱丝杠是人形机器人的运动控制产业链中价值量较大的硬件设备。1)电机:数量更多、品类更丰富,需满足全身各关节的驱动需求,手部需采用微型电机。2)减速器、传动装置:数量更多,旋转执行器延续了对RV、谐波减速器的需求,线性执行器中需要用到行星滚柱丝杠作为线性传动装置。3)环境感知:区别工业机器人在固定场景外接机器视觉设备实现识别的方案,人形机器人场景复杂,需采用激光雷达、摄像头等方案实现环境感知、三维重建并实现路径规划,对设备品类、算法、实时算力要求更高。4)运动控制:类似于工业机器人,运控算法均是厂商自研,开发难度大,是核心竞争力之一;特斯拉Optimus复用特斯拉汽车的感知和计算能力,在全自动驾驶FSD芯片基础上开发适合人形机器人的控制器系统。人形机器人传感器数量、品类、执行机构复杂程度远高于工业机器人,对控制器实时算力、集成度要求高。
风险提示:1)经济复苏低于预期;2)AI大模型、超融合发展速度低于预期;3)出现相似技术。