①之前机器人经常无法操纵自己从未见过的东西,也难以实现“从‘灭绝的动物’到‘塑料恐龙’的逻辑飞跃”;
②作为一款新型视觉-语言-动作(VLA)模型,RT-2可以从网络、机器人数据中学习,并将这些知识转化为机器人控制的通用指令;
③RT-2具备三大能力:符号理解、推理和人类识别。
一个单臂机器人“站”在桌前,桌上放着三个塑料动物玩具:狮子、鲸鱼与恐龙。收到“捡起灭绝的动物”指令后,这个机器人“思考”了一会儿,然后甚至机械臂,打开爪子,抓起了恐龙。
这是谷歌最新一款机器人模型Robotic Transformer 2(机器人变形金刚2,RT-2)。
上文这个“抓起恐龙”的动作对于人类而言轻而易举,对于机器人而言却堪称一个重要飞跃——之前机器人经常无法操纵自己从未见过的东西,也难以实现从“灭绝的动物”到“塑料恐龙”的逻辑飞跃。
作为一款新型视觉-语言-动作(vision-language-action,VLA)模型,RT-2可以从网络、机器人数据中学习,并将这些知识转化为机器人控制的通用指令。
相较于其他机器人研究,RT-2的核心优势在于,其不仅能直接接收“人话”指令,听懂“人话”、理解“人话”,还能做出相应推理,并转为机器人能理解的分阶段指令,从而做出动作完成任务。
RT-2完成的每一项任务,都要求其理解视觉语义概念、并通过控制机器人实现操作这些概念。
例如接到“捡起桌子上快掉下去的袋子”、“将香蕉移动到2加1的总和处”这种指令时,机器人需要对相应物体/场景执行任务,而这些物体与场景它从未在机器人数据中见过,需要从网络数据中转化得到相应知识。
总体而言,RT-2具备三大能力:符号理解(Symbol understanding)、推理(Reasoning)和人类识别(Human recognition)。
(1)符号理解是指RT-2可以从视觉语言预训练中转移了语义知识,而这些语义知识在机器人数据中并不存在。这类指令示例包括“将苹果移到3号位置”或“将可乐罐推到心形上”。
图|符号理解指令示例
(2)推理则是将VLM的各种推理能力用于任务控制,包括视觉推理(“将苹果移到相同颜色的杯子里”)、数学推理(“将X移到2加1之和的附近”)、多语言理解(“mueve la manzana al vaso verde”,西班牙语)。
图|推理指令示例
(3)人类识别是以人类为中心的理解和识别能力,RT-2可以完成“将可乐罐移到戴眼镜的人身边”这类任务。
图|人类识别指令示例
此外,研究人员还将机器人控制与思维链推理相结合。首先用自然语言描述机器人即将采取的动作的目的,然后是“动作”和动作标记。
例如在下图中,RT-2接收到的要求是“我想钉个钉子,场景里什么东西可能能用上?”,RT-2转化得出了“石头。动作:1 129 138 122 132 132 106 127”的指令,并拿起了石头。
RT-2还能更好地适用于不同的、机器此前没见过的场景。比起在大型数据集上预训练的RT-1、Visual Cortex(VC-1)等模型,RT-2泛化能力大幅提高,较前者提高了3倍有余。
加利福尼亚大学伯克利分校的机器人学教授Ken Goldberg表示,机器人的灵巧性仍达不到人类水平,在一些基本任务上也会失败,但谷歌利用人工智能语言模型,赋予机器人推理和随机应变的新技能,是一个很有希望的突破。
(文章来源:财联社)