极客网·极客观察8月8日,大模型风起云涌,正在从虚拟世界进入现实世界。谷歌DeepMind日前推出 Robotic Transformer 2(简称RT-2)大语言模型,让人类可以通过纯语言命令优化机器人控制,迈出了重要一步。
不同于此前的大模型,这是一个“视觉-语言-动作”(vision-language-action,简称VLA)模型。业界认为,谷歌此举是想打造可以适应人类环境的通用机器人,类似于机器人瓦力或者C-3PO。
谷歌RT-2无需针对特定任务专门训练
当人类需要学习某项任务时,往往会通过阅读和观察来实现。RT-2有点类似,它用到了大语言模型(也就是驱动ChatGPT的技术)。RT-2从网上寻找文本和图片,然后训练模型,即使没有针对特定任务专门训练过,RT-2也可以识别模式和动作。
举个例子,按谷歌的说法,在没有经过特别训练的前提下,RT-2可以识别并扔掉垃圾。RT-2会理解垃圾是什么,了解如何处理,然后完成一系列动作。RT-2甚至知道食品包装纸或香蕉皮也是垃圾。
谷歌工程师甚至说,向RT-2下达一条命令,让它捡起已经灭绝的动物,RT-2机器人可以从三个雕像中找出恐龙。
放在以前,如果想让AI处理垃圾——无论是识别垃圾、捡起垃圾还是扔掉,都要专门训练。RT-2不太一样,它从网络数据中获得大量知识,已经知道垃圾是什么,能够识别垃圾,不需要专门训练。
又比如要让AI机器人捡起苹果,先要训练机器人,让它知道苹果的一切,比如苹果是如何生长的,它的物理特点有什么;不只如此,还要在环境中识别苹果,不能将苹果和红球混淆;还有最重要的,AI要知道如何将苹果捡起来。
谷歌RT-2是打造通用机器人的一大步
一般来说科学家会用大量人工获取的数据点来训练机器人AI,为了覆盖每一种可能场景,训练时会消耗大量时间和成本。现实世界纷繁多变,机器人助手如果想变得实用,必须正确应对那些不太可能编程的场景。
在开发RT-2时,DeepMind深入挖掘变形AI模型的优点,这种模型拥有很强的概括能力。RT-2借鉴了谷歌早期开发的AI,比如PaLI-X和PaLM-E。有了RT-2模型,机器人可以处理摄像头图像,对应该执行的动作进行预测。
谷歌发现,如果是训练过的任务,RT-2试验6000多次后效果便与RT-1一样好。如果是没有训练过的任务,RT-2的表现比RT-1好一倍。简单来说,谷歌认为RT-2在学习新场景新任务时表现更好,虽然它仍不完美。
DeepMind的目标是打造通用机器人,但谷歌也承认还有很多研究工作要做,不过RT-2应该是正确的研究方向。如果RT-2真的能变得完美,人类可以向机器人下达“文字命令”,让机器人按指令行动。
谷歌RT-2可以像人类一样将学到的知识用于新场景
RT-2最大的突破在于,它从网络数据中学习基本概念和构想,然后将学到的知识用来指挥机器人完成动作,让机器理解甚至“说出”它们的操作语言。
要让机器人在多变的环境中执行通用任务,它必须管理好复杂抽象任务。如果是之前没有遇到的过的环境,更是需要机器人正确应对。
聊天机器人纯粹在虚拟世界运行,机器人不一样,它存在于真实世界。机器人要理解抽象概念,在实际、物理环境中应用。
在RT-2出现之前,机器人依赖复杂系统堆栈来运行,也就是高级推理系统与低级操作系统联合作战,让机器人正常运转,这种方法有些笨重!RT-2简单一些,它将复杂推理与动作输出整合到一个模型。
RT-2的最大特点在于:它从语言和视觉训练数据中学习概念,将概念变成机器人动作,即使是之前没有训练过的任务,它的处理能力也更强。简言之,RT-2可以像人类一样,将以前学到的概念应用于新场景。
谷歌的研究似乎在告诉人类,AI正在以更快的速度影响机器人。开发多功能通用型机器人是人类的一个梦想,希望RT-2能带来突破。(小刀)
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。