谷歌发布AI新模型PaLM2

谷歌刚刚上线了一个炸弹级「通才」模型PaLM-E,足足有5620亿参数。它是一种多模态具身视觉语言模型,从引导机器人执行任务,到回答关于可观察世界的问题,全都能搞定。

大语言模型的飞速「变异」,让人类社会的走向越来越科幻了。点亮这棵科技树后,「终结者」的现实仿佛离我们越来越近。

前几天,微软刚宣布了一个实验框架,能用ChatGPT来控制机器人和无人机。

谷歌当然也不甘其后,在周一,来自谷歌和柏林工业大学的团队重磅推出了史上最大视觉语言模型——PaLM-E。

谷歌发布AI新模型PaLM2

论文地址:https://arxiv.org/abs/2303.03378

作为一种多模态具身视觉语言模型 (VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,而且竟然还能将两者结合起来,处理复杂的机器人指令。

此外,通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合,PaLM-E最终的参数量高达5620亿。

谷歌发布AI新模型PaLM2

横跨机器人、视觉-语言领域的「通才」模型

PaLM-E,全称Pathways Language Model with Embodied,是一种具身视觉语言模型。

它的强大之处在于,能够利用视觉数据来增强其语言处理能力。

谷歌发布AI新模型PaLM2

当我们训练出最大的视觉语言模型,并与机器人结合后,会发生什么?结果就是PaLM-E,一个 5620亿参数、通用、具身的视觉语言通才——横跨机器人、视觉和语言

据论文介绍,PaLM-E是一个仅有解码器的LLM,在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本补全。

其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。

谷歌发布AI新模型PaLM2

经过单个图像提示训练,PaLM-E不仅可以指导机器人完成各种复杂的任务,还可以生成描述图像的语言。

可以说,PaLM-E展示了前所未有的灵活性和适应性,代表着一次重大飞跃,特别是人机交互领域。

更重要的是,研究人员证明,通过在多个机器人和一般视觉语言的不同混合任务组合进行训练,可以带来从视觉语言转移到具身决策的几种方法,让机器人规划任务时能够有效地利用数据。

谷歌发布AI新模型PaLM2

除此之外,PaLM-E尤为突出的一点在于,拥有强大的正迁移能力。

在不同领域训练的PaLM-E,包括互联网规模的一般视觉-语言任务,与执行单一任务机器人模型相比,性能明显提高。

谷歌发布AI新模型PaLM2

而在模型尺度上,研究人员则观察到了一个显著的优势。

语言模型越大,在视觉语言与机器人任务的训练中,保持的语言能力就越强。

从模型规模来看,5620亿参数的PaLM-E几乎保持了它所有的语言能力。

谷歌发布AI新模型PaLM2

尽管只在单个图像进行训练,但PaLM-E在多模态思维链推理和多图像推理等任务中表现出突出的能力。

在OK-VQA基准上,PaLM-E取得了新的SOTA。

谷歌发布AI新模型PaLM2

测评结果在测试中,研究人员展示了如何使用PaLM-E在两个不同实体上执行规划以及长跨度的任务。

值得注意的是,所有这些结果都是使用基于相同数据训练的相同模型获得的。

在以前,机器人通常需要人工的协助才能完成长跨度任务。但现在,PaLM-E通过自主学习就可以搞定了。

谷歌发布AI新模型PaLM2

比如,「从抽屉里拿出薯片」这类指令中,就包括了多个计划步骤,以及来自机器人摄像头的视觉反馈。

经过端到端训练的PaLM-E,可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中,所以机器人在拿薯片的过程中,对途中的干扰都有鲁棒性。

谷歌发布AI新模型PaLM2

人类:给我来点薯片。

机器人:1. 走到抽屉旁 2.打开最上面的抽屉 3. 从最上面的抽屉里拿起绿色的薯片 4.放在柜台上。

谷歌发布AI新模型PaLM2

同样,让机器人去拿一个苹果时,给出图片后,机器人执行任务步骤如下——

人类:给我拿一个苹果。

机器人:1.走向苹果 2.拿起苹果 3.把它拿给操作员 4.放下苹果 5.完成。

谷歌发布AI新模型PaLM2

除了执行长跨度任务,PaLM-E可以让机器人执行规划任务,比如排列积木。

研究人员根据视觉和语言输入成功地进行多阶段的计划,并结合了长时间范围的视觉反馈,进而让模型能够成功地规划一个长周期的任务「将积木按颜色分类到不同的角落」。

如下,在排列组合上,机器人化身为多面手,按颜色将积木排序。

谷歌发布AI新模型PaLM2

模型的泛化方面,PaLM- E控制的机器人可以把红色积木移到咖啡杯的旁边。

值得一提的是,数据集只包含有咖啡杯的三个演示,但其中没有一个包括红色的积木块。

谷歌发布AI新模型PaLM2

类似的,虽然模型此前从未见过乌龟,但照样可以顺利地把绿色积木推到乌龟旁边

谷歌发布AI新模型PaLM2

在零样本推理方面,PaLM-E可以在给定图像的情况下讲述笑话,并展示了包括感知,基于视觉的对话和计划在内的能力。

谷歌发布AI新模型PaLM2

多张图的关系,PaLM-E也整得很明白,比如图一(左)在图二(右)的哪个位置。

谷歌发布AI新模型PaLM2

此外,PaLM-E还可以在给定带有手写数字的图像执行数学运算。

比如,如下手写餐馆的菜单图,2张披萨需要多少钱,PaLM-E就直接给算出来了。

谷歌发布AI新模型PaLM2

以及一般的QA和标注等多种任务。

谷歌发布AI新模型PaLM2

最后,研究结果还表明,冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。

但同时,研究人员还发现了一条解冻模型的替代路线,即扩大语言模型的规模可以显著减少灾难性遗忘。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 86345@qq.com 举报,一经查实,本站将立刻删除。
(0)
上一篇 2023-05-11 13:04:40
下一篇 2023-05-11 13:05:35

猜你喜欢

  • 美国男子持枪硬闯FBI大楼被击毙

    中新网3月3日电 据“中央社”报道,当地时间2日,美国联邦调查局(FBI)局长克里斯托弗·雷指控1月6日硬闯国会大厦的美国前总统特朗普支持者涉及国内恐怖主义,称要追究他们的责任。 …

    热门资讯 2022-08-12
  • 定档在今晚开播的长风渡_吊足了多少人的胃口

    #长风渡#真情侣就是好嗑,定档在今晚开播的《长风渡》,吊足了多少人的胃口! 《长风渡》改编自墨书白同名小说,相比于现如今烂大街、披着古装、谈着烂俗爱情的作品,《长风渡》的格局不是一…

    2023-06-18
  • 四川一景区突发山洪 多人被冲走

    8月13日下午,四川彭州市龙槽沟附近突发山洪,有人被水冲走。极目新闻记者从龙门山镇政府了解到,目前公安、消防、应急等多股救援力量已到现场进行救援,目前伤亡情况还有待调查。 视频显示…

    2022-08-13
  • 郭艾伦向辽宁队提出转会申请

    新华社沈阳8月2日电郭艾伦2日通过经纪团队向中国男篮职业联赛(CBA)新科冠军辽宁队提出了转会申请。 郭艾伦的经纪团队表示,明年男篮世界杯是中国男篮冲击巴黎奥运会的关键比赛,郭艾伦…

    热门资讯 2022-08-02
  • 巴基斯坦石坝开闸泄洪似电影特效

    愚公移山 改天换地 张贵顺(1914——1999),1914年1月生于河北省遵化县(今遵化市)娘娘庄,后落户到沙石峪。1941年加入中国共产党,曾长期担任沙石峪村党支部书记。 从前…

    2022-09-04
  • 美方或取消对华加征关税 中方回应

    乔·拜登近日在华盛顿向全国发表讲话时表示,白宫正在审视前总统特朗普执政期间实施的“惩罚措施”,这些措施提高了从尿布到服装和家具的所有商品的价格,他还说,白宫有可能选择完全取消上述措…

    热门资讯 2022-05-12
  • 女生囤的连花清瘟一次没吃全过期

    近日,西安一女生打算去药店买药,但翻了自家药柜后,却发现两年前囤的药,里面有连花清瘟、布洛芬颗粒、板蓝根等,可惜的是都过期了。有人认为,过期的连花清瘟还可以吃,但为安全起见,打算全…

    2022-12-17
  • C罗错失单刀

    世界杯预选赛欧洲区A组继续展开争夺,世界足球巨星C罗率领的葡萄牙队迎来了卢森堡队的挑战,上一轮比赛,葡萄牙在客场2:2战平塞尔维亚队,C罗最后时刻的绝杀球遭到了门线冤案而引发不小的…

    2022-11-25
  • 记者卧底必胜客后厨

    新闻8点见,多一点洞见。每天早晚8点与你准时相约,眺望更大的世界。 两届冬奥会冠军、日本花滑运动员羽生结弦宣布将转为职业运动员,未来不再参加竞技比赛。 “我不喜欢退役这样的词语,就…

    热门资讯 2022-07-20
  • 女子买连花清瘟被捆绑其它5种药品

    近日,有市民向长江云头条报料热线(027-87122222)反映,原本只售29.8元/盒的连花清瘟颗粒,在网上最高涨到115元/盒。长江云头条记者梳理发现,国内多地近来相继调整了疫…

    2022-12-11

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注