谷歌发布AI新模型PaLM2

谷歌刚刚上线了一个炸弹级「通才」模型PaLM-E,足足有5620亿参数。它是一种多模态具身视觉语言模型,从引导机器人执行任务,到回答关于可观察世界的问题,全都能搞定。

大语言模型的飞速「变异」,让人类社会的走向越来越科幻了。点亮这棵科技树后,「终结者」的现实仿佛离我们越来越近。

前几天,微软刚宣布了一个实验框架,能用ChatGPT来控制机器人和无人机。

谷歌当然也不甘其后,在周一,来自谷歌和柏林工业大学的团队重磅推出了史上最大视觉语言模型——PaLM-E。

谷歌发布AI新模型PaLM2

论文地址:https://arxiv.org/abs/2303.03378

作为一种多模态具身视觉语言模型 (VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,而且竟然还能将两者结合起来,处理复杂的机器人指令。

此外,通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合,PaLM-E最终的参数量高达5620亿。

谷歌发布AI新模型PaLM2

横跨机器人、视觉-语言领域的「通才」模型

PaLM-E,全称Pathways Language Model with Embodied,是一种具身视觉语言模型。

它的强大之处在于,能够利用视觉数据来增强其语言处理能力。

谷歌发布AI新模型PaLM2

当我们训练出最大的视觉语言模型,并与机器人结合后,会发生什么?结果就是PaLM-E,一个 5620亿参数、通用、具身的视觉语言通才——横跨机器人、视觉和语言

据论文介绍,PaLM-E是一个仅有解码器的LLM,在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本补全。

其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。

谷歌发布AI新模型PaLM2

经过单个图像提示训练,PaLM-E不仅可以指导机器人完成各种复杂的任务,还可以生成描述图像的语言。

可以说,PaLM-E展示了前所未有的灵活性和适应性,代表着一次重大飞跃,特别是人机交互领域。

更重要的是,研究人员证明,通过在多个机器人和一般视觉语言的不同混合任务组合进行训练,可以带来从视觉语言转移到具身决策的几种方法,让机器人规划任务时能够有效地利用数据。

谷歌发布AI新模型PaLM2

除此之外,PaLM-E尤为突出的一点在于,拥有强大的正迁移能力。

在不同领域训练的PaLM-E,包括互联网规模的一般视觉-语言任务,与执行单一任务机器人模型相比,性能明显提高。

谷歌发布AI新模型PaLM2

而在模型尺度上,研究人员则观察到了一个显著的优势。

语言模型越大,在视觉语言与机器人任务的训练中,保持的语言能力就越强。

从模型规模来看,5620亿参数的PaLM-E几乎保持了它所有的语言能力。

谷歌发布AI新模型PaLM2

尽管只在单个图像进行训练,但PaLM-E在多模态思维链推理和多图像推理等任务中表现出突出的能力。

在OK-VQA基准上,PaLM-E取得了新的SOTA。

谷歌发布AI新模型PaLM2

测评结果在测试中,研究人员展示了如何使用PaLM-E在两个不同实体上执行规划以及长跨度的任务。

值得注意的是,所有这些结果都是使用基于相同数据训练的相同模型获得的。

在以前,机器人通常需要人工的协助才能完成长跨度任务。但现在,PaLM-E通过自主学习就可以搞定了。

谷歌发布AI新模型PaLM2

比如,「从抽屉里拿出薯片」这类指令中,就包括了多个计划步骤,以及来自机器人摄像头的视觉反馈。

经过端到端训练的PaLM-E,可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中,所以机器人在拿薯片的过程中,对途中的干扰都有鲁棒性。

谷歌发布AI新模型PaLM2

人类:给我来点薯片。

机器人:1. 走到抽屉旁 2.打开最上面的抽屉 3. 从最上面的抽屉里拿起绿色的薯片 4.放在柜台上。

谷歌发布AI新模型PaLM2

同样,让机器人去拿一个苹果时,给出图片后,机器人执行任务步骤如下——

人类:给我拿一个苹果。

机器人:1.走向苹果 2.拿起苹果 3.把它拿给操作员 4.放下苹果 5.完成。

谷歌发布AI新模型PaLM2

除了执行长跨度任务,PaLM-E可以让机器人执行规划任务,比如排列积木。

研究人员根据视觉和语言输入成功地进行多阶段的计划,并结合了长时间范围的视觉反馈,进而让模型能够成功地规划一个长周期的任务「将积木按颜色分类到不同的角落」。

如下,在排列组合上,机器人化身为多面手,按颜色将积木排序。

谷歌发布AI新模型PaLM2

模型的泛化方面,PaLM- E控制的机器人可以把红色积木移到咖啡杯的旁边。

值得一提的是,数据集只包含有咖啡杯的三个演示,但其中没有一个包括红色的积木块。

谷歌发布AI新模型PaLM2

类似的,虽然模型此前从未见过乌龟,但照样可以顺利地把绿色积木推到乌龟旁边

谷歌发布AI新模型PaLM2

在零样本推理方面,PaLM-E可以在给定图像的情况下讲述笑话,并展示了包括感知,基于视觉的对话和计划在内的能力。

谷歌发布AI新模型PaLM2

多张图的关系,PaLM-E也整得很明白,比如图一(左)在图二(右)的哪个位置。

谷歌发布AI新模型PaLM2

此外,PaLM-E还可以在给定带有手写数字的图像执行数学运算。

比如,如下手写餐馆的菜单图,2张披萨需要多少钱,PaLM-E就直接给算出来了。

谷歌发布AI新模型PaLM2

以及一般的QA和标注等多种任务。

谷歌发布AI新模型PaLM2

最后,研究结果还表明,冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。

但同时,研究人员还发现了一条解冻模型的替代路线,即扩大语言模型的规模可以显著减少灾难性遗忘。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 86345@qq.com 举报,一经查实,本站将立刻删除。
(0)
上一篇 2023-05-11 13:04:40
下一篇 2023-05-11 13:05:35

猜你喜欢

  • 王栎鑫自驾上班被保安拦_安保还是阻碍?

    7月14日,王栎鑫扛着设备去了上海外滩,准备在外滩广场上卖唱,然而设备刚刚摆好,王栎鑫两句歌词还没唱完就从人群中走出一群保安,制止了王栎鑫的街头卖唱行为,驱散了人群,也把他驱赶走了…

    2023-06-02
  • 游客在黄山偶遇汪文斌

    游客在黄山偶遇汪文斌:网友:沉稳谦逊,走到哪里都自带光坏,网友:沉稳谦逊,不失霸气。正后悔没有好好读书,现在想夸一个人都找不到词,陌上人如玉,君子世无双。 我华夏大地,去哪里都很安…

    2022-12-10
  • 西班牙赛前加练1000个点球仍出局

    直播吧12月7日讯 世界杯1/8决赛西班牙不敌摩洛哥,遗憾止步16强。 在本场比赛之前,恩里克在接受采访时曾表示:我让球员世界杯前练1000次点球。可惜本场比赛西班牙仍旧没能获得点…

    2022-12-07
  • 坚持大团结大联合 推进统一进程

    由国务院台湾事务办公室、国务院新闻办公室发表的《台湾问题与新时代中国统一事业》白皮书,在海峡两岸及港澳地区持续引发强烈反响。 各界人士接受新华社记者采访时表示,海内外中华儿女应团结…

    热门资讯 2022-08-12
  • 孙颖莎暗号手势算是看明白了

    在巴黎奥运会乒乓球比赛上,孙颖莎想球场给队友的小细节你都观察到了吗?原来这些都是乒乓球混双中常见的手势,喜欢打乒乓球和喜欢研究乒乓球的朋友们感心趣可以学一下记一记,让我们持续会奥运…

    2024-07-31
  • 房子被邻居封入户门后续

    辽宁朝阳一房屋入户门被邻居封死一事,迎来后续。 6月27日,记者从当事人于女士处获悉,“房子的事情已经解决了,政府出面,开发商买回去了。” 齐鲁晚报·齐鲁壹点此前报道,6月18日,…

    2023-06-28
  • 新西兰航空将给旅客称重

    在奥克兰机场一个隐秘的角落里,有这么一个办公室,里面摆满的不是文件、或者航空相关的器械,而是各种各样的生物制品。 例如有旅客从佛罗里达州带回来的鳄鱼头标本。狒狒头骨。还有东南亚产的…

    热门资讯 2023-06-01
  • 黄河大学真要来了?,黄河大学是几本

    黄河,千里滔滔,流经九省区。近些年,一直有筹办一所黄河大学的呼声,河南省与山东省均曾明确表达过筹建黄河大学的意愿。 近日,河南省投资项目在线审批监管平台网上申报系统的项目办理结果公…

    2024-07-19
  • 男子诈骗300余万买彩票中1450万

    8月24日,据长沙广电“星视频”报道,近日,浙江龙游县人民法院公开审理并当庭宣判一起听障人士被诈骗案,3人因犯诈骗罪被判处10年以上有期徒刑,全额追回赃款1250余万元。 2021…

    2022-08-24
  • 湖南怀化一银行起火

    湖南日报·新湖南客户端9月29日讯(石元文 王承)国庆前夕,怀化市建行开展消防应急疏散演练活动,提高单位工作人员在灾害发生时的应急处置能力。 演练模拟建设银行怀化分行5楼发生火灾有…

    2023-05-11

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注