在试图追上微软和OpenAI在人工智能方面的先发优势时,谷歌自己搞砸了。
2月8日,谷歌人工智能聊天机器人Bard在发布会上对用户提出的问题给出错误回答。8日晚,美股开盘,谷歌大跌超7%,市值蒸发约1020亿美元(约6932.50亿元人民币)。
有分析认为,这正好暴露了类似的人工智能系统实际上并不具备“理解能力”,也很难甄别虚假信息,“一本正经的胡说八道”就是AI最受质疑的软肋。
AI犯了一个价值千亿美元的错
2月8日,谷歌在巴黎召开的发布会上再一次展示了Bard——这款为了对抗ChatGPT推出来的聊天机器人。按照谷歌的宣传,Bard不仅要和ChatGPT一样有问必答,还要更“负责任”——暗搓搓地指ChatGPT里掺杂的虚假信息太多,不够“负责”。
这一宣传明显提高了人们对于Bard的期望值。毕竟在最初的惊艳过后,ChatGPT“一本正经”的胡说八道,也就是回答里夹杂的不少似是而非的伪信息,已经让很多人对于使用它提高了警惕,里面逻辑和数学上的错误更加惊人。
让人没想到的是,谷歌的Flag立得太早。Bard刚一亮相,就出错了——而且出了个大糗。
在谷歌短短的几秒展示里,Bard其实只被问了一个问题——“我可以告诉我 9 岁的孩子关于詹姆斯·韦伯太空望远镜(James Webb Space Telescope ,简称JWST) 的哪些新发现?”
Bard的回答很精彩——有丰富的信息,而且很形象的比喻,确实深入浅出地给孩子解释了JWST的发现。
然而,里面有一个巨大的错误:回答里提到“ JWST 拍摄到了太阳系外行星的第一张照片”,也就是下图灰线部分。
然而,事实上,第一张系外行星照片是由欧洲南方天文台的Very Large Telescope (VLT) 在 2004 年拍摄的。
最先指出这个错误的是天体物理学家 Grant Tremblay。
他在推特上写道:“我不是要成为一个讨厌鬼,我相信 Bard 会令人印象深刻,但郑重声明:JWST 并没有拍下‘我们太阳系外行星的第一张图片’。”
天文学家们认为,这一问题可能源于人工智能误解了“模棱两可的NASA新闻稿,低估了过去的历史”。
而在唯一的一次演示里,就犯了这么大的错误,谷歌可以说颜面尽失,不得不快速撤下了相关演示的视频。
但错误已经犯了,代价就不可避免。消息一传出,谷歌股票大跌,市值蒸发约1020亿美元(约6932.50亿元人民币)。
可以说,这是AI到目前为止犯下的最昂贵的一个错误。
聊天机器人就是“扯淡生成器”
对于谷歌这场翻车的发布会,《每日电讯报》在报道中直接写道,Bard的错误将进一步引发人们去质疑搜索引擎和人工智能生成答案的准确性。
其实,对于聊天机器人的准确性,此前已有人工智能分析师警告称,生成式人工智能(generative AI)仍然存在潜在问题,例如,ChatGPT它的回复中有时会包含虚构事实。研究聊天机器人缺陷的华盛顿大学教授Chirag Shah此前表示,“公司经常过快地推出新技术,忽视它们的缺陷,然后又试图快速修复它们……这会造成真正的伤害。”
正如 Tremblay 所指出的,ChatGPT 和 Bard 等 AI 聊天机器人的一个主要问题是它们倾向于自信地将不正确的信息陈述为事实。这些系统经常“产生幻觉”,即编造虚假信息,因为他们只是接受大量文本语料库的训练,但并不是查询已经过验证的事实的数据库来回答问题。
也有网友评价说,这也正是如今的AI研究和语言模型共有的问题:它们非常擅长生成“看起来”准确的,但其实并不准确的信息。概括来说,他们就是在一本正经的胡说八道。
这导致一位著名的 AI 教授,将这些聊天机器人称为“扯淡生成器”。
很明显的一个例子就是,对于Bard犯错的这个问题,其实Google搜索已经给出了正确答案。
如果你在Google上搜索“太阳系外行星的第一张图片”,Google自己就给出了准确信息——它是在2004年由VLT第一次捕捉成像。
把检验真伪的责任丢给用户?
另一个巨头微软已经预见到了这样的事情发生。
就在谷歌发布会的前一天,微软也召开了一场发布会,宣布推出搭载了AI技术的搜索引擎必应(Bing)和浏览器Edge,新版本中引入了OpenAI旗下ChatGPT的相关技术,升级后,用户可以直接提出问题,并通过搜索引擎生成答案。
但是,微软在演示集成了ChatGPT的人工智能Bing搜索引擎时,就试图通过把责任丢给用户来避开同样的这些问题。它在免责声明里称,“Bing由AI提供支持,因此可能会出现意外和错误。请确保进行事实核查并分享反馈,以便我们学习和改进!”
在周一官宣Bard发布的博文里,谷歌CEO皮柴曾特别强调,谷歌希望通过这一阶段的测试,来提高Bard的质量和速度,确保 Bard的回答达到高标准。然而,在这个望远镜乌龙事件后,谷歌发言人不得不强行挽回一点颜面。他们告诉媒体称:“这凸显了严格测试过程的重要性,我们本周将通过 Trusted Tester 计划启动这一过程。我们会将外部反馈与我们自己的内部测试相结合,以确保Bard的回应在质量、安全性和现实世界信息的基础性方面达到高标准。”
AI还面临版权和伦理等诸多争议
需要强调的是,越大的公司对声誉和社会责任的顾虑越多。
去年11月,Meta具有1200亿参数语言模型Galactica,在生成内容里引用文献时,发生作者真实存在但文献虚构,以及还存在一本正经胡说八道的情况。事态引起舆论哗然,短短3天后,饱受争议的团队无奈宣布Demo(暂时)下架。
前车之鉴,还有2022年同样爆火的AI绘画。当时玩得最开的,当属Stable Diffusion背后的公司Stability AI。
虽然用户在用其进行AI绘画时得按需付费,但它开放源代码,开发者可以完全免费下载底层代码来训练自己的模型。开放性像一柄双刃剑,让Stability AI陷入了版权、监管等诸多争议之中。
另一边,伦理、版权多重顾虑缠身的OpenAI旗下DALL-E2、谷歌Imagen,在藏着掖着地隔岸观望后,才下场公测。结果么,两家都跌了跟头。
也正因如此,OpenAI才痛定思痛,推出ChatGPT来抢占先机。
但是,有媒体指出,哪怕是接受了两个多月的外部测试反馈和内部调试,ChatGPT仍然会不受控地口出狂言,发表一些政治偏向或种族和性别主义歧视言论,也被人们发现了会提供错误信息。尽管OpenAI没有提供错误信息频率的统计数据,但这家公司表示,会通过定期更新使该工具变得更好。
而在微软发布的必应的例子中,聊天机器人的答案将被降级到页面的一侧,而不是通常搜索结果将保留的前面和中心。机器人的回答还包括脚注和来源材料的链接,这在ChatGPT当中是没有的,但这使得微软的工具看起来更值得信赖。
反观谷歌的Bard,回答放在页面中间、搜索结果上方显示了单一的摘要答案,并且没有脚注,这意味着用户不可能识别来源。
OpenAI等公司试图通过增加数十亿个参数来提高语言模型的准确性,但一些研究人员怀疑,随着模型的增长,准确性的回报会递减。
对于正在进行AI大战的科技巨头们来说,消除这些持续存在的少数谎言可能成为一项长期挑战。
上游新闻综合自同花顺财经、投资界、新浪科技、、华尔街见闻
责编:张松涛
审核:冯飞