每年9月的第4个星期日是国际聋人日。第二次全国残疾人抽样调查结果显示,中国听力障碍残疾人数约2780万。庞大的聋人群体不甘愿“沉默”,他们渴望能和其他人顺利沟通。为帮助聋人群体更好融入社会,企业、高校齐发力,研发相关设备和系统,让聋人群体能够“听见”与“被听见”。国际聋人日来临之际,本报记者分别走访了一些企业和高校,为您讲述相关品牌研发背后的暖心故事。
让更多听障人士被“听”见
本报记者 李家鼎
电视画面中,主持人侃侃而谈,一旁的“AI手语主播”同步出镜,将包含大量冬季体育运动专业词汇的语言一一翻译……这一幕,发生在北京冬奥会期间。在央视新闻冬奥直播特别节目中,“AI手语主播”的出现让人眼前一亮,受到不少听障人士的欢迎。
“能将科研成果带到举世瞩目的冬奥会上,服务于电视机前的听障观众,我们感到十分自豪。”天津理工大学聋人工学院副院长袁甜甜告诉记者,“AI手语主播”的背后,隐藏着一个庞大的手语视频资料库,过去5年,她带领学校鲸言创益无障碍智能科技研发团队克服重重困难,构建起30余万条的视频语料库。如今,他们打造的“复杂场景下中国手语实时翻译系统”已受到科创领域的不少关注,在未来各种应用场景下,更多听障人士被“听”见,正在走向可能。
“为什么一定要把手语翻译成文字或语言呢?现在语音识别软件这么多,听障人不会说,打字给健听人看不就行了吗?” 项目启动之初,不少人曾对这项研究的必要性提出怀疑。“这些语音识别软件,逻辑出发点永远绕不开健听人,对听障人来说,他们更渴望的是自己的‘语言’可以被社会听见、听懂。”袁甜甜说。
不久前,天津市急救中心工作人员闻讯找到袁甜甜:“你们的项目能否考虑在急救领域落地,我们太需要了!”在急救工作中,遇到听障人士是常有的事,生死垂危之际,很少有患者还有意识在手机上打字,而要求医生和急救人员会手语更不现实。
“要想让这套系统应用于更多场景,就需要让语料库变得更加丰富。”团队成员、聋人工学院网络工程专业2018级学生王建源的主要工作就是搭建语料库,“招募会手语的志愿者来录视频,反反复复地录。”王建源介绍。两年时间里,王建源和伙伴们几乎每天都会出现在学院三楼实验室,有时忙到很晚,干脆席地而睡。他们已经收集到30余万条语料,“经过测算对比,距离中国汉语水平考试的4级水平仅差100多个词了。”王建源“说”完,一旁的显示屏上准确显示出上述文字。
手语是一门视觉语言,有它特定的语法、语序。手势、表情、肢体动作自由排列组合,表达的是不同的意思。“比如说‘阳光总在风雨后’这句话,手语的语序是‘风/雨/结束/阳光’,让健听人看得懂,就要用到计算机算法。”计算机学院研一学生孙悦说,在算法模型搭建中,他们渐渐总结出规律,能够将一段手语中的手势、表情、肢体动作全部识别到位,“通俗地讲,就是我们给计算机编了一套‘教材’。”在孙悦看来,这套“教材”正是他们找寻的听障人沟通外界的那座“桥”。
“这套系统已经涵盖教育、法律、餐饮、交通等应用场景,在光线充足的环境下,识别率可达95%。”袁甜甜说,系统还在飞速升级,“我们目标是100万条语料,基本覆盖社会生活的常用场景。”
“沟通永远是双向的,我身边的这些孩子们不是残障,他们只是‘不一样’。我们要做的就是,用科技的力量让他们被‘听到’、被‘听懂’。”袁甜甜说。
办事过程比想象的还方便
本报记者 申智林
走进湖南省长沙市开福区政务中心,来自吉林省的姑娘李丽打算咨询一下残疾证异地换新的相关流程。由于存在听力方面的障碍,她做好了因沟通不畅而办不成事的准备,却没想到,整个办事过程远比想象中要方便。
大厅里,工作人员见李丽只能用手语交流,便将她引导至载有“楼层业务导引”功能的屏幕前进行办事分导。
令李丽惊喜的是,点开一级菜单,屏幕左上角立刻弹出一个小窗口,里边赫然出现一个虚拟人物“千语”。每当李丽往下划动,虚拟人物都会迅速而准确地打起手语,充当导引内容的翻译。很快,李丽就找到了对应的办事专窗。
没有一个懂手语的工作人员,也没有配专职手语翻译,开福区政务大厅的工作人员驾轻就熟地打开“千博手语双向无障碍沟通平台”,先是借助预置业务内容的手语翻译,同李丽沟通交流;深入沟通中遇到困难,又联系平台后方的实时翻译,对李丽做好释疑解惑。不到半个小时,相关业务就全部办理完毕。“有了这套系统,我们沟通更顺畅了。”李丽表示。
“这套服务系统目标是打通语音文字到手语手势、手语手势到语音文字的双向映射,实现听障人无障碍获取汉语及文本信息,听障人与健听人之间无障碍沟通。”长沙千博信息技术有限公司技术总监郭松睿介绍。
2018年,湖南大学信息科学与工程学院教授、长沙千博信息科技有限公司主要创始人高春鸣带着郭松睿在内的研究团队,在一次同北京联合大学的教师开展技术交流时,得知听障人士有对智能手语实时转译等功能的迫切需求。
“这正是我们擅长的内容。”郭松睿说,彼时,团队在计算动画领域已经积累了十余年技术经验,“说起来,智能手语可以视为计算动画的一个具体分支,其中涉及的文本处理、语义分析等程序,需要用到的大数据、云计算等技术是完全相通的。”
要做到从文本语音到手语的精准翻译并不简单。“首先得理顺汉语同手语在词汇及语法方面的对应关系。”郭松睿说,以词汇为例,2019年,最新版的《国家通用手语词典》收入了8214个手语词汇,“但在日常生活中,要满足沟通需要,至少还需要增加三四千个词语的手语表达范式。”为此,研发团队开展了广泛的基础语料搜集工作,并从中提炼出一些比较通用的手语词汇,补充到数据库中。
而语法方面,情况更加复杂。“一开始,我们想当然地认为,中国的手语和汉语普通话在语法规则上一致。”郭松睿说,可实际上,不管是语序还是语义逻辑的表达,各地都千差万别。比如简单的一句“我不喜欢吃苹果”,因为语序和语义表达上的差异,可能有很多种表达形式。“在海量语料的基础上,充分利用大数据计算,我们逐步归纳手语语法特征。”郭松睿说。
在研发团队不懈努力下,如今,对于新闻播报等较为规范的文本、课堂教学等有章可循的语音报送以及类似政务服务等程序性较强的沟通场合,千博信息推出的“千语”虚拟人物,已经能够做到实时精准的手语翻译。
“下一步,我们重点在于提高从手语到文本语音的智能识别和实时转录,减少对人工的依赖。”郭松睿说。
终于能“听”解说了
本报记者 康 朴
“这个操作失误了”“放了一个大招”……在一场王者荣耀游戏比赛直播间,主播语调激昂地解说着紧张刺激的对战场面,视频画面右侧,一个AI主播双手不停变换动作——这是腾讯研发的手语AI主播,形象取自游戏中的角色“云缨”。她的解说,让生活在无声世界里的游戏爱好者很开心。
其实,人工智能手语主播在今年北京冬奥会上也有过亮相,腾讯3D手语数智人主播“聆语”就用手语传递了中国冬奥健儿争金夺银的激情与喜悦,温暖了无数人。
“在很多体育赛事中,专业、准确的赛事解说是观赛体验中的关键所在,但对听障人士来说,如果没有实时手语解说,就很难充分感受到比赛现场的激情。”腾讯智能创作中心相关研究人员说。目前许多新闻资讯、文娱节目中都缺少手语翻译,手语主持人、手语主播是稀缺资源,如何更好地让听障人士获取更多信息?
腾讯把目光投向人工智能:造一个AI主播,跟着解说同步比手语。可问题是,程序员对手语一窍不通。
“我们请来专业手语老师上课,啃下《国家通用手语词典》,逐渐形成对手语的基本认知。”腾讯智能创作中心研发团队相关负责人告诉记者,他们还跑了很多趟聋哑人学校,与师生交流,听取他们意见。
研发游戏AI主播的想法就是在这样的交流中萌生的。“在听障群体中有很多人喜欢游戏、喜欢电子竞技,经常收看电竞直播节目,但即便主播声嘶力竭,他们依然无法感受到解说的魅力。”研发团队相关负责人说。
研发团队不仅仅要学习手语,更大的挑战在于把手语的手势、表情、唇动、姿态、眼神等图像信息转化为计算机可懂的编程语言。
不了解手语的人,也许会认为手语仅仅需要手部动作。其实手语是一门视觉语言,表情、体态等也是其表达的关键。比如“明白吗?”这个问句,就需要身体朝向、表情、眼神、口型联动,才能有效传递出疑问的语气。
为了实现更加准确、自然的手语表达效果,腾讯智能创作中心建立了汉语-手语翻译系统,可以通过机器翻译生成手语表征信息,基于多模态端到端生成模型进行联合建模及预测,生成高准确率的动作、表情、唇动等序列。
在体育赛事中,一到紧张激烈的时刻,解说员语速都会加快,这时,打手语就有可能跟不上了。“把解说语音识别为文本,用算法进行取舍,抽取关键信息,保留主体意思,再通过语料库转换为手语文本,最后渲染成手语视频。”腾讯智能创作中心研发团队相关负责人说,系统还会根据解说员语速来判断是否需要压缩和压缩多少语义,以达到更好的呈现效果。
“目前我们在和一些省级电视台合作,让手语数字人亮相更多电视大屏,先为省级新闻联播等节目做好相关服务和支持,再逐步拓展场景。”腾讯智能创作中心研发团队相关负责人说,“随着技术不断进步和场景不断完善,听障人士会越来越便捷地获取更多信息,我们的工作很有意义。”
李家鼎