元器件交易网-中发网全新升级平台
关注我们:
首页 > 人工智能 > 可穿戴设备 > 正文

听不懂方言的智能语音助手不是好助手

华盛顿邮报最近进行的一项研究结果显示,谷歌和亚马逊研发的流行智能语音助手识别非美国本地口音的准确率要比美国本地口音低30%。IBM和微软这样的公司都会通过Switchboard语料库来降低语音助手的出错率。但是事实证明,语料库也无法彻底解决语音助手的方言口音识别问题。

语音助手现状

从IBM的Shoebox到Worlds of Wonder的Julie doll,语音识别技术一直在不断地发展。目前,Google Assistant支持超过30种不同的语言。高通也开发了一款可以识别单词和短语的语音识别系统,其准确率高达95%。

目前语音识别技术已经有了较为广泛的应用,C端应用集中在手机等移动设备中,随处可见具有语音识别功能的APP,车载、家居、可穿戴设备等,B端应用主要集中在医疗和教育领域。

ComScore的一项预测显示到2020年,一半的搜索将会通过语音来执行。随着越来越多的语音控制科技的出现,语音服务如何实现更好地服务带方言口音的目标人群成了开发者的目标。

攻克目标人群

“数据是混乱的,因为数据反映了人性,”埃森哲的全球责任AI监理Rumman Chowdhury说,“这就是算法最擅长之处:寻求人类行为模式。”算法偏差表示机器学习模型对数据或者设计产生偏见的程度。很多新闻报道都对面部识别系统产生了不小的偏见。而且,算法偏差还会出现在其他方面,比如预测被告是否会在未来犯罪的自动化系统以及谷歌新闻等app背后的内容推荐算法。微软以及包括IBM、高通和Facebook在内的AI行业领导者已经开发出自动化工具,用于检测并减少AI算法中产生的偏差,但很少有人能够提出口音识别问题的具体解决方案。

研究人员收集成千上万人讲述各种话题的语音, 然后手动记录这些音频剪辑,这些数据 (音频剪辑和书面记录的组合 )将会使得机器在声音和单词之间建立关联。其中使用最频繁的短语将被用于AI算法训练,以识别人类说话。

AI只能识别出训练过的内容,所以训练内容的口音多样性决定了语音识别软件的灵活性。 当前,政府、学术界和小型创业公司已经能依靠已有的音频和书面记录(称为语音语料库)来避免人工转录录音内容这样的劳动密集型工作。 

Speechmetrics是一家专门研究企业语音识别软件的剑桥科技公司,它于12年前就开始实施了一项雄心勃勃的计划,旨在开发比市场上任何产品更准确全面的语言识别系统。Speechmatics首席执行官Benedikt vonThüngen日前透露说“我们已经发现我们需要开发一款语音识别系统,只需一种模式便能适用于所有语言,不再有口音问题,并且它识别澳大利亚口音的准确度和转录苏格兰口音一样高。”

应用翻译技术

要训练一台机器识别语音,首先我们需要很多音频样本。亚马逊近日爆出一项新发明,据悉研发的新产品是一个音频系统,其最大的功能特色,就是可以将说话人的口音转化为听者的口音,让不同地域的用户沟通更加高效无障碍。其主要原理是能在会话中分析接收到的音频,检测是否与多种存储的口音匹配,然后将一方口音翻译成对方的口音。

换句话说,亚马逊这一专利技术能够实现不同方言之间的转换沟通,类似于让讲粤语的和讲四川话的人能够无障碍沟通。当前的语音识别转换技术,大多专注于不同语言之间的翻译,而着眼于方言转换的并不多见。不少业内人士也认为,亚马逊推出的音频系统十有八九能顺利获得批准。而一旦获批,可预见亚马逊将会用于其客服系统,毕竟亚马逊电商服务着世界各地具有不同口音的用户。

然而,也有分析认为这种口音翻译技术仍处于研究或“防御”阶段,离最终的好效果还有一段距离。

形成数据共享

其实归根结底,语音识别的口音问题是由于数据不足产生的。语料库的质量越高,语言模型越多种多样,那么至少从理论上来说语音识别系统的准确率越高。大公司需要在全球范围内保持竞争力,苹果、谷歌和亚马逊都有自己一套收集语言和口音数据的秘诀。

亚马逊的一位发言人告诉华盛顿邮报,随着更多的用户用不同的口音说话,Alexa的语音识别能力会不断提高。并且,谷歌在一份声明中表示,他们将通过扩大自己的数据库,不断改进Google Assistant的语音识别技术。

虽然大型科技公司在收集语音数据方面取得不错的进展,但是由于相互的竞争关系,和市场份额等原因,这些数据无法实现共享。 这是为什么往往最新的语音识别技术需要花费很长时间才能流传开的原因。 

中国搜索引擎公司百度的一位代表表示,他们建立在深度学习上的对英语和汉语的语音识别精度,比人类识别的更加高。

循环语音学习

不要指望有彻底解决口音问题的方案,“按现在的技术发展,你不可能研发出准确率最高并且适用于全世界用户的语音识别系统,”Faith说。“你能做的最好的事情便是保证这些语音识别系统能够准确识别那些正在使用它们的用户的口音。”

收集口音语音数据耗资不菲,并且十分麻烦,这也是为什么大多数公司优先考虑收集关键人群语音数据的原因。显然,不仅语音识别技术歧视带有口音的人群,人类也有。

根据市场研究公司Canalys数据显示,到2019年之前,将近1亿智能语音系统在全球销售。并且,在2022年之前,大约55%的美国家庭都会拥有一个智能语音系统。相信随着越来越多的机器学习的加入,智能语音助手将逐渐取新的知识和学习技能,组织已有知识结构不断改善自身性能,越来越智能的为人类提供语音服务。

声明: 本网站原创内容,如需转载,请注明出处;本网站转载内容(文章、图片、视频等资料)的版权归原网站所有。如我们转载或使用了您的文章或图片等资料的,未能及时和您沟通确认的,请第一时间通知我们,以便我们第一时间采取相应措施,避免给双方造成不必要的经济损失或其他侵权责任。如您未通知我们,我们有权利免于承担任何责任。 我们的联系邮箱:news@cecb2b.com。

买正品元器件就上天交商城!

扫描左侧的二维码

科技圈最新动态一手掌握
每日砸蛋,中奖率100%

责任编辑:蒲志琼