Ghost32 - 安全的系统软件下载站!

ghost32怎么安装系统|装机必备|最新专题|最近更新

当前位置:首页 > IT资讯 > 谷歌

谷歌公布通用语音模型研究成果

时间:2023-03-09 09:31:02 来源: 点击:
手机扫码继续观看
谷歌公布通用语音模型研究成果

   谷歌最近宣布它在去年 11 月投资的通用语音模型的研究成果。该模型包括 1200 万小时的音频内容和 280 亿组训练参数,对应 300 多种语言。目前可支持100多种语言识别,未来将支持1000多种语言识别。

  根据谷歌的解释,通用语音模型采用持续的自监督学习和不断的微调。通过BEST-RQ算法,在没有外界监督的情况下,持续分析和学习语言结构,自动完成80%的学习量。

  此外,该模型通过多目标监督预训练进行训练,包括文本注入、BEST-RQ和监督损失函数。通过整合其他数据训练的结果,模型可以理解语言描述的内容和语义,并通过有监督的损失函数微调最终的输出结果。

  

  谷歌表示,在没有通过监督损失函数进行最终微调的情况下,训练结果已经可以达到良好的语义理解和语句性能水平。在YouTube的语言翻译功能中,73种语言的翻译结果中的单词错误率(WER)已经达到了30%以下的表现。

  在美式英语理解性能方面,谷歌解释称,其通用语音模型相比其他高级语音模型的单词错误率更低,准确率甚至提升了 6%。对比OpenAI的大型语音模型Whisper对应的18种语言,平均错字率为32.7%,而Whisper的平均错字率在40%以下。

  其他方面,谷歌强调,在CORAAL、混合口音的SpeechStew、FLEURS对应非裔美国英语使用者使用的102种语言的识别结果中,语音识别准确率高于Whisper。在自动语义翻译性能方面,谷歌也强调其通用语音模型的 BLEU 分数优于 Whisper。

  谷歌已经发布了关于通用语音模型的研究论文,并提供API给研究人员进一步研究和应用。

  在此前的声明中,谷歌认为,一旦语言理解障碍被解决,它将促进更多应用程序开发机会,并吸引更多人使用其服务。

 

上一篇:谷歌浏览器106.0.5249.119稳定版发布:修复6个安全漏洞

下一篇:Google I/O 2023全球开发者大会将于2023年5月10日召开

相关文章

网友评论(共有 0 条评论)

请自觉遵守互联网相关政策法规,评论内容只代表网友观点,与本站立场无关!

最新评论