当前位置：首页 > IT资讯 > 谷歌

谷歌公布通用语音模型研究成果

时间：2023-03-09 09:31:02 来源：点击：

手机扫码继续观看

谷歌公布通用语音模型研究成果

　　谷歌最近宣布它在去年 11 月投资的通用语音模型的研究成果。该模型包括 1200 万小时的音频内容和 280 亿组训练参数，对应 300 多种语言。目前可支持100多种语言识别，未来将支持1000多种语言识别。

　　根据谷歌的解释，通用语音模型采用持续的自监督学习和不断的微调。通过BEST-RQ算法，在没有外界监督的情况下，持续分析和学习语言结构，自动完成80%的学习量。

　　此外，该模型通过多目标监督预训练进行训练，包括文本注入、BEST-RQ和监督损失函数。通过整合其他数据训练的结果，模型可以理解语言描述的内容和语义，并通过有监督的损失函数微调最终的输出结果。

　　

　　谷歌表示，在没有通过监督损失函数进行最终微调的情况下，训练结果已经可以达到良好的语义理解和语句性能水平。在YouTube的语言翻译功能中，73种语言的翻译结果中的单词错误率(WER)已经达到了30%以下的表现。

　　在美式英语理解性能方面，谷歌解释称，其通用语音模型相比其他高级语音模型的单词错误率更低，准确率甚至提升了 6%。对比OpenAI的大型语音模型Whisper对应的18种语言，平均错字率为32.7%，而Whisper的平均错字率在40%以下。

　　其他方面，谷歌强调，在CORAAL、混合口音的SpeechStew、FLEURS对应非裔美国英语使用者使用的102种语言的识别结果中，语音识别准确率高于Whisper。在自动语义翻译性能方面，谷歌也强调其通用语音模型的 BLEU 分数优于 Whisper。

　　谷歌已经发布了关于通用语音模型的研究论文，并提供API给研究人员进一步研究和应用。

　　在此前的声明中，谷歌认为，一旦语言理解障碍被解决，它将促进更多应用程序开发机会，并吸引更多人使用其服务。

上一篇：谷歌浏览器106.0.5249.119稳定版发布：修复6个安全漏洞

下一篇：Google I/O 2023全球开发者大会将于2023年5月10日召开

相关文章

网友评论（共有 0 条评论）

最新评论

热门Win系统下载

热门Win教程排行

电脑系统软件