谷歌最近宣布它在去年 11 月投资的通用语音模型的研究成果。该模型包括 1200 万小时的音频内容和 280 亿组训练参数,对应 300 多种语言。目前可支持100多种语言识别,未来将支持1000多种语言识别。
根据谷歌的解释,通用语音模型采用持续的自监督学习和不断的微调。通过BEST-RQ算法,在没有外界监督的情况下,持续分析和学习语言结构,自动完成80%的学习量。
此外,该模型通过多目标监督预训练进行训练,包括文本注入、BEST-RQ和监督损失函数。通过整合其他数据训练的结果,模型可以理解语言描述的内容和语义,并通过有监督的损失函数微调最终的输出结果。
谷歌表示,在没有通过监督损失函数进行最终微调的情况下,训练结果已经可以达到良好的语义理解和语句性能水平。在YouTube的语言翻译功能中,73种语言的翻译结果中的单词错误率(WER)已经达到了30%以下的表现。
在美式英语理解性能方面,谷歌解释称,其通用语音模型相比其他高级语音模型的单词错误率更低,准确率甚至提升了 6%。对比OpenAI的大型语音模型Whisper对应的18种语言,平均错字率为32.7%,而Whisper的平均错字率在40%以下。
其他方面,谷歌强调,在CORAAL、混合口音的SpeechStew、FLEURS对应非裔美国英语使用者使用的102种语言的识别结果中,语音识别准确率高于Whisper。在自动语义翻译性能方面,谷歌也强调其通用语音模型的 BLEU 分数优于 Whisper。
谷歌已经发布了关于通用语音模型的研究论文,并提供API给研究人员进一步研究和应用。
在此前的声明中,谷歌认为,一旦语言理解障碍被解决,它将促进更多应用程序开发机会,并吸引更多人使用其服务。
相关文章
网友评论(共有 0 条评论)