Hangouts Meet 的语音识别功能
在实时通信服务中,有很多应用程序都带有语音识别功能。比如实时字幕、实时翻译、语音命令或存储/汇总音频对话等。 几个月前在Hangouts Meet,实时字幕的语音识别功能已经上线了。但最近这个选项被提升到主要用户界面中。那之后我几乎每天都在使用它。 我最感兴趣的是识别技术,尤其是对于如何将DeepSpeech集成到RTC媒体服务器中以提供一个性价比高的解决方案。但是在这篇文章中识别技术不是主题。我
在实时通信服务中,有很多应用程序都带有语音识别功能。比如实时字幕、实时翻译、语音命令或存储/汇总音频对话等。 几个月前在Hangouts Meet,实时字幕的语音识别功能已经上线了。但最近这个选项被提升到主要用户界面中。那之后我几乎每天都在使用它。 我最感兴趣的是识别技术,尤其是对于如何将DeepSpeech集成到RTC媒体服务器中以提供一个性价比高的解决方案。但是在这篇文章中识别技术不是主题。我
作者:smus(原文链接) 翻译:刘通 原标题:Web-based voice command recognitions 上一次我们将音频buffer转成了图像,这一次,我们将采取这些图像,并使用deeplearn.js训练一个神经网络。结果是一个浏览器上的demo,你可以说出“yes”或者“no”的指令,然后像这样实时的显示出识别结果
作者:xiph.org(原文链接) 翻译:刘通 原标题:RNNoise: Learning Noise Suppression 前文连接:RNNoise:用深度学习进行噪声抑制(基础知识) 一个混合方法 感谢深度学习,现在把深度神经网络抛给整个问题是很流行的做法。这个做法叫做端到端—一路下去都是神经元。端到端方法已经在语音识别和语音合成中得到了应用。一方面,这些端到端系统
WebRTC 中文社区由
运营