Hangouts Meet 的语音识别功能

在实时通信服务中,有很多应用程序都带有语音识别功能。比如实时字幕、实时翻译、语音命令或存储/汇总音频对话等。 几个月前在Hangouts Meet,实时字幕的语音识别功能已经上线了。但最近这个选项被提升到主要用户界面中。那之后我几乎每天都在使用它。 我最感兴趣的是识别技术,尤其是对于如何将DeepSpeech集成到RTC媒体服务器中以提供一个性价比高的解决方案。但是在这篇文章中识别技术不是主题。我

基于网页的语音命令识别

作者:smus(原文链接) 翻译:刘通 原标题:Web-based voice command recognitions   上一次我们将音频buffer转成了图像,这一次,我们将采取这些图像,并使用deeplearn.js训练一个神经网络。结果是一个浏览器上的demo,你可以说出“yes”或者“no”的指令,然后像这样实时的显示出识别结果

RNNoise:用深度学习进行噪声抑制(实现)

作者:xiph.org(原文链接) 翻译:刘通 原标题:RNNoise: Learning Noise Suppression 前文连接:RNNoise:用深度学习进行噪声抑制(基础知识)   一个混合方法 感谢深度学习,现在把深度神经网络抛给整个问题是很流行的做法。这个做法叫做端到端—一路下去都是神经元。端到端方法已经在语音识别和语音合成中得到了应用。一方面,这些端到端系统

近期热门

有奖小调查

1 分钟回答 3 个小问题,让内容更符合你的 WebRTC 学习与开发期望。
每个月最后一天会随机抽出 5 名获奖者,并通过邮件联系送上奖品。
填写问卷