首页 > 行业解读 > 为什么现在的视频会议体验这么烂？！（下）

为什么现在的视频会议体验这么烂？！（下）

21 8 月, 2020

首先，如果你还没有看过该系列文章的上篇，请移步这里。在下篇中我要讨论的是：为什么我认为音视频会议时长会解构，以及由此产生的大好机遇。

上篇文章的内容如图所示：

除此之外，我们还有一个棘手的问题需要解决。当然，你可以很快组建一个用户体验更好、功能更齐全的会议平台。但是无论你的屏幕共享效果如何，平台的音频和视频信令处理性能总归是一塌糊涂，你的客户会感到失望。做好信号处理需要专业人士和大量投资，但现在没有人这样做。你也如此，这样只会让老问题一直困扰客户：

“抱歉，我听到自己的回声了，你能把你的话筒关掉吗？不，我还是会听到自己的声音……”

我们会发现自己处于一个牢不可破的恶性循环中。市场太小，大家不愿意投资，产品质量退化，市场也不会增长。我们是否能打破这个循环呢？

解构市场

打破这一周期的根本在于打破市场的垂直模式。我们需要的是独立于会议平台供应商的技术公司，他们会专门为应用程序进行最新的音频和视频信令处理。他们的商业模式可以出售给新老会议平台供应商。这样能降低新通信公司进入市场的门槛，开发新的应用程序，使现有市场参与者的产品变得更好，从而扩大市场。

这种方法的好处在于投资回报率是可观的。比如，如果你开发出具有实时降噪的强大功能功能、AI驱动的应用，你就可以将其出售给所有主流会议供应商。不仅给公司，也可以给教育、医疗保健，甚至音视频会议以外的其他市场。现在市场规模就大到足以证明投资的合理性。但是如何实现呢？

现在，循环该被打破了

市场在不断发展，但新冠疫情重创了市场的过渡。至少就目前而言，市场规模急剧增加，为投资创造了很多机会。恶性循环正被打破。

但我不建议现在尝试建立另一个通用会议平台来与现有平台竞争。这样做得不偿失。因为你没有足够的钱来投资。即使你有，一时半会儿也收不回本儿来。

我认为，要成功实现这一市场的完美转型，我们需要改变其生态系统。为了使市场健康发展，我们需要4种类型的市场参与者：

1. 现有的较为熟悉的公司：Zoom、Microsoft Teams、Google Hangout、Cisco WebEx等通用会议平台。

2. 未来十年市场增长最快的平台。即那些在线教育、远程医疗保健或运动平台等的定制平台。此类平台已经面世，像瑞典的Kry公司，作为这一领域的先驱，就可以让病人通过视频通话向医生求诊。

3. 上篇文章中我们提到过一些很棒的白标视频会议平台，但是所有开发、研究WebRTC、编解码器之类标准以及连接性的公司也属于此类。一个很好的例子就是Twilio，它现在是一家上市公司，再比如上个月刚上市的agora.io。

4. 所有AI驱动的音视频信令处理供应商。他们能提供降噪、杜绝回声，更清晰的视频画质，以及更多新功能。此类公司还并不存在。

我发现：

如今1类公司想大包大揽。他们也看到了2类公司的发展前景，试图超越他们，但通用平台毕竟有一定局限性；
要在1类或2类公司（产业链较高位置）中站稳脚跟，你需要真正理解终端客户理解，给予他们良好的用户体验（即UX）。若要在3类或4类公司（产业链较低位置）中独占鳌头，你需要对技术有深刻了解。不同类型公司需要不一样的核心能力；
1类和3类公司早已存在市场中，2类公司正在兴起，而4类公司还未面世；
2类公司盈利前景大好，但前提是4类公司面世加以辅助，否则2类公司只能重蹈覆辙；
2类公司的发展会推动4类公司的进步。1类公司也会从4类公司中受益，变得更好。

若要我设想一个视频会议体验不再糟糕的世界，那上述四个类型中的每个类型，特别是如今还未面世的第4类公司，都要有主流的独立公司。整个市场的成功依赖于能提供实时信令处理的这一强大功能的技术公司。

作为终端用户，你不会直接购买这些功能，实际上你可能根本不会听到提供这些功能的公司名字。你知道并使用的会议平台供应商会从技术公司购买它们。这样，平台公司就有更多时间通过那些销售组织，听取终端客户的意见，然后在应用程序级别确定他们的需求，根据需求定制产品。

为了拯救这个市场，我们需要一个市场参与者生态系统，不是垄断整个市场的巨头。我们都明白这样行不通。

变革来临

如今，越来越多公司试图构建能适用于所有业务模式的基础技术，而不是打造自己的平台。

比如，Krisp这家初创公司就在降噪方面提供了很好的范例。它构建了一个AI驱动降噪器。最近还有一款名为mmhmm的Beta工具，他具备UX功能、更好的视频和图像处理功能，从而使视频通话更加高效。

这些公司以插件的方式为音视频市场提供了功能，终端用户可以在任何会议平台上使用它们。我认为对于这些初创企业来说，若想成功，他们需要停止直接向终端用户提供插件，争取成为平台的技术供应商。现在的发展趋势也确实如此。

不只是视频会议

你可能觉得我们已经采用实时音频信令处理功能很久了。实际不然，请看下面这个例子。

5年前，大多数音频信令处理都是在通信设备上进行的，比如你的手机或会议室里的座机。像Analog Devices、Texas Instruments、STMicroelectronics等传统集成电路和信令处理公司确实已经提供实时信令处理达数十年之久。

但最近发生了两件事，使市场发生了变化。

在设备保留初始信令处理功能的同时，我们看到从手机到云端更高级信令处理功能的出现。云中有更多信息或来自多个设备的信息，从而为特定问题提供了更好的处理能力。
AI在音视频处理方面的进步，以及集中处理能力的极大提高提供了无限可能。同时，这也使许多情况下的信令处理不再局限于嵌入式设备，并减少实时信令处理中对传统设备的依赖。

我相信，也希望在未来的十年，我们能见证实时信令处理领域中的两件大事之一。要么信令处理的传统主力（主要是集成电路制造商）发展其AI驱动能力，进一步过渡到信令处理链，能提供更多特定于应用程序的音视频处理功能。要么市场上出现新兴的大型公司，填补上述生态系统中的空白，提供特定于应用程序的实时信令处理功能。这正是市场迫切需要的变化。

文章地址：https://medium.com/@seyed.danesh/why-is-video-conferencing-so-sh-t-part-ii-860c2a00d30
原文作者：Seyed Danesh

为什么现在的视频会议体验这么烂？！（下）

填写常用邮箱，接收社区更新

近期热门

如何用WebRTC和WebSockets做一个聊天应用（一）

Web上不可见的负担：视频编解码

WebRTC API深度解析——getUserMedia

WebRTC编解码器vs媒体引擎-3

用WebRTC做一个多人游戏

WebRTC初创公司CEO的现实生活

getUserMedia()出现的常见错误

到底是自己搭还是购买WebRTC服务

Chrome 52版本的抖动和延时更小了

介绍一下Microsoft Edge中的WebRTC 1.0以及交互实时通信技术

填写常用邮箱，接收社区更新