为什么现在的视频会议体验这么烂?(上)

我们能做出哪些改进?

由于工作,我每年要坐50次飞机,参加各种语音和视频会议。我的脑海里不断浮现一个问题——为什么所有会议平台都这么难用?我们都能用 AI 让已去世的人出现在 4K+杜比环绕立体声的视频中了,但开会时屏幕上我同事的脸仍然是让人抓狂的延迟像素,卡到不同步的那种。另外,好像大家都不会共享屏幕。我只能看到人的画面。

去年,我辞掉了一家跨国技术公司的好工作,想要努力解决这个问题。之前我也这样做过,但我很快发现这次的问题比我预期的要难得多。之后新冠疫情爆发,现在每个人都在问我同样的问题——为什么这些会议平台都那么鸡肋?

本文会深度解析这一问题。我认为关键在于找到价值堆栈、视频会议这一小零散市场的动态的痛点。这可能是这么多年来我看到的最大商机之一。

大量分析

关于视频会议问题已经有很多调查了,比如音频问题、视频和语音之间的同步问题、图像质量差、延迟、回声问题,其他人听不到你的声音,你无法打断他们等等。

之后产生了很多有关为什么用户体验差的生理学研究,原因有很多,比如缺乏目光注视矫正,屏幕上的视频窗口太多以至于超出了人们注视的能力范围,那为什么没有像谷歌和微软这样的科技巨头,或者Zoom这样客户导向型的年轻公司来解决这些问题呢?

问题核心

如果你用过专门的商业软件或服务(例如公司自制的HR或假期预订系统)或地方政府服务用的小型网站,你就能明白上述问题了。这些服务使用感都很差,漏洞百出,不能按照预期正常运行。这是因为没有足够大的用户基础来证明投资能创造出更好的产品。要知道,用纯熟的UX构建可靠、稳定的服务是需要大量投资的。

在疫情爆发前,全球视频会议市值仅为38.5亿美元。这个数字并不算大。硬件和软件/服务之间的分配比例约为1:1。其中,公司会议仅占市场的四分之一,其他行业(如教育、医疗保健、政府和国防)占据了剩下的市场。如果你不看好公司会议的前景,可以看看其他行业。它们的表现更加差劲,所以如果你要做这一行,基于总市值,将其除以2,再除以4,那么你现在的身家就是数亿美元。

当然,市场是分散的,每个公司都会分到一杯羹。坦率地说,当你达到上述收入水平时,构建新服务的投资回报率就不高了。

如果你研究下这些服务背后的团队,你会发现很大一部分运营成本都来自组织销售、客户增长和留存。编程团队的资源严重不足,负担过重。这些团队都努力工作,但他们没有足够的资源来实现你基于AI的所有信令处理需求,以及针对不同的用例发展和定制UX。

这让我想到视频会议市场的另一个特点——对可靠性要求极高。如果你在会议中启用了现在很火的的虚拟背景(隐藏用户真实背景,可以使用户看起来像在沙滩上的一种功能),但若因为你同事肤色较深,该功能没有识别到他的脸,他就会被虚拟背景遮盖,消失在画面中。这是很可能会发生的情况,也是为何在正式会议中大家不会使用该功能的原因。

为了达到企业的高质量要求,该功能必须适用于所有突发情况,这才能打破大众的偏见。但要做到这一点仍需大量投资,而这样就进一步降低了投资回报率(ROI)。这就是音视频会议工具不好用的主要原因。改进这些工具并非人力所不能及,仅仅是因为公司们认为不值得在这上面投资而已。毕竟世上最好的工程师们都停止开发deepfake了,他们没时间去做了。

如何改进

要找到解决方案,我们得回到前文提到的地方政府网站和提供免费服务的应用。过去五年中其中一些应用有所改进,为什么呢?很大程度上是因为大家可以使用各种中间技术堆栈做基础来构建服务了。

当然,你不会立马就随便购买自己的服务器,AWS / GCP / Azure足够你搭建计算和服务功能了。但如果你要处理要求许多功能的基础软件,例如帐户、账单、数据管理、安全性以及UI框架等或免费提供,或服务费用高昂的功能。因为这些服务已经规模化了,比你自己搭建出俩的东西要好得多。你要做的就是把应用变成软件,这样你的投资回报率会更高。

但音视频会议行业没有这样的服务,你买不到需要的所有完美基础功能,现在还只能靠你自己搭建。

如果你打算建立自己的视频会议平台,你想要有更好的屏幕共享流,或者你想重点开发一些适合远程运动课程的功能,你可以在亚马逊网络服务(AWS)上找到合适的硬件,对许多基础架构使用开放源代码;你可能会用到开放源代码的WebRTC,甚至还可以找到已实施媒体流的白标视频会议软件平台,免费或付费进行购买或定制。但如果你使用这些组件并在此基础上构建自己的应用,可能会导致音频质量差、有回声以及视频卡顿等问题。

若你想获得更优质的服务,即使只是要达到Zoom和Microsoft服务的水平,你也不得不花费数百万美元来制作自己的音频/视频信令处理功能,因为市场上没有达标的服务,免费或付费的都没有。确实,Microsoft、Google和Zoom这样的大公司都搭建了这样的功能,但他们不会卖给你 因为这样会给他们增加竞争对手。更糟糕的是因为他们没法说服自己在这上面投资(如上所述)。

对于一些特定于应用程序的背景切换功能,你必须构建自己的应用程序,并检验该功能完全合格,才能确保它适用于各种网络摄像头、与会人数,背景和与会者肤色等。这是完全合理的投资,只有这样你才能与头部公司并肩。

因此,即便你想要大展宏图,你的平台也会和现存平台一样糟糕,甚至更糟。即使你有更好的屏幕共享流或完美的应用功能,大众也不会使用你的产品。

那么我们要如何解决这一问题,打破恶性循环呢?详见下文。

文章地址:https://medium.com/@seyed.danesh/why-is-video-conferencing-so-sh-t-part-i-505d1dfb5267

原文作者:Seyed Danesh


填写常用邮箱,接收社区更新

WebRTC 中文社区由

运营