总有人问我最受欢迎的WebRTC项目是什么。 几年前,我写了一篇名为 Data Nerding with WebRTC GitHub Data的文章,试图找到这个问题的答案。具体来说,我在BigQuery上使用GitHub数据集来过滤WebRTC repos。 如果你运用该数据集,会很容易找到随时间变化的运行模式。 这次我着重关注了流行度,以探讨WebRTC社区正在编码和使用的内容。
(照片由Hole / DGC Records提供(已移除了Hole标志并添加了WebRTC标志))
方法
让我们简要讨论一下上述模式是如何形成的,以便您对结果的产生过程有个大致了解。 这次我用的方法与我2015年用的方法类似,但也有所改进。我将一些SQL放在一个repo中,如果您想使用它,可以点击这里。
查找“ WebRTC”存储库
BigQuery保留了一个GH存档数据集,该数据集记录了往年所有的GitHub事件。 为了识别“ WebRTC存储库”,我在存储库名称和事件有效负载中寻找相关的关键字。 这次我搜寻了以下关键词:
我对照Big Query中的另一个GitHub数据集—— GitHub Activity Dataset 检查了这些关键字,这个数据集里包含GitHub的所有公共repo code。 我找到了68,057个包含上述关键词的repo。 GitHub拥有将近3000万个公共repo,本文的样本占其总数的0.23%。
您可以在下表中查看按关键字类别划分的更详细的情况:
我的研究方法需要一个仅在GH Archive数据集中可用的时间轴,但该数据集不包含每个repo code的历史记录(因为会占很大内存)。用我的方法计算的话,repo中的各关键字需要在我关注的每个时间段内显示一次——即每月一次,或者在下面的报告中显示至目前为止。这个操作对于名称中带有关键字的repo要容易得多,但是这样的关键字在提交名称和注释中会显示很多次。不太可能会有人使用大量WebRTC code并且经常提及关键字的。
我会思考看看是否有更好的方式连接这两个数据集,来进行更准确的代码内容分析。
细分事件类型
我想定位有许多活跃的贡献者在使用实际代码或会显示受欢迎程度指标的repo,为了进行筛选,我制作了两个子事件类别:
代码事件——真的有人在使用代码吗?我会寻找PushEvent, PullRequest, 或 PullRequestReviewComment 这样的git。
流行事件——是否有很多非编码参与repo?我会寻找ForkEvent, WatchEvent, IssuesEvent, 和IssueCommentEvent这样的git事件类型。
汇总
正如您在结果中看到的那样,我不会完全根据结果的总数做出判断。我更关心在给定repo中活跃的开发人员的数量。这种研究方法也更关注具有许多用户定期活动的repo。
结果
最受欢迎的repo是谁?
首先,我们来看看迄今为止(截至9月中旬)在不同的gitHub userId中最受欢迎的repo。评论区请参见数据表后的注释部分。
在repo中贡献代码的用户
原文地址:https://webrtchacks.com/webrtc-open-source-most-popular/
文章作者: Chad Hart