Clubhouse在中国：他的数据安全吗？

语音社交App “Clubhouse”，在中文听众中爆红。斯坦福大学网络观测平台（SIO）调查了这个App的数据是否保护它的用户数据，以及用户数据为何需要被保护。

Jack Cable,
Matt DeButts,
Renee DiResta,
Riana Pfefferkorn,
Alex Stamos,
David Thiel,
Stanford Internet Observatory

上周，在中国大陆的iPhone用户在新兴的语音社交App“Clubhouse”展开了少见且不受约束的讨论。这股在“Clubhouse”上使用中文母语的讨论风潮持续到了2021年2月8日被墙的那天。

除去一般关于旅游和健康的闲聊，一些用户也选择讨论一些涉及新疆再教育基地，1989年春夏政治风波以及少数个体遭遇部分警察不公正对待的“敏感”问题。中国官方一般会限制公开讨论这些议题，同时也使用技术手段（在外媒一般称为Great Firewall）限制国内的用户访问部分国外的App以及网站。即使在上周，Clubhouse尚未被墙，部分网友也担心官方会监听这些对话，对自己造成不便。

近些年，伴随着新一届以习近平为核心的领导班子，对网络舆情的引导和控制与日俱增。Clubhouse当中的语音信箱，相比于Twitter来说不会留下公共的记录，导致了北京需要更复杂的技术手段实现监控需求。

斯坦福大学网络观测平台（SIO）确认了一家位于上海的研发实时音视频互动技术企业，声网Agora。这家公司为Clubhouse提供了后台的技术支持（参见附录）。这层合作关系被广泛的猜测过，却从未被公开确认。此外，SIO还认定，Clubhouse的用户以及聊天室的ID都是用未被加密的明文传输的，同时声网Agora有很大的可能有访问用户语音原始数据的权限，并且有可能把这些权限转让给政府机构。SIO在至少一起事件中，观察到聊天室的元数据（Metadata，译者：描述数据的数据，例如一张电子照片的拍摄时间，相机参数就是属于元数据）被传送到我们认定的位于中国大陆的服务器中。同时语音文件也被传输到由中国企业管理的服务器，而后被Anycast发布到全世界。这一过程中，Clubhouse的用户ID可能和用户信息联系在一起。

SIO决定揭示这些安全隐患，因为它们相对明显而且有可能在短时间内对百万计，尤其是在中国国内的Clubhouse用户造成数据安全的威胁。SIO同时发现了其它安全漏洞，并且私下和Clubhouse的开发商取得了联系。在适时会想公众提供相关信息。

在这篇文章中，我们调查了中国政府通过声网Agora以及Clubhouse获取其中音频数据的潜在可能性。我们同时尝试揭示为何这件事很重要。我们将解释以下几个核心议题：

声网Agora是家怎么样的公司，我们是如何发现他们为Clubhouse提供技术支持，以及这一切意味着什么
中国政府如何获取储存在Clubhouse里的音频数据
中国大陆的用户有可能“因言获罪”吗
为何大陆官方要禁止这款App

声网Agora是家怎么样的公司，我们是如何发现他们为Clubhouse提供技术支持，以及这一切意味着什么

声网Agora是家怎么样的公司？

声网是一家位于上海，美国总部坐落于硅谷的初创企业。它出售“实时音视频互动”平台服务给其他软件公司。换句话说，通过使用这样平台技术，像Clubhouse这样的App开发商，可以专注于界面设计，特别功能，以及用户体验。一般来说，用户很有可能没有意识到，自己使用的App运行在声网的平台上。

我们是如何发现他们为Clubhouse提供技术支持？

SIO的分析员使用例如Wireshark的公开网络分析工具，观察Clubhouse的网络流量。基于分析我们发现：流出的网络被引导到了声网运营的服务器上，其中包含“qos-america.agoralab.co.” 。用户加入Clubhouse的一个频道，就会生产一个数据包并传输到声网的后台。这个数据包中包含每一个用户的ID以及访问房间ID的元数据。这些元数据使用未加密明码传输，这意味着任何第三方，只要获得网络权限，就可以调阅这些数据。这种情况下，任何监听着可以通过调查在同一频道的参与者，确认谁和谁在进行交流。

SIO深挖声网平台文档，发现声网可能有获取Clubhouse中原始音频文件的权限。除非使用端到端加密end-to-end encryption (E2EE) 技术，声网可以截取，破译以及储存这些数据。而现实情况是，Clubhouse使用端到端加密技术的可能性微乎其微。

附件中包含更多这些分析中的技术细节。

为什么我们关心Clubhouse使用声网的托管服务

声网在中美都有业务，所以他们需要遵守《中华人民共和国网络安全法》。根据他们提供给美国证券交易委员会的档案记录，声网公司承认，他们必须遵照中国的法律，为涉及国家安全和犯罪调查提供必要的辅助和支持。如果中国政府确认某条音频文件威胁国家安全，声网有法律义务帮助政府找到并储存这条音频。

根据前例，涉疆涉港，涉及八九政治风波的对话有可能被定性为违法犯罪行为。

声网声称，除去用于网络连接质量检测以及向客户收费，他们不会储存用户的音频和元数据。如果一切属实，中国政府无法在现有法律框架下，向声网索取那些从未被记录下的数据。可是，理论上来说，政府依然可以选择监听声网的网络并记录下所需要的数据。又或者，声网对数据处理的描述和实际操作不符（华为，一个被指责与中国军方有联系的大型通信软件公司，声明从未把数据提供给政府，即使很多西方专家对这个声明表示怀疑）。

此外，中国政府可能获取任何在中国大陆服务器上未经加密的数据。考虑到SIO观测到房间元数据被传送到我们认为位于中国境内的服务器，中国政府可能可以绕开声网的网络，并收集这些元数据。

总而言之，如果中国政府可以通过声网获取用户数据，位于大陆的Clubhouse用户可能会面临不必要的麻烦。但是，我们也需要指出，拥有潜在获取数据的途径不等同于实际获取数据。中国政府有着庞大而冗余的官僚，如同大洋彼岸的美国政府。政府内部很可能有不同声音以及组织之间的掣肘。

中国政府可以获取Clubhouse储存的用户音频文件吗？

简短的答案是，只要这些数据储存在美国，就不太可能。

Clubhouse的用户隐私权协议中指出，用户的音频将短暂储存下来用于信任和安全调查（例如恐怖主义威胁，仇恨言论，出售未成年人个人信息等）。如果没有提交信任和安全调查报告，Clubhouse声称这些音频数据将被删除。该协议未指定“临时”存储的持续时间。临时可能意味着几分钟或几年。Clubhouse的隐私政策未将声网Agora或任何其他中国公司列为数据二级处理者。

如果Clubhouse将音频存储在美国，则中国政府可以要求美国政府根据《中美互助法律援助协议》（MLAA）要求Clubhouse传输数据。但是，由于MLAA的规定允许该美国拒绝侵犯用户言论自由或人权的请求，例如涉及会所政治性言论的请求（六四风波，涉港涉疆等），该请求可能会失败。）。（由于美国联邦法律禁止此类披露，因此中国政府不能直接向Clubhouse索要音频剪辑。）

但是，如果App的创建者Alpha Exploration Co.在中国拥有可以访问数据的合作伙伴或子公司，则中国政府可以合法要求在中国存储的音频（或其他用户数据）。除声网Agora之外，没有已知证据表明Alpha Exploration Co.在中国有合作伙伴或在中国存储用户数据。

总而言之：假设App开发商在中国没有合作伙伴或没有在中国存储数据，那么中国政府可能无法使用法律程序来获取Clubhouse音频数据。根据Clubhouse的“临时”存储量，Clubhouse在任何情况下都可能没有数据可以通过合法程序移交给用户。但是，如果中国政府可以直接从Clubhouse在声网Agora上的后台获取音频，则它可能并不需要求助于国际法律渠道来查找数据。

中国大陆的用户有可能在Clubhouse“因言获罪”吗？

中国政府如果要惩罚在某些敏感话题聊天室中访问过或讲话过的Clubhouse用户，至少需要满足两个条件。

首先，中国政府需要知道哪些用户在哪些聊天室中。如上所述，它可以通过房间中存在的其他用户的报告或通过声网Agora从后端的报告来手动获取此信息。

如果手动收集数据，Clubhouse房间中的某人需要手动记录其他用户的个人资料。他们的公开个人资料有时会显示识别信息，例如照片，电话号码或微信帐户。（电话号码和微信帐号是在中国的实名注册。可以通过面部识别算法来识别照片。）但是，大多数俱乐部会所的个人资料都不会显示识别信息。在这种情况下，政府将需要通过自己的监视机制或通过声网Agora访问标识信息。

中国的对内监视能力相当强大却不透明。中国政府很可能无需借助Clubhouse或Agora即可访问大陆用户的数据或元数据，如同爱德华·斯诺登（Edward Snowden）透露的美国政府窃听网络流量的方式。如上所述，中国政府可以轻松拦截用户设备发送的纯文本元数据，例如房间ID和用户ID。如果政府无法独立访问用户数据，则需要从声网Agora或Clubhouse请求和接收数据。如上所述，目前尚不清楚政府能否轻易做到这一点。声网Agora声称不存储用户数据，而Clubhouse极不可能提供它。

其次，中国政府必须要有意愿去惩罚Clubhouse的用户。我们尚未可知这个意愿是否存在。研究表明，中国政府有时可以容忍公众批评，因为这种批评不会引起广泛的关注，也不会造成群体事件。在这些尺度上，Clubhouse是灰色地带。由于邀请制，并且只能在相对昂贵的iPhone上使用（不到所有中国智能手机用户的10％），因此该App可能没有在中国城市精英人群之外广泛使用。此外，每个Clubhouse聊天室最多可容纳五千个用户。即使绝对数量不小，但造成潜在群体事件的几率不大。从政府的角度来看，所有这些因素都可能减轻Clubhouse的“威胁性”。

另一方面事实证明，中国政府对通过线上平台协调线下群体活动十分敏感，如同短命的内涵段子App。Clubhouse是一个独特的空间：它承载着各种“网络聚会”（中国政府不喜欢），但它同时还是半私有的，且尚未在大众间广泛流行（这可能导致更大的政府容忍度）。无论如何，我们只能推测。

如果政府确实想处罚该App的国内用户，那么公众可能对此一无所知-甚至用户本身也不会知情。近年来，中国政府促进了针对黑名单上公民的秘密审查机制的发展，例如，在国内社交媒体微信上提高用户的敏感度指数。被列入黑名单的用户可能会在向他们的朋友发送消息时，意识到该消息只会出现在他们的屏幕上，而不是他们的朋友的屏幕上。政府还可以采取威胁性措施，而不是直接惩罚行为，例如邀请用户“喝茶”。即使发生这种情况，我们也可能永远不知道Clubhouse的活动是否触发了喝茶邀请。

为何大陆官方要禁止这款App

为什么要完全禁止该应用程序？

多年来，中国政府封锁了不完全符合其宣扬的“网络主权”原则的网站或App，即每个国家都应为其领土内的网络活动设定界限的想法。中国政府通常对非法行为保持宽松的定义，从而在阻止有害内容方面拥有最大的灵活性。

政府很少解释为什么阻止单个App。就Clubhouse而言，政府很可能反对有关新疆，香港，天安门，审查制度等的政治话题。国有的民族主义报纸《环球时报》经常反映政府内部的强硬立场，发表社论时抱怨说，“Clubhouse里的政治讨论通常是单方面的”，而“支持政府的声音很容易被压制。”

为什么现在禁止它？

Clubhouse的大多数大陆用户以及外国记者和分析师都预计该App最终将被禁止。更紧迫的问题是何时。尽管有许多因素可能导致了该应用被禁的时机，以下是三种可能性。

首先，政府网络审查机构工作人员可能没有上班。加利福尼亚大学圣地亚哥分校政治学教授玛格丽特·罗伯茨（Margaret Roberts）进行的研究表明，审查制度在周末和国内法定假期有所下降。周末，检查员不工作时，Clubhouse迅速流行开来。这周同时也是春节假期，大部分公务员在家休息。

其次，中国政府可能希望收集有关其公民的舆情信息。学者们早就注意到“专制的困境”，即专制政府在收集准确的舆论衡信息的时候面临的挑战。因为公民害怕报复，所以他们有可能隐藏自己真实的想法。中国政府实际上有可能会重视Clubhouse之类的网络空间，以便通过这个简短的窗口了解其人民（主要是精英）的真实政治见解。

第三，禁止一个App可能需要很长时间。国家互联网信息办公室（CAC）是一个庞大而复杂的官僚机构，它负责通过国家防火墙（Great Firewall）禁止特定App。该禁令的决定可能被繁文缛节所拖延。国家防火墙本身也是一个庞大而复杂的系统。重整资源可能需要技术劳工。

这些问题的答案可能是所有这些之前的分析，也可能远离之前的分析。本文罗列的只是初步的分析。

附录：技术分析

根据声网Agora的文档，音频使用其实时通信（RTC）标准开发套件（SDK）通过声网Agora进行中继。可以将其想象为一个老式的电话运营商：要与其他人联系，运营商必须连接两个用户。在这种情况下，Clubhouse的App是每个用户的电话，而声网Agora是运营商

当用户加入或在Clubhouse中创建聊天室时，该用户的应用通过安全HTTP（HTTPS）向声网Agora的基础架构发出请求。（通过HTTP进行“请求”是访问网站的最常见方法；很可能您现在就是使用这个方法阅读到这篇文章的。）要发出请求，用户的手机联系Clubhouse的应用程序编程接口（API）。手机将请求[POST /api/create_channel]发送到Clubhouse的API。 API返回字段令牌和rtm_token，其中令牌是Agora RTC令牌，而rtm_token是RTM（实时消息）令牌。这些“令牌”然后用于建立通信路径，以确保用户之间的音频流量。

然后，SIO观察到用户的手机通过UDP（一种更轻量级的传输机制）将数据包发送到名为“ qos-america.agoralab.co”的服务器。用户的数据包包含有关该频道的未加密元数据，例如用户是否已请求加入聊天室，用户的Clubhouse ID号以及是否已将自己静音。

用户从Clubhouse收到RTC令牌后，他们的手机将使用该令牌对Agora进行身份验证，以便可以通过相互认可的途径直接与Agora交流聊天室的加密音频。根据Agora的文档，Agora可以访问加密密钥。尽管文档中没有指定使用哪种加密方式，但它可能是基于UDP的对称加密。

Agora无法访问用户原始音频的唯一方法是，如果Clubhouse使用定制的加密方法进行端到端加密（E2EE）。尽管从理论上讲这是可行的，但这样做将需要Clubhouse向所有用户分发公钥。这还不存在。因此，极不可能有E2EE加密。

Sequence and content of UDP traffic from a device joining a Clubhouse room

SIO团队收到了Clubhouse的答复，并将其全部包括在内。我们尚未验证Clubhouse的任何声明。[译者注：以下翻译仅供参考，一切以Clubhouse官方英文回复为准]：

Clubhouse致力于数据保护和用户隐私。

我们将服务设计为一个世界各地的人们可以聚集在一起互相交谈，倾听和学习的地方。鉴于中国在数据隐私方面的良好记录，我们在Appstore上推出Clubhouse使其在除中国外的所有其他国家/地区均可使用时做出了艰难的决定。中国的一些人找到了下载该应用程序的解决方法，这意味着-直到该应用程序在本周早些时候被中国阻止为止，他们所参与的对话可以通过中国服务器传输。

在Stanford Internet Observatory的研究人员的帮助下，我们确定了一些可以进一步加强数据保护的领域。例如，对于我们流量的一小部分，包含用户ID的网络ping将被发送到全球服务器（其中可能包括中国的服务器），以确定到达客户端的最快路由。在接下来的72小时内，我们将推出更改以添加其他加密和块，以防止Clubhouse客户端将ping传输到中国服务器。我们还计划聘请外部数据安全公司来审查和验证这些更改。

Blogs

Parler's First 13 Million Users

As Parler gained millions of users - and plenty of notoriety - in recent months, understanding the dynamics of the platform has become an increasing priority. A report by the Stanford Internet Observatory analyzes three Parler datasets to understand a platform designed for non-moderation, and to map its domestic and increasingly international growth.

Parler's First 13 Million Users

Blogs

Online Consent Moderation

New Approaches to Preventing Proliferation of Non-Consensual Intimate Images

Online Consent Moderation

Blogs

Comparing Platform Hate Speech Policies: Reddit's Inevitable Evolution

On Monday, June 30, 2020, Reddit updated its policy on hate speech. As part of research for a forthcoming book based on the Stanford Internet Observatory’s Trust and Safety Engineering course, we present a comparative assessment of platform policies and enforcement practices on hate speech, and discuss how Reddit fits into this framework.

Comparing Platform Hate Speech Policies: Reddit's Inevitable Evolution

All FSI News

Clubhouse在中国：他的数据安全吗？

Clubhouse在中国：他的数据安全吗？

声网Agora是家怎么样的公司，我们是如何发现他们为Clubhouse提供技术支持，以及这一切意味着什么

声网Agora是家怎么样的公司？

我们是如何发现他们为Clubhouse提供技术支持？

为什么我们关心Clubhouse使用声网的托管服务

中国政府可以获取Clubhouse储存的用户音频文件吗？

中国大陆的用户有可能在Clubhouse“因言获罪”吗？

为何大陆官方要禁止这款App

为什么要完全禁止该应用程序？

为什么现在禁止它？

附录：技术分析

SIO团队收到了Clubhouse的答复，并将其全部包括在内。我们尚未验证Clubhouse的任何声明。[译者注：以下翻译仅供参考，一切以Clubhouse官方英文回复为准]：

Read More

Parler's First 13 Million Users

Online Consent Moderation

Comparing Platform Hate Speech Policies: Reddit's Inevitable Evolution