Clubhouse在中国:他的数据安全吗?

Clubhouse在中国:他的数据安全吗?

语音社交App “Clubhouse”,在中文听众中爆红。斯坦福大学网络观测平台(SIO)调查了这个App的数据是否保护它的用户数据,以及用户数据为何需要被保护。
Clubhouse under the chinese cloud Elena Cryst

上周,在中国大陆的iPhone用户在新兴的语音社交App“Clubhouse”展开了少见不受约束的讨论。这股在“Clubhouse”上使用中文母语的讨论风潮持续到了2021年2月8日被墙的那天。


除去一般关于旅游和健康的闲聊,一些用户也选择讨论一些涉及新疆再教育基地,1989年春夏政治风波以及少数个体遭遇部分警察不公正对待的“敏感”问题。中国官方一般会限制公开讨论这些议题,同时也使用技术手段(在外媒一般称为Great Firewall)限制国内的用户访问部分国外的App以及网站。即使在上周,Clubhouse尚未被墙,部分网友也担心官方会监听这些对话,对自己造成不便。

近些年,伴随着新一届以习近平为核心的领导班子,对网络舆情的引导和控制与日俱增。Clubhouse当中的语音信箱,相比于Twitter来说不会留下公共的记录,导致了北京需要更复杂的技术手段实现监控需求。

斯坦福大学网络观测平台(SIO)确认了一家位于上海的研发实时音视频互动技术企业,声网Agora。这家公司为Clubhouse提供了后台的技术支持(参见附录)。这层合作关系被广泛的猜测过,却从未被公开确认。此外,SIO还认定,Clubhouse的用户以及聊天室的ID都是用未被加密的明文传输的,同时声网Agora有很大的可能有访问用户语音原始数据的权限,并且有可能把这些权限转让给政府机构。SIO在至少一起事件中,观察到聊天室的元数据(Metadata,译者:描述数据的数据,例如一张电子照片的拍摄时间,相机参数就是属于元数据)被传送到我们认定的位于中国大陆的服务器中。同时语音文件也被传输到由中国企业管理的服务器,而后被Anycast发布到全世界。这一过程中,Clubhouse的用户ID可能和用户信息联系在一起。

SIO决定揭示这些安全隐患,因为它们相对明显而且有可能在短时间内对百万计,尤其是在中国国内的Clubhouse用户造成数据安全的威胁。SIO同时发现了其它安全漏洞,并且私下和Clubhouse的开发商取得了联系。在适时会想公众提供相关信息。

在这篇文章中,我们调查了中国政府通过声网Agora以及Clubhouse获取其中音频数据的潜在可能性。我们同时尝试揭示为何这件事很重要。我们将解释以下几个核心议题:

  1. 声网Agora是家怎么样的公司,我们是如何发现他们为Clubhouse提供技术支持,以及这一切意味着什么
  2. 中国政府如何获取储存在Clubhouse里的音频数据
  3. 中国大陆的用户有可能“因言获罪”吗
  4. 为何大陆官方要禁止这款App

声网Agora是家怎么样的公司,我们是如何发现他们为Clubhouse提供技术支持,以及这一切意味着什么

声网Agora是家怎么样的公司?

声网是一家位于上海,美国总部坐落于硅谷的初创企业。它出售“实时音视频互动”平台服务给其他软件公司。换句话说,通过使用这样平台技术,像Clubhouse这样的App开发商,可以专注于界面设计,特别功能,以及用户体验。一般来说,用户很有可能没有意识到,自己使用的App运行在声网的平台上。

我们是如何发现他们为Clubhouse提供技术支持?

SIO的分析员使用例如Wireshark的公开网络分析工具,观察Clubhouse的网络流量。基于分析我们发现:流出的网络被引导到了声网运营的服务器上,其中包含“qos-america.agoralab.co.” 。用户加入Clubhouse的一个频道,就会生产一个数据包并传输到声网的后台。这个数据包中包含每一个用户的ID以及访问房间ID的元数据。这些元数据使用未加密明码传输,这意味着任何第三方,只要获得网络权限,就可以调阅这些数据。这种情况下,任何监听着可以通过调查在同一频道的参与者,确认谁和谁在进行交流。

SIO深挖声网平台文档,发现声网可能有获取Clubhouse中原始音频文件的权限。除非使用端到端加密end-to-end encryption (E2EE) 技术,声网可以截取,破译以及储存这些数据。而现实情况是,Clubhouse使用端到端加密技术的可能性微乎其微。

附件中包含更多这些分析中的技术细节。

为什么我们关心Clubhouse使用声网的托管服务

声网在中美都有业务,所以他们需要遵守《中华人民共和国网络安全法》。根据他们提供给美国证券交易委员会的档案记录,声网公司承认,他们必须遵照中国的法律,为涉及国家安全和犯罪调查提供必要的辅助和支持。如果中国政府确认某条音频文件威胁国家安全,声网有法律义务帮助政府找到并储存这条音频。

根据前例,涉疆涉港,涉及八九政治风波的对话有可能被定性为违法犯罪行为。

声网声称,除去用于网络连接质量检测以及向客户收费,他们不会储存用户的音频和元数据。如果一切属实,中国政府无法在现有法律框架下,向声网索取那些从未被记录下的数据。可是,理论上来说,政府依然可以选择监听声网的网络并记录下所需要的数据。又或者,声网对数据处理的描述和实际操作不符(华为,一个被指责与中国军方有联系的大型通信软件公司,声明从未把数据提供给政府,即使很多西方专家对这个声明表示怀疑)。

此外,中国政府可能获取任何在中国大陆服务器上未经加密的数据。考虑到SIO观测到房间元数据被传送到我们认为位于中国境内的服务器,中国政府可能可以绕开声网的网络,并收集这些元数据。

总而言之,如果中国政府可以通过声网获取用户数据,位于大陆的Clubhouse用户可能会面临不必要的麻烦。但是,我们也需要指出,拥有潜在获取数据的途径不等同于实际获取数据。中国政府有着庞大而冗余的官僚,如同大洋彼岸的美国政府。政府内部很可能有不同声音以及组织之间的掣肘。

中国政府可以获取Clubhouse储存的用户音频文件吗?

简短的答案是,只要这些数据储存在美国,就不太可能。

Clubhouse的用户隐私权协议中指出,用户的音频将短暂储存下来用于信任和安全调查(例如恐怖主义威胁,仇恨言论,出售未成年人个人信息等)。如果没有提交信任和安全调查报告,Clubhouse声称这些音频数据将被删除。该协议未指定“临时”存储的持续时间。临时可能意味着几分钟或几年。Clubhouse的隐私政策未将声网Agora或任何其他中国公司列为数据二级处理者。

如果Clubhouse将音频存储在美国,则中国政府可以要求美国政府根据《中美互助法律援助协议》(MLAA)要求Clubhouse传输数据。但是,由于MLAA的规定允许该美国拒绝侵犯用户言论自由或人权的请求,例如涉及会所政治性言论的请求(六四风波,涉港涉疆等),该请求可能会失败。 )。 (由于美国联邦法律禁止此类披露,因此中国政府不能直接向Clubhouse索要音频剪辑。)

但是,如果App的创建者Alpha Exploration Co.在中国拥有可以访问数据的合作伙伴或子公司,则中国政府可以合法要求在中国存储的音频(或其他用户数据)。除声网Agora之外,没有已知证据表明Alpha Exploration Co.在中国有合作伙伴或在中国存储用户数据。

总而言之:假设App开发商在中国没有合作伙伴或没有在中国存储数据,那么中国政府可能无法使用法律程序来获取Clubhouse音频数据。根据Clubhouse的“临时”存储量,Clubhouse在任何情况下都可能没有数据可以通过合法程序移交给用户。但是,如果中国政府可以直接从Clubhouse在声网Agora上的后台获取音频,则它可能并不需要求助于国际法律渠道来查找数据。

 

中国大陆的用户有可能在Clubhouse“因言获罪”吗?

中国政府如果要惩罚在某些敏感话题聊天室中访问过或讲话过的Clubhouse用户,至少需要满足两个条件。

首先,中国政府需要知道哪些用户在哪些聊天室中。如上所述,它可以通过房间中存在的其他用户的报告或通过声网Agora从后端的报告来手动获取此信息。

如果手动收集数据,Clubhouse房间中的某人需要手动记录其他用户的个人资料。他们的公开个人资料有时会显示识别信息,例如照片,电话号码或微信帐户。 (电话号码和微信帐号是在中国的实名注册。可以通过面部识别算法来识别照片。)但是,大多数俱乐部会所的个人资料都不会显示识别信息。在这种情况下,政府将需要通过自己的监视机制或通过声网Agora访问标识信息。

中国的对内监视能力相当强大却不透明。中国政府很可能无需借助Clubhouse或Agora即可访问大陆用户的数据或元数据,如同爱德华·斯诺登(Edward Snowden)透露的美国政府窃听网络流量的方式。如上所述,中国政府可以轻松拦截用户设备发送的纯文本元数据,例如房间ID和用户ID。如果政府无法独立访问用户数据,则需要从声网Agora或Clubhouse请求和接收数据。如上所述,目前尚不清楚政府能否轻易做到这一点。 声网Agora声称不存储用户数据,而Clubhouse极不可能提供它。

其次,中国政府必须要有意愿去惩罚Clubhouse的用户。我们尚未可知这个意愿是否存在。研究表明,中国政府有时可以容忍公众批评,因为这种批评不会引起广泛的关注,也不会造成群体事件。在这些尺度上,Clubhouse是灰色地带。由于邀请制,并且只能在相对昂贵的iPhone上使用(不到所有中国智能手机用户的10%),因此该App可能没有在中国城市精英人群之外广泛使用。此外,每个Clubhouse聊天室最多可容纳五千个用户。即使绝对数量不小,但造成潜在群体事件的几率不大。从政府的角度来看,所有这些因素都可能减轻Clubhouse的“威胁性”。

另一方面事实证明,中国政府对通过线上平台协调线下群体活动十分敏感,如同短命的内涵段子App。Clubhouse是一个独特的空间:它承载着各种“网络聚会”(中国政府不喜欢),但它同时还是半私有的,且尚未在大众间广泛流行(这可能导致更大的政府容忍度)。无论如何,我们只能推测。

如果政府确实想处罚该App的国内用户,那么公众可能对此一无所知-甚至用户本身也不会知情。近年来,中国政府促进了针对黑名单上公民的秘密审查机制的发展,例如,在国内社交媒体 微信上提高用户的敏感度指数。被列入黑名单的用户可能会在向他们的朋友发送消息时,意识到该消息只会出现在他们的屏幕上,而不是他们的朋友的屏幕上。政府还可以采取威胁性措施,而不是直接惩罚行为,例如邀请用户“喝茶”。即使发生这种情况,我们也可能永远不知道Clubhouse的活动是否触发了喝茶邀请。

为何大陆官方要禁止这款App

为什么要完全禁止该应用程序?

多年来,中国政府封锁了不完全符合其宣扬的“网络主权”原则的网站或App,即每个国家都应为其领土内的网络活动设定界限的想法。中国政府通常对非法行为保持宽松的定义,从而在阻止有害内容方面拥有最大的灵活性。

政府很少解释为什么阻止单个App。就Clubhouse而言,政府很可能反对有关新疆,香港,天安门,审查制度等的政治话题。国有的民族主义报纸《环球时报》经常反映政府内部的强硬立场,发表社论时抱怨说,“Clubhouse里的政治讨论通常是单方面的”,而“支持政府的声音很容易被压制。”

为什么现在禁止它?

Clubhouse的大多数大陆用户以及外国记者和分析师都预计该App最终将被禁止。更紧迫的问题是何时。尽管有许多因素可能导致了该应用被禁的时机,以下是三种可能性。

首先,政府网络审查机构工作人员可能没有上班。加利福尼亚大学圣地亚哥分校政治学教授玛格丽特·罗伯茨(Margaret Roberts)进行的研究表明,审查制度在周末和国内法定假期有所下降。周末,检查员不工作时,Clubhouse迅速流行开来。这周同时也是春节假期,大部分公务员在家休息。

其次,中国政府可能希望收集有关其公民的舆情信息。学者们早就注意到“专制的困境”,即专制政府在收集准确的舆论衡信息的时候面临的挑战。因为公民害怕报复,所以他们有可能隐藏自己真实的想法。中国政府实际上有可能会重视Clubhouse之类的网络空间,以便通过这个简短的窗口了解其人民(主要是精英)的真实政治见解。

第三,禁止一个App可能需要很长时间。国家互联网信息办公室(CAC)是一个庞大而复杂的官僚机构,它负责通过国家防火墙(Great Firewall)禁止特定App。该禁令的决定可能被繁文缛节所拖延。国家防火墙本身也是一个庞大而复杂的系统。重整资源可能需要技术劳工。

这些问题的答案可能是所有这些之前的分析,也可能远离之前的分析。本文罗列的只是初步的分析。

 

附录:技术分析

根据声网Agora的文档,音频使用其实时通信(RTC)标准开发套件(SDK)通过声网Agora进行中继。可以将其想象为一个老式的电话运营商:要与其他人联系,运营商必须连接两个用户。在这种情况下,Clubhouse的App是每个用户的电话,而声网Agora是运营商

screenshot of clubhouse's plist file Clubhouse application’s property list (.plist) file, bundled with the iOS application, contains its Agora application ID

当用户加入或在Clubhouse中创建聊天室时,该用户的应用通过安全HTTP(HTTPS)向声网Agora的基础架构发出请求。 (通过HTTP进行“请求”是访问网站的最常见方法;很可能您现在就是使用这个方法阅读到这篇文章的。)要发出请求,用户的手机联系Clubhouse的应用程序编程接口(API)。手机将请求[POST /api/create_channel]发送到Clubhouse的API。 API返回字段令牌和rtm_token,其中令牌是Agora RTC令牌,而rtm_token是RTM(实时消息)令牌。这些“令牌”然后用于建立通信路径,以确保用户之间的音频流量。

Image
Screenshot of agora http request

然后,SIO观察到用户的手机通过UDP(一种更轻量级的传输机制)将数据包发送到名为“ qos-america.agoralab.co”的服务器。用户的数据包包含有关该频道的未加密元数据,例如用户是否已请求加入聊天室,用户的Clubhouse ID号以及是否已将自己静音。

screenshot of agora backend packet A packet sent to Agora contains, in cleartext, the id of the channel and the user’s ID (see https://docs.agora.io/en/Video/API%20Reference/flutter/rtc_engine/RtcEngine/joinChannel.html)

用户从Clubhouse收到RTC令牌后,他们的手机将使用该令牌对Agora进行身份验证,以便可以通过相互认可的途径直接与Agora交流聊天室的加密音频。根据Agora的文档,Agora可以访问加密密钥。尽管文档中没有指定使用哪种加密方式,但它可能是基于UDP的对称加密。

Agora无法访问用户原始音频的唯一方法是,如果Clubhouse使用定制的加密方法进行端到端加密(E2EE)。尽管从理论上讲这是可行的,但这样做将需要Clubhouse向所有用户分发公钥。这还不存在。因此,极不可能有E2EE加密。

Sequence and content of UDP traffic from a device joining a Clubhouse room Sequence and content of UDP traffic from a device joining a Clubhouse room

SIO团队收到了Clubhouse的答复,并将其全部包括在内。我们尚未验证Clubhouse的任何声明。[译者注:以下翻译仅供参考,一切以Clubhouse官方英文回复为准]:

Clubhouse致力于数据保护和用户隐私。

我们将服务设计为一个世界各地的人们可以聚集在一起互相交谈,倾听和学习的地方。鉴于中国在数据隐私方面的良好记录,我们在Appstore上推出Clubhouse使其在除中国外的所有其他国家/地区均可使用时做出了艰难的决定。中国的一些人找到了下载该应用程序的解决方法,这意味着-直到该应用程序在本周早些时候被中国阻止为止,他们所参与的对话可以通过中国服务器传输。

在Stanford Internet Observatory的研究人员的帮助下,我们确定了一些可以进一步加强数据保护的领域。例如,对于我们流量的一小部分,包含用户ID的网络ping将被发送到全球服务器(其中可能包括中国的服务器),以确定到达客户端的最快路由。在接下来的72小时内,我们将推出更改以添加其他加密和块,以防止Clubhouse客户端将ping传输到中国服务器。我们还计划聘请外部数据安全公司来审查和验证这些更改。

 

 

Read More

hand holding phone with parler logo
Blogs

Parler's First 13 Million Users

As Parler gained millions of users - and plenty of notoriety - in recent months, understanding the dynamics of the platform has become an increasing priority. A report by the Stanford Internet Observatory analyzes three Parler datasets to understand a platform designed for non-moderation, and to map its domestic and increasingly international growth.
cover link Parler's First 13 Million Users
stop hand facing video camera
Blogs

Online Consent Moderation

New Approaches to Preventing Proliferation of Non-Consensual Intimate Images
cover link Online Consent Moderation
reddit hate speech
Blogs

Comparing Platform Hate Speech Policies: Reddit's Inevitable Evolution

On Monday, June 30, 2020, Reddit updated its policy on hate speech. As part of research for a forthcoming book based on the Stanford Internet Observatory’s Trust and Safety Engineering course, we present a comparative assessment of platform policies and enforcement practices on hate speech, and discuss how Reddit fits into this framework.
cover link Comparing Platform Hate Speech Policies: Reddit's Inevitable Evolution