网络法读书会第三期
时间:2017-10-18人大法学院未来法治研究院网络法第三次读书会于2017年10月18日在中国人民大学明法楼708室举行。与会人员围绕Paul Ohm教授所著Broken Promises of Privacy和Paul M. Schwartz 与Daniel J. Solove两位教授合写的The PII Problem, Privacy and a New Concept of Personally Identifiable Information两篇论文进行了主题报告和讨论。以下是整理的部分会议发言:
张吉豫副教授:非常感谢大家今晚前来参加人大法学院未来法治研究院网络法读书会活动。本次读书会继续聚焦于个人隐私保护主题,探讨“大数据背景下的隐私与个人信息保护”。上次读书会我们一同对两篇探讨传统隐私权保护模式的文章进行了讨论,对比了美国和德国的模式。今天我们继续讨论的文章则更多地聚焦于在大数据时代、在信息技术如此发达并广泛应用的今天,我们怎么对待这些问题。今天讨论的两篇文章很有代表性,两篇文章的作者都是个人信息保护方面的专家。第一篇文章的作者自身编程能力也很强,所以第一篇文章特地邀请了赵精武主讲。虽然他还很年轻,但是相信研究网络法方向的同仁都对他有所耳闻,精武是人大校友,现在是北航法学院和计算机学院联合培养的博士生,对网络法、特别是网络安全法的问题进行了非常深入、扎实的研究。有请赵精武来为我们主讲第一篇文章。
主题报告一
赵精武:各位老师好,我读的文章是Paul Ohm教授的Broken Promises of Privacy,我报告的题目是,“打破匿名化的迷思:数字时代的匿名化挑战”,这是自读博以来第一次回母校做这么专业的报告,确实有点小紧张,整篇文章我已全部翻译完了,等我完成后会发给大家,有兴趣的同学可以直接看中文版。
我的报告分为如下几部分:
零、学界讨论的命题与思考
一、匿名化与再识别
二、文章综述
三、第一部分:匿名化与再识别的关系
四、第二部分:匿名化失败如何破坏了隐私法
五、第三部分:不完全的解决方案
六、第四部分:匿名化失败后背景下的隐私立法走向
七、结论
八、我的看法
零、当前学术对于匿名化的核心议题
当前学界对于匿名化问题讨论经过分类包含如下命题:1 、匿名化在跨境数据流动中的应用问题,今天的评议嘉宾中腾讯研究院的王融老师的《数据保护与流动规则》是一部关于数据跨境流动的佳作;2、匿名化与隐私保护的关系问题;3、我们在多大程度上需要匿名化;4匿名化在数据泄露时的责任分担问题。
总体来看,中国学者大多与Paul Ohm教授的观点相反。匿名化与再识别的关系就像电影模仿游戏中所提到的,我以为我用英格玛加密后的数据绝对安全,但是图灵机确可以轻松将我的数据还原回去。
一、匿名化与再识别
在本文语境下,匿名、去身份、去标识的含义相同,匿名化(Anonymization)主要应用于欧盟法的语境,诸如去身份、去标识主要适用于美国法,常常采用Deidentification这一概念,二者并没有本质不同,只是不同表述方式,因此接下来我的介绍将统一用匿名化指称。
二、文章综述
作者认为,伴随大数据、云计算等新技术的兴起,传统的删除姓名和社保号码的的匿名化技术已经失败了,技术专家可以再识别(Re-identify) 或者去匿名化(De-anonymize)来实现个人身份的再识别。对匿名化的错误认知几乎渗透到了我们的每一部法规、规章以及关于隐私保护的讨论中。本文提供了一种技术和法律的双重视角来重新认识匿名化技术,以及如何解决后匿名化时代带来的法律规制方案。
Paul Ohm教授指出匿名化的法律概念发端于1995年欧盟的《数据保护指令》其第26条的规定“数据主体无法确定的匿名信息不适用数据保护原则”。[ See Recital 26 of Directive 95/46/EC.]要注意,数据匿名不同于删除一部分信息的数据假名。
作者首先介绍了当前匿名化的操作流程。首先,数据主体会删除个人标识符,如姓名和社会安全号码。其次,数据主体删除可以确定个人信息其他标识,包括在特定的上下文中组合的标识符。例如:医院删除某人近亲的名字,防止识别出病人;学校删除学生ID信息;银行将账号进行假名处理。
从表面来看,匿名化是一个两全其美解决方案,一方面,隐私破坏者和推销人员无法直接识别出数据所有者,另一方面,我们在保护的隐私(privacy)的同时,也保证了数据的效用(unility)。分析人员可以做出有价值的数据分析,其他人无法识别出数据所来源主体。匿名化让监管者和对隐私保护的批判者冷静下来,大家更多的批判不当利用数据造成的隐私保护,并不会讨论这一技术本身的合理性,因为大家预设的前提是“匿名化完美的保护了隐私”。
Paul Ohm教授认为,这一乐观且虚幻的观点夸大了匿名化的力量。聪明的黑客会通过“会再识别”技识别出隐藏在匿名数据库中背后人或者隐私。作者认为:再识别技术揭露这些承诺是虚假的。本文是第一个全面整合计算机科学的技术趋势,并将“再识别技术”在法律学术研究领域中的应用加以说明的作品。作者发现他的研究动摇了人们对数据隐私的根本信念—匿名化可以解决一切数据保护的问题。数据不可能保护隐私和数据利用之间达成动态平衡。再识别技术破坏了我们对于数字时代隐私保护的最基本的认知;破坏了技术人员所证明的有了匿名化技术我们就可以任意地共享数据和永久地存储数据,而不会侵害隐私的错误观念。
这篇文章分四个部分。第一部分摆出事实,作者描述了匿名化在当代数据隐私学术探讨中扮演的角色。它调查了“再识别技术”所取得的惊人成就,讲述了美国在线、马塞诸塞州和netflix数据被识别三个案例,描述了匿名化所遭遇的令人尴尬的失败。然后,它仔细研究了再识别技术的模型,并借用了大量迄今没被法律学者关注到的计算机文献。第二部分“破题”,作者必须先破而后立。这部分揭示了匿名化的技术进步如何阻击所有隐私法保护目的的实现。Paul Ohm指出应当回到技术本身的探讨。第三部分“指出不完全的解决方案”,作者模拟了三个简单而有吸引力的应对方案,并指出了上述方案的不合理性。第四部分提供了作者认为的完美方案“行为规制替代权利保护”,是一种类似“动态系统论”的要素考察方法,以健康信息保护和互联网隐私为例,说明何时需要对信息流施加一定隐私限制。
三、第一部分:匿名化与再识别的关系
这一部分,作者讨论了匿名化技术本身的发展过程,并说明了匿名化技术如何被在识别技术击破。
技术专家认为他们可以对数据进行绝对安全的隐私保护,在接受强大匿名化的假设基础上,监管机构与技术专家向用户承诺保护隐私权。技术专家发现,一种被称为“简单-再识别技术(Easy reidentification)”证明了强大的匿名化假设存在严重的缺陷,信息可以被非常简单的再次还原成原始数据,识别出数据来源主体。与此同时,简单-再识别(Easy reidentification)也对我们的法律系统造成严重的破坏,原因在于当前我们法律系统完全是在匿名化基础上构造的,匿名化的观念已经渗入了我们隐私法规的每一个细胞中。
作者首先解释了三个概念。第一,什么是数据拥有者。第二,数据匿名化的核心技术是什么。作者认为,应用匿名化技术需要考虑一种非常常见的技术为数据压缩(suppression)。数据管理员通过删除或省略数据来去识别化。例如,医院的数据管理人员跟踪处方会在共享数据之前先删除病人的姓名。第三,什么是去识别化(reidentification/deanonymization.),作者认为,去识别化指的是隐私破坏者通过将匿名的记录与外部信息(outside information)相联系起来,通过发现隐私数据,挖掘数据主体的真实身份。
接下来,Paul Ohm教授解释了我们为什么需要匿名化,因为数据需要向其他主体公开,只有数据进行匿名化后,数据管理员在披露或者存储数据时才不会侵犯数据主体的隐私。Paul Ohm教授认为我们匿名化的数据主要向三种主体公开。第一,将匿名数据向第三方披露:例如,健康研究人员与其他健康研究人员共享患者数据,购物网站向广告商出售交易数据,电话公司被迫向执法官员披露通话记录。第二,数据管理员向公众披露匿名数据。第三,管理员向组织内的其他机构披露匿名数据。特别是在大型组织中,数据所有人往往希望保护其隐私。例如,大型银行会与他们分支机构、营销部门分享用户数据,匿名化可以很好地平衡这种风险。
Paul Ohm教授认为,互联网天然需要匿名化,他认同自由主义者Lawrence 莱斯格教授的对于匿名化所持有的观点。他认为,匿名化通常会通过道德规范、行业自律来实现,例如:生物医学的指导方针(guide book)通常建议将储存的基因与非识别号码的基因数据相分离,以保护隐私。此外,其他指南建议在诸如电子商务、互联网服务供应、数据挖掘和国家安全数据共享等环境中匿名化。在Lawrence 莱斯格教授的框架下,市场(market)和架构(Architecture)表现的最为明显。
市场压力迫使企业将数据匿名化。例如,mint.com和wesabe.com这样的公司提供基于网络的个人财务跟踪和计划,他们通过聚合、重新发布数据来帮助客户将其消费水平与他人进行比较。为了让用户感受到完美体验的同时也对数据共享感到满意,mint.com和wesabe.com都承诺在分享数据之前先将数据匿名化。其实支付宝的消费排名名单也是此类做法。
此外,在莱斯格的技术约束下,架构(Architecture)通常都是匿名的,或者应当让匿名化成为默认的选择。例如,当你访问一个网站时,你所使用的远程计算机——也就是你的网络服务器——记录了你访问的一些信息,这些信息被称为日志文件。绝大多数的web服务器收集的信息远远少于您访问的最大信息量,这是因为该软件在默认情况下只保存了有限数量的信息。
当前,法律学者都认同将匿名化作为一种信仰。Ira Rubinstein, Ronald Lee, and Paul Schwartz表示,为了达到在“模式搜索”过程中尽可能少地披露个人信息,数据(如姓名、地址和社保号码)的匿名化是及其重要的。著名的医学隐私学者芭芭拉•埃文斯(Barbara Evans)谈到“匿名”数据同样指出,“这些数据在披露前已被“彻底且不可挽回”地匿名化,未来不可能被再现”。事实上,当前技术专家也对匿名化对手的“反匿名化”取得成功感到惊讶。接下来,Paul Ohm教授选择了公开且遗忘(The Release-and-Forget Model) 这一模型对数据匿名化的过程加以说明。
这一模型含义的是,数据所有者首先会对数据进行脱敏和清洗,然后会把数据对外公开,原则上公开的数据就不再受到数据主体的控制。
作者以Forest为患者例描述去识别化的过程。
第一步:管理员会挑选出她认为可以用来识别个人的任何字段。(Singling out Identifying Information)
第二步:压缩(Suppression)
在这里会有一定的压力,表面来看,有了这个版本的数据,我们就不必担心隐私问题;即使我们知道Forest的出生日期、性别、邮政编码和种族,人们仍然无法了解Forest的病症。
但另一方面,数据的大量压缩,使数据对研究几乎毫无用处。虽然研究人员可以使用剩余的数据来跟踪依据种族类型的疾病发生率,但由于年龄、性别和居住地点已被删除,研究人员将无法得出其他许多有趣和有用的结论。人们很难在隐私保护和数据可用性之前找到平衡点。
第三步:泛化(Generalization )
泛化:为了更好地平衡实用性和隐私之间的平衡,匿名者可能会泛化,隐去一部分标识而不是删除标识符。这意味着她将更改而不是删除标识符值以增加隐私,同时保证数据的实用性。例如,匿名者可能会选择简化姓名字段,将出生日期归纳为出生年份,并通过只保留前三个数字来概括邮政编码。
现在,即使是知道Forest的出生日期、邮政编码、性别和种族的人,也很难找出Forest的具体病症。这种泛化数据(表3)中的记录比原始数据(表1)更难重新确定,但研究人员会发现这种数据比被压缩数据(表2)有用得多。
第四步,整合(Integration)。
人们之所以相信这个技术是因为如下理由:首先,数据管理员在与第三方共享数据时可以保护隐私;其次,立法者可以通过解除对匿名记录交易的管制来平衡隐私和其他利益;再次,监管者可以很容易地将数据处理主体分成两类:负责者(匿名者)和不负责任者(未保密者)。但是,这一技术正在遭遇巨大的挑战——再识别技术对公开且遗忘技术所带来的冲击。
第一个案例是美国在线(AOL)个人隐私再识别案。
2006年8月3日,美国在线(AOL)宣布了一项名为“美国在线研究”的新计划。为了“实现研究目的”,AOL 公开地在一个网站上发布了三个月用户的活动信息,其中包含近65万用户的2000万的搜索请求。
互联网行为的研究者们很高兴地收到了这一珍贵的信息,向公众公布这些数据之前,美国在线曾试图将其匿名化以保护隐私。它禁止任何明显的标识信息(AOL用户名和IP地址)。然而,为了保存数据的有用性,它用唯一的识别号取代了这些标识符,使研究人员能够将不同的搜索结果关联到单个用户。
在发布之后的几天里,博客作者们反复地使用这些数据来“识别具体用户”,或者“寻找特别有趣或令人震惊的搜索历史”(窥探隐私)。最终导致某些用户识别号码已经成为可悲的耻辱的标志,与令人心寒的故事联系在一起。使用者3505202号询问有关“抑郁症和病假”的问题,7268042号查询“担心配偶有外遇” ,用户17556639搜索“如何杀死你的妻子”、“死人的照片”和“撞车照片”等一系列内容。
尽管大多数博客圈迅速而严厉地谴责了美国在线(AOL),但也有一些博客作者认为,公布的数据并没有侵犯隐私,因为没有人将实际个人与匿名查询联系在一起。《纽约时报》(New York Times)记者迈克尔•巴巴罗(Michael Barbaro)和汤姆•泽勒(Tom Zeller)很快进行了辟谣。他们在诸如“佐治亚州利尔本的风景园林家”( “佐治亚州利尔本的风景园林家”等问题上,认出了User 4417749的身份。找到了塞尔玛•阿诺德(Thelma Arnold)。这位62岁的寡妇来自佐治亚州利尔本,她承认自己是这些搜索的发起人,包括“麻木的手指”、“60个单身男人”和“任何事情上尿尿的狗”等一些稍微尴尬的问题。当然后果是毁灭性的。因此,美国在线解雇了公布数据的研究人员和他的主管。
第二个案例是马塞诸塞州GIC案。
Latanya Sweeney研究了1990年的人口普查数据,发现美国87.1%的人都可以通过五位数邮政编码、出生日期(包括年份)和性别组合来进行唯一性识别。
Latanya Sweeney提供了一个有趣例子来阐明再识别技术的力量。在马萨诸塞州,一个叫做团体保险委员会(GIC)的政府机构为国家雇员购买了健康保险。GIC决定公布每个州雇员的住院治疗记录,并允许研究人员免费使用。GIC删除了包含姓名、地址、社会安全号和其他“明确标识”的字段,并假定它保护了病人的隐私,但这些信息包含了包括邮政编码、出生日期和性别这三个关键要素。在GIC公布数据时,当时的马萨诸塞州州长William Weld向公众保证,GIC通过删除标识来保护患者的隐私。斯威尼开始在GIC数据中寻找州长的医院记录。Latanya Sweeney通过将邮政编码、出生日期和性别这三个数据与GIC记录结合起来,Latanya Sweeney戏剧性地把州长的健康记录(包括诊断和处方)送到他的办公室。
第三个案例是 Netflix 奖励撞库再识别的案例。
全球最大的在线电影租赁服务”Netflix公开发布了一亿份记录,揭示了从1999年12月到2005年12月,将近50万的用户对一些电影的评价。每一项记录中,Netflix都公布了电影级别、评分、评分日期。与美国在线和GIC一样,Netflix首先将这些记录匿名化,删除了用户名等标识信息,但指定了一个唯一的用户标识符来保持评级的连续性。
与Netflix不同的是,IMDb在其网站上公布了这些评分与真实用户名。Narayanan和Narayanan在获得了50名IMDb用户的评级,与Netflix数据进行撞库识别后,精准的发现了上述用户的完整信息。甚至了解了一些用户可能不想透露的东西。例如,作者列出了一位用户所浏览的电影,这些电影暗示了他或她的政治(华氏9/11)、宗教意见 ("耶稣") 和同性恋人 ("同志亦凡人")。随后Netflix将要搁置第二轮比赛。
Paul Ohm教授指出一旦对手发现了一个独特的数据指纹(data fingerprint),他就可以将数据与外部信息(outside)联系起来,往往真正对人们造成损害的不是统计数据,而是外部信息的集合体。
当然,在大多数人看来,如果隐私破坏者对世界上的人一无所知的话,那么匿名技术将是完美的。遗憾的是,在现实中、互联网上充斥着大量个人数据,每天都会创建个人关于个人的数据库,你的衣食住行都在不断地创建新的数据库。一旦对手将匿名数据与外部信息结合起来,从而发现对手的身份。如果认为隐私破坏者将无法找到解密匿名数据所需的特定数据,那就太天真了。考虑到目前互联网上大量的信息,尤其是博客和社交网络的兴起,作者这种对外部信息的量变引发质变的悲观假设是明智的。
当前,多数法律学者很难接受Paul Ohm教授的主张,他们认为上述三个故事故意强调坏匿名的危险。马萨诸塞州、 AOL 和 Netflix 应当预见到其匿名性的脆弱,从而增强其匿名性,避免类似情况的发生。
Paul Ohm教授回应到,首先,技术具有局限性,有些隐私无法被保护,比如ip地址一致存在争议。其次,这些复杂的数据处理程序(数据操作者)掩盖了其未经过专业培训的真相。事实上,Netflix曾夸口说,它在发布这一数据之前,曾对Netflix的获奖数据进行了数据干扰(加入噪声),以保护隐私,但并没有实现。复次,技术对共享过的数据已经无法保护。最后,有些人可能会认为,没有动机和高水平的技术,就不会匿名化的数据产生威胁,这被称为“超级用户的神话”。作者回应到。第一,再识别技术很容易实现,不是技术专家的特权。Netflix的研究显示,在匿名数据中重新确认人的身份非常容易。尽管普通计算机用户不能执行内部联接,但大多数参加过数据库管理或IT工作的人可能会使用快速计算机和广泛可用的软件(如Microsoft Excel或Access)来复制这项研究。第二,AOL大量隐私侵权行为的成因仅仅是一波无所事事的博客主。第三,推动人们再识别的经济利益驱动是巨大的。
Paul Ohm教授认为,我们应当从上述三个故事中吸取了许多教训,并利用这些教训呼吁对匿名化的失败做出积极的政策监管回应。当前坚持使用匿名化技术的学者秉承这样一种理念:尽管匿名化可能比我们想象的要弱,但它并没有失败。我们可以通过改变隐私政策,或者加强对技术研发和专业知识的投入,让匿名化涅槃重生。坚持匿名化的主体呼唤改进,但拒绝改革。作者自信地做出预测,再识别技术的力量伴随两股力量而不断升级:计算机硬件的迭代升级和不断丰富的丰富的外部信息,会在与匿名化技术的争夺战中不断取胜。
对于不能接受匿名化消失的直觉鸿沟 (The Intuition Gap)这一现实可能数年都不会发生转变,但作者坚信,隐私专家错误的观念会逐渐减弱,最终放弃了对匿名化的信仰。可能需要几年,也许更久——大多数隐私专家才会接受他们应该放弃对匿名的信仰。当直觉鸿沟差距不断缩小,当我们一旦我们意识到匿名化已经失败了,匿名化的失败对隐私法意味着什么?
四、第二部分:匿名化失败如何破坏了隐私法
作者指出,当前欧盟法与美国法对于匿名化的立法都是失败的,美国法过分强调在PII中对标识符号的列举,导致其体系过于僵化,很难应对日益多变的个人信息的内涵。欧盟法过于强调个人信息保护的抽象性规定,尤其“与个人信息相关”这个概念语义异常模糊,导致个人信息保护的边界过大。
政策制定者不能简单地忽略简单的再识别,因为几十年来,他们在严格的匿名化假设下,制定了法律和法规。他们现在必须重新审查每一个隐私法和规定,看看是否容易的再识别结果阻碍了他们最初的设计。
现代隐私法倾向于采取预防性救济手段,通过限制特定种类信息的流动,以减少可预见的伤害风险。为了压缩而不是切断有价值的信息传递,立法者长期以来依靠可靠的匿名化来传递两个世界的好处:信息流动的好处和对隐私的有力保证。
匿名化的失败暴露了这种依赖是存在问题的,将谨慎平衡的法规抛到了平衡之外。至少,立法者必须放弃这样的想法:我们只需删除识别和删除PII信息的时候,我们就是在保护隐私。那种认为我们能够选择出比其他信息领域更容易与身份认同联系的想法已经失去了科学基础,必须放弃。
从历史维度来看,美国隐私权保护的范围正在不断扩大,Prosser将Warren和Brandeis激发的判例法综合成了当今美国司法领域公认的四种隐私侵权:侵犯原告的隐居、独处或干涉他(她)的私人事务;当众揭露能够置原告于尴尬境地的私事;所进行的宣传将置原告于公众的误解之中;为了被告自身的利益而盗用原告的姓名或肖像。
美国从一种强调事后救济的方案,转而强调事前规制,直到今天采用了一种完全以数据为中心的方法——PII方法,以保护隐私。这种方法假设立法者能够评估数据类别的内在风险,用数学的精确性来评估一个特定的数据场是否对这个问题有足够的影响。在这样做的过程中,它往往忽略了一些更复杂的因素,这些因素也应该考虑到风险评估(比如某人有足够的动机去关心某个特定的数据集)。
此时,立法者们已经部署了一种完美的终极解决方案——匿名化——从而免除了他们行为过程中进行价值平衡的必要性。匿名化让议员们得以掩饰安全、创新和信息自由流通等对抗性价值观( countervailing value)的张力。强有力的匿名化的消亡将使立法机关失去平衡,立法者将需要找到重新获得平衡的新方法。考虑一下两个司法管辖区的立法机关是如何依靠匿名来平衡隐私法的:美国的医疗保险可携带性和问责法案(HIPAA)和欧盟的数据保护指令(Data Protection Directive),其中美国规定的过于具体导致体系僵化,而欧盟过于泛化,导致很难判断什么是个人信息,导致可以链接的个人的外部信息是否为个人信息界定不明。
美国HIPAA第164.514条规定了健康信息匿名的判断标准。对需要匿名化处理的标识符进行了正面列举。其中,第b款第1项规定,经专家判断信息不能具识别性则不属于法案规制的“可识别健康信息”,因此被称之为专家标准。该款第2项规定,删除18种识别符的健康信息不是“可识别健康信息”,被称为“安全港标准“”。
根据HIPAA第164.514条第b款第1项,判断主体信息是否可识别的主体是具有一定知识和经验的专业人员,这些人需掌握统计科学的相关知识和方法。当这些专家应用相关原则和方法,确定这些信息单独或与其他合理可用的信息相结合后,被预期接收者识别信息主体的风险非常小时,即可判定相关信息构成匿名信息。同时,专家需记录相关分析的方法和结果,以证明该判断的合理性。[ See 45 C.F.R. §164.514(b)(1).]
与美国立法者一样,欧盟立法者们认为他们可以通过科技的力量来达到平衡。如果匿名化工作,数据管理员可以自由地共享信息,只要数据对象不再是“直接或间接”可识别的。有了这一条款,欧盟的立法者们试图在社会中保留匿名数据的存储和传输空间,从而为不受阻碍的创新和自由表达提供空间。
但是,该指令是否以及在何种程度上保留个人信息的范围,在互联网隐私的背景下一直存在争议。几年来,欧盟与谷歌、雅虎和微软等公司就如何保护追踪用户在线行为的数据库发生了冲突。这场争论的焦点是公司必须如何处理存储的IP地址。IP地址是分配给因特网上每台计算机的数字标识符。正如社会保障号码识别人一样,IP地址识别计算机,因此IP地址可以将在线行为与位置和身份联系起来。每台电脑都会将它的IP地址显示给它联系的每台电脑,所以每次我访问谷歌时,我的电脑都会将它的IP地址显示给谷歌电脑。
遵循长期的行业惯例,谷歌记录我的IP地址,以及使用谷歌服务时我在做什么的细节。谷歌曾向欧盟争辩说,它使用匿名方式保护用户的隐私,只是部分披露ip地址。具体来说,一个IP地址由四个相等的部分(octets)组成,称为八个位,而Google存储前三个八位字节,并删除最后三个八位字节,声称这种做法充分保护了用户的隐私。谷歌的竞争对手微软和雅虎则更加彻底,隐藏整个IP地址。事实上,其核心也是一场关于平衡的辩论——在谷歌承诺通过研究我们的行为来实现的出色创新与IP地址已知或暴露的用户可能遭受的隐私之间的战争。Google承诺,其也可以在赚钱和保护隐私中间找到平衡——把我们的信任寄托在数据匿名化上。
作者认为,HIPAA对待隐私的方式就像狂欢节上的鼹鼠游戏:一旦你打一个鼹鼠,另一个就会弹出来。无论监管者如何有效地跟踪最新的再识别技术研究,将新发现的数据域整合到新的法律法规中,研究人员总会发现更多尚未涵盖的数据域类型。潜在的PII列表将永远不会停止增长,除非它包含了所有内容。
当然,尽管PII的识别很麻烦,但是我们要保留这个术语,为了防止打地鼠,不应该把匿名化看做重要的前提和条件。取而代之的是,立法者和监管机构应该重新评估哪些数据可以链接到个人身份上。
作者建议我们要改掉术语,使用“数据擦除”的概念,从修辞的角度,使用擦除的概念替代匿名化和去识别化,明确了数据脱敏是一个过程性行为,而不应该过分强调匿名化的结果。
五、第三部分:不完全的解决方案
作者举了一个例子,在人与毁灭的事实(database of ruin)之间的走廊上,想象一长串关闭锁着的门,每扇门都需要一个不同的锁,每一把锁都需要特定的要是开门,每把key钥匙代表数据库,数据库必须需要被重新链接,如果全都链接了,人就和毁灭事实之间相连接。 如Facebook和 Twitter 进行撞库识别,中间的们就都打开了,人的隐私就会被侵犯。所以,在隐私监管方面,现在已经不能完全依赖PII方法,我们倾向于规制数据库所有者——在走廊中间负责保护隐私大公司们。
当然,如果他们持有打开第一扇门的钥匙,那是离数据主体最近的门,我们就会对他们进行监管。这是PII的linkability form,我认为此部分主要指的是可以直接定位到个人数据。再者,如果他们抓住了打开最后一扇门的钥匙,那是最接近于毁灭的事实(database of ruin)的,我们也会对他们进行监管。这是PII的sensitivity form,我认为此部分主要指的个人不愿公开的隐私数据,比如你是否有艾滋病。
Paul Ohm教授指出直接惩罚侵犯隐私权的侵权者并不妥当,会使得我们完全退回到一个基于扭曲的隐私制度,这将使隐私法的预防性救济退回到四十年前。等待技术解救我们也并不现实,因为隐私保护和数据的实用性(uiility)紧密相连,只要是可以利用的,就可能被再识别,只要有人发现数据有用就会有人千方百计再识别出来。对于技术的依赖,不如依赖于法律规则的改变,对于技术的要求是不能替代,直接改变规则来保护隐私来着的更彻底。而且新技术的成本高昂,新技术的漏洞也很很难预测。禁止再识别也并不现实,即便值得信任的人不会再识别,但还有诸多黑客会去从事类似的行为。
六、第四部分:匿名化失败后背景下的隐私立法走向
一旦监管机构得出结论,上述三个部分解决方案不足以在匿名化失败后恢复隐私法的平衡。监管者应当考虑权衡不受约束的信息流的数据效用与隐私损害成本,并结合风险评估策略来处理再识别技术不断发展的现实,要知道PII永远做不动风险评估。如果损害要大于利益的话,他们应该规制,反之亦然。应该将关注点集中于特定的行业和特殊的行业(宏观调控与微观管制相结合),而不是适用于各个行业的保护规则。为了说明这种方法是如何运作,本部分以两个案例研究结束,提出了管理健康和互联网使用信息隐私的新策略。
从主体上来说,需要规制的主体类别包括大型信贷机构,如Experian,TransUnion和Equifax; 商业数据经纪人(data broker),如ChoicePoint,Acxiom和LexisNexis; 和Google,微软和雅虎等互联网搜索服务提供商。
是否进行规制的成本收益分析需要考虑如下因素(有点类似民法的动态系统论):1、数据处理技术。对各种数据处理技术进行风险评级,定性定量的方式。2、数据公开的范围。对公众公开的信息还是对特定的第三方公开的信息,是否属于私密性的信息,总之向公众信息的公开更需要进行规制,因为存在太多的外部信息连接点。3、数据量不仅要看到质,也要看到数据公开的量,公开得数量越大,风险就越大。立法者要对一次性发布的信息的数量进行限制,一般掌握的信息的量越大,越有可能找到信息的连接点。4、动机。考虑到再识别的东西,区分为了研究再识别;为了商业目的的再识别和某些具有恶意主观目的的再识别。5、信任。不要总是关注技术维度,对于人的信任也尤其重要。
在最后一部分,作者提出了一个问题,EU的数据保护指令是否需要把搜索请求(search queries)作为个人信息进行保护?这里作者就提到了要进行利益的衡量,命题转换:允许搜索引擎储存和披露信息(包括能够链接至具体搜索请求的IP地址)所带来的好处是否超过了其对隐私保护的损害。而其所带来的好处在于:其能够有效帮助研究人员和服务提供商提升其服务质量,提高对信息的获取程度,并可以提升用户体验,更重要的是,就医疗健康领域而言,这些信息还能够帮助提升健康水平所带来的损害:敏感信息的泄露会造成不可逆的伤害。
在上述情况下,立法者就需要考虑,我们除了要对医疗信息的使用、流转进行规制之外,还要对搜索引擎存储、流转信息进行特别的规制。同时,鉴于搜索引擎储存、流转信息所带来的好处要小于医疗健康领域,所以对于搜索请求这类信息的储存和流转,其规制更能要比对健康领域信息储存、流转的规制要更加严格。
因此,欧盟、美国要对搜索请求的存储、流转均要进行规制,包括设置信息数量的上线、强制搜索引擎只能在一段时间内储存这些信息,同时还要对第三人获取这些信息进行严格的限制。
七、结论
总结来看,再识别技术破坏了我们几十年来对于匿名化的基本假设,重塑了关于商业实践、个人信息保护、政府法律法规对于数据保护的基础思维。
其次,监管机构需要对这种破坏性的技术进行快速的反应,实现法律规制的平衡,保护所有人免受到技术可能造成的巨大伤害。尤其要试着放弃个人身份信息的PII的保护范式。
再次,本文提供了艰难但有必要的方案:监管机构必须使用“风险要素“ ,细行为的规制的方案来观察再识别技术,并仔细衡量与个人信息相对的“抵消性价值” countervailing values)——unitity数据效用。
最后,再识别技术迫使立法者回应其长期拒绝回答的问题——对不受控制的信息流的成本收益分析问题。
作者建议:这样一场讨论揭开了长期以来对于隐私保护错误争论的面纱,应当把握住机遇,重新认识互联网时代的隐私权。
八、我的看法
较为遗憾是Paul Ohm教授少了企业数据的探讨,企业数据是否可以财产化,以及在什么样的程度上财产化?此外,这里面技术治理和法律治理之间那个优先呢?Paul Ohm教授认为法律治理优先,我认为这里仍然有探讨的余地。另外,像精于再识别的黑客群体是规训还是强管制,作者没有进行回答?这篇文章在2010年写完,真的没有可以拯救我们的技术了么?我个人认为区块链技术可以考虑。
当然,Paul Ohm教授指出了,传统的权利路径对这个时代的个人信息保护是不妥当的,尤其是随着再识别技术的不断发展,转变思路采用行为规制的方案实有必要。个人信息的保护不等于简单的侵权保护,在我国个人信息保护立法呼之欲出的大背景下,我们是否的立法模式是否可以考虑采用耶林式的权利束模式对个人信息进行保护,同时辅之以不能忽视行为规制。在机制上应当考虑建立数据保护委员会、数据保护局、数据保护官,法律与技术共同借力,树立新的个人保护治理观。
张吉豫副教授:谢谢赵精武为我们做的精彩演讲,同时也提出了很多发人深省的问题。我们在思考这些问题的同时,有请第二篇文章的主讲人来为我们做报告,然后我们再对问题进行讨论。第二篇文章的主讲人是胡宇翔,胡宇翔也是人大的校友,当年的校级优秀毕业生,在英国高伟绅律所工作过。有请宇翔为我们介绍第二篇文章。
主题报告二
胡宇翔:我这篇文章是针对赵精武博士的而写的。这篇文章的作者在理论和实务中具有深厚的经验。第二个教授是乔治华盛顿大学的教授,有自己的创业公司,是一个专门做数据和隐私保护的培训。题目为,个人可识别信息的问题:隐私和个人可识别信息的新定义。先简单介绍下作者,两位都是国际知名的信息隐私法专家,Paul M Schwartz教授是伯克利法学院的教授,也是美国普衡律师事务所隐私与数据安全部门的特别顾问,可以说他在理论和实务方面都有丰富的经验,他对于欧盟的法律也很了解,从后面文章内容里能看出来。Daniel J Solove教授是乔治华盛顿大学法学院的教授,他比Paul教授小13岁,是Paul教授耶鲁法学院的师弟,可能也正是由于Daniel教授相对年轻些,他有一家自己的创业公司,专门做隐私和个人信息保护培训,此外他还是个网红,他的LinkedIn账号有100多万的粉丝。在今天的分享中,我会首先讲一下两位教授的结论,然后说下他们的论述过程,最后对结论谈一些我自己的看法。
这篇文章的结论是:现行法律是通过判断一个信息是否属于 “个人可识别信息”,来决定是否保护个人隐私的。然而,随着科技的发展,有越来越多的信息不在现行法律“个人可识别信息”的定义范围内,但也可以(通过它们)精准识别到个人。因此,“个人可识别信息”这个词的定义就跟不上时代了,需要一个新的定义。于是作者就提出了“个人可识别信息2.0”这个概念。这个新的概念将个人信息分成了三类:确定可识别信息,潜在可识别信息和不可识别信息。对于确定可识别信息,就是这些信息确定能识别出某个人,法律应当严格规制,对于潜在可识别信息,就是这些信息可能会识别出某个人,法律应当适度规制,对于基本不可能识别到某个人的信息,法律可以不管。
下面我讲一下作者的论证过程。本文的主要内容可概括为四点,第一,现行法律中个人可识别信息这个概念的历史,定义是什么?为什么这么重要?第二,个人可识别信息的定义存在哪些问题?第三,为啥“个人可识别信息”的法规管不了精准行为营销?第四,引入全新的个人可识别信息2.0概念。
先看第一部分,现行法律中个人可识别信息这个词的定义是什么?为什么这么重要?作者首先追溯了“个人可识别信息”概念的历史,1890年Samuel Warren和Louis Brandeis再著作“隐私权”中提到,媒体八卦报道侵犯个人隐私权的前提是八卦报道明确指向了这个人,或者说识别了这个人,就比如近期上了微博热搜的某男星和咱们某校友之间的八卦谣言,因为明确指名道姓了,就构成了Warren和Brandeis两位学者所说的侵犯隐私权的行为,但我们试想一下,如果这个谣言没有指名道姓,而是说某毕业于人大和耶鲁的一线PE老大,还算侵犯隐私权吗?这个关于个人可识别信息定义的问题,1890年Warren和Brandeis没有回答。70年后的1960年,Prosser教授细化了隐私侵权法,与Warren和Brandeis两位学者的观点类似,他认为隐私侵权成立的前提是明确识别某个人,然而,Prosser教授也没有单独研究个人可识别信息的定义问题。直到电脑出现,大家发现电脑不仅增加了信息的总量,而且改变了信息的分类方式和搜索方式。这就导致了以前很多无法识别到某个人的信息,现在可以精准识别了。因此美国立法者开始逐步将一些特定领域的信息纳入隐私权的保护范围,比如个人征信报告和教育记录中的个人可识别信息不能对外披露,政府部门调取个人信息也受到法律限制。直到1984年电信法案出台,这个法案之所以具有里程碑意义,是因为它第一次明确将“个人可识别信息”作为触发法律保护的要件,换句话说,只要你收集或处理个人可识别信息,法律就要管你。这里插一句,咱们国家对个人信息的保护,也基本沿袭了这个路径,比如2006年的《未成年保护法》第39条规定“任何组织或个人不得披露未成年人的个人隐私”,2012年的《征信业管理条例》第3条规定“从事征信业务,不得侵犯个人隐私”。但这些法律都没有明确“个人可识别信息”的定义,直到2013年电信和互联网用户个人信息保护规定出台,“个人可识别信息”的定义才被明确,整个个人信息保护体系才建立起来。
在1984年《电信法案》实行后,美国所有涉及隐私权保护的法律,基本都以“个人可识别信息”为基础。但在立法过程中,不同法律对于“个人可识别信息”的定义不尽相同,大体分为三类:(1)同义反复定义;(2)非公开定义;(3)具体列举式定义。用通俗的话讲,第一类定义属于说了等于没说,第二类定义属于排除法反着说,第三类定义是一个一个说。比如录像隐私保护法案里,把个人可识别信息定义为能够识别出一个人的信息,同义反复。比如GLB法案(也称金融服务现代化法案)中,个人可识别信息的定义是非公开的个人信息,但是法案没有定义“非公开”是什么意思。再比如《儿童网络信息保护法案》中,个人信息的定义是在网络上采集的独立可识别某个人的信息,包括但不限于姓名,住所地址,社保号,电话号码和邮件地址,一项一项列举。这种定义看上去比较宽泛,用了“包括但不限于”,但是在司法实践中,法院普遍对这种定义做限缩解释,比如最高院有一个案子,法案里写的个人信息是包括但不限于个人地址,案件中涉及到邮政编码的泄露,但最高院认为,法案的意思是整个地址,邮政编码仅仅是地址的一部分,不属于法案中的个人信息。
我们现在来总结下第一部分,个人可识别信息的历史可以追溯到1890年Worren和Brandeis两位学者的著作《隐私权》和1960年Prosser教授的论述,电脑的出现和发展促成了个人可识别信息这个概念的正式诞生,从征信法案和教育法案的浅尝辄止,到1984年《电信法案》首次将“个人可识别信息”作为触发法律保护的要件,其后的隐私相关法律都以“个人可识别信息”为基础建立起来。但是不同法律中“个人可识别信息”的具体定义方式不同,大体(1)同义反复定义;(2)非公开定义;(3)具体列举式定义三类。每一类在法律适用过程中都有各自的不足。
现在我们来讲第二部分,个人可识别信息的定义从根源上存在哪些问题?为什么会有这些问题?
第一,以前大家都认为匿名是一块完美的遮羞布,只要我的姓名,身份证号这种能唯一识别我的信息没有被泄露,我就不会被识别出来。但现在这块遮羞布已经没有用了。作者举了个例子,就是每台电脑的IP地址。理论上讲,IP地址不能直接识别到个人,只能识别到电脑或者上网设备,所以很多人认为,IP地址不属于个人可识别信息。但作者举了个例子,有一个哥们匿名在维基百科上添加了一个词条,说有一个叫JS的前肯尼迪助理,据传言直接参与了肯尼迪总统的刺杀。这个JS是一位著名记者,他看到有人污蔑他,立即开始反击,在报纸上发了一篇长文谴责这个匿名发词条的人。这时,有另外一位没事干的哥们注意到,维基百科对于上传词条的每个IP地址都是有记录的,而且可以公开获取到,于是他拿到这个匿名者的IP地址,用了某个IP查询软件,查到IP所属的电脑来自于某市的一家物流公司。以为纽约时报记者找到了这家公司,在这家公司的内部调查后查出了写词条的这位匿名者,这个人道歉并主动辞职。咱们国家也有类似通过IP地址人肉搜索的例子,比如汶川512地震期间,有一个辽宁女孩在Youtube上传了一段自拍视频,大意是你们这些地震受灾的难民都是活该,因为你们各网站集体默哀变成灰色,导致我玩不了游戏了。这个视频激起了广大网民的强烈愤怒,有网友通过Youtube找到了这个女孩的IP地址和IP地址所属的网吧,然后找到了QQ号和QQ空间,后来这个女孩的全部信息和家属信息都被挖出来了,沈阳市公安局苏家屯分局根据网友提供的信息,在一家网吧将其抓获并拘留,女孩对自己的言论进行了忏悔和道歉。咱们暂时不用评价警察的处理是否合适,但这两个例子都展示了IP地址是可以追踪到个人的。
第二,以前我们认为,只要把某份信息中的个人可识别信息去掉,剩下的部分就是不可识别信息了,就可以传播了,但随着科技的发展,很多我们之前认为的不可识别信息,与其他信息结合到一起,也可以用来识别个人了。作者举了个例子,2006年,美国在线向研究者们公开了2000万条用户搜索记录,所有记录都进行了匿名处理,美国在线认为,经过这样的处理后,不可能识别出具体个人了。但纽约时报的记者们马上就给了美国在线一记响亮的耳光,他们查到,第4417749号用户搜索过“Lilburn市园林设计师”,“姓Arnold的人”,“各类疾病”等等,很快,记者们找到了第4417749号用户,居住在Lilburn市62岁的Arnold女士。Sweeney教授的研究显示,邮政编码+生日+性别可以识别出87%的美国人,而这些信息过去都被认为是不可识别个人信息。作者认为,信息具有积累效应,即使没有姓名,身份证号等直接识别信息,其他针对个人的信息越多,这个人被识别的可能性也会越大。这与Paul Ohm的走廊与门的理论类似,有一条长长的走廊,一头是我们,另一头是给我们造成的损害,中间有很多扇门,每一扇门都是一项个人信息,当这些门被打开的时候,我们就会受到损害,现有的法律只管离我们最近的第一扇门,就是我们的姓名身份证号等唯一识别我们的信息,Paul认为这样是不对的,中间的门也是需要管的。我个人理解,这就像多米诺骨牌,第一张牌倒了,后面的牌都会倒,我们就直接受到损害了,所以第一张牌必须得管,中间的牌倒一个两个虽然未必会导致所有牌全都倒,但我们必须也得管,因为信息和多米诺骨牌一样,具有积累效应,泄露的信息越多,中间的牌倒得越多,全部崩盘的风险就越大。
第三,科技和信息共享实践的发展衍生出了很多新的问题。比如我们越来越难以预测和控制信息的使用方式,今天的不可识别信息,明天可能就成为了可识别信息。此外,一些大公司的产品让个人信息可以被越来越多人获取,比如Facebook2007年的Beacon产品就能够追踪用户在第三方网站的购买和订阅行为,并且可以实时提醒用户的朋友,用一个不恰当的比喻,这就好比你的好友在淘宝上买了件情趣内衣,你在微信上会收到一个提醒,虽然这个提醒没有说是谁买的,但肯定是你的好友之一,这个购买信息算不算个人可识别信息呢?这都是科技发展带来的新问题。
第四,某一类信息是否属于个人可识别信息需要结合实际情况综合判断,很难笼统地说某一类是或者不是个人可识别信息。比如“在谷歌的搜索记录”是否属于可识别信息?如果这个人在谷歌中搜索了自己的名字,那么再结合一些其他搜索记录,就很容易确定这个人的身份。
我们现在总结下第二部分,个人可识别信息面临四方面的挑战,第一,匿名这块以前的万能遮羞布没用了,IP地址都可以精准定位到个人;第二,尽管我们可以对个人可识别信息进行删减和处理,但处理后的信息在和其他信息结合之后,可以重新识别到个人;第三,科技和信息共享实践的发展,让不可识别信息和可识别信息之间的界限越来越模糊;第四,某一类信息是否属于个人可识别信息需要结合实际情况综合判断。
现在我们来讲第三部分,为什么“个人可识别信息”的法规管不了精准行为营销?
作者认为,最能够集中暴露现有“个人可识别信息”这个概念缺陷的,是精准行为营销领域,在咱们国家,大家可能更熟悉的概念是精准广告投放,就是广告主根据你我在网上的浏览习惯,购买习惯等形成一套算法,根据算法为你我量身定制推送产品或服务,就是我们经常看到网页上的“您可能感兴趣……”。作者首先追溯了广告行业从面向大众营销,比如电视广告,到精准营销的转变历史。目前的操作模式是,用户在网上的各种痕迹被打包处理后形成一份份档案并分门别类编入数据库,买方会根据自己需要的用户类别,比如女性,23-30岁,买过优衣库等,购买相应的用户数据库。分析师根据购买到的数据库研究应当推出怎样的产品或服务(在精准行为营销的过程中,用户不知道自己的信息被谁使用,如何使用,而且从这些信息中拿不到一分钱)。
在整个行为营销的过程中,机构基本不收集用户的姓名身份证号等唯一识别信息。他们会收集并使用诸如性别,年龄,浏览习惯,购买习惯,搜索习惯等各种各样的信息。而这些信息都因为不属于现有“个人可识别信息”的定义而无法被法律所管控。联邦贸易委员会只能以相关机构没有遵守机构自己的隐私政策为由,进行处罚,但只要机构自己的隐私政策里没写不能收集和使用这些信息,法律就拿他们没办法。具体到针对年轻人的食品营销方面,“个人可识别信息”的概念也很难发挥作用。美国政府高度重视针对未成年人的食品营销,担心广告主引导未成年人吃高热量低营养的食物。事实上,目前这一代年轻人,就是在网络上成长起来的一代人,非常容易受数字广告的影响, 2007年美国未成年人的肥胖率是1980年的3倍。这个领域最直接的法律是《儿童网络信息保护法案》,这项法案在“个人可识别信息”的定义中,除了在清单中列举了传统的姓名,社保号,电子邮箱等,还授权联邦贸易委员会可在清单中加入其他信息。尽管有这样的授权,法案中明确表示,这些信息必须能够实现与具体某个人的线下或线上联系,才能触发法律保护。而广告主们会说,他们向儿童们的广告推送不是针对某个人的,而是针对一个群体,比如8-10岁,经常买汉堡的男孩。这种时候联邦贸易委员会也没有办法。
总结下这一部分,在精准行为营销领域,无论是成年人还是未成年人,他们的个人信息在被收集和使用的过程中,由于“个人可识别信息”定义存在问题,现行法律都难以发挥作用。
第四部分,我们看看作者如何引入全新的个人可识别信息2.0概念。
第一步,作者回答了一个问题,是否应当放弃“个人可识别信息”这个概念?作者提到,Paul Ohm的文章中说,“个人可识别信息”已经跟不上时代了,定义这个词就像打地鼠一样,打完这只地鼠,发现新的又冒出来了,科技的发展使得总有新的信息本来不是可识别的,后来变成可识别的了。当然事实上,作者也承认,Paul Ohm教授的观点也并不是完全抛弃“个人可识别信息”这个概念,而是提醒学术界注意传统的不可识别信息正在向可识别信息转化。但是作者认为,Paul Ohm教授针对这个问题提出的新方案是不合适的。
作者说,Paul Ohm教授的新方案是:对于信息及信息相关行为要进行成本收益分析,即评估此项信息流动带来的收益和隐私损害的成本之间孰轻孰重,比如美国在线是否可以公布用户搜索记录,要评估公布搜索记录带来的潜在研究成果收益和公布后带来的潜在个人隐私损害。作者引述,Paul Ohm建议立法者通过减少社会中信息的流动来防止个人隐私损害,哪怕信息流动的减少会牺牲一点创新和言论自由。我后来也看了一遍Paul Ohm教授的论文,本文作者上面这几句引述有一些断章取义的嫌疑,Paul教授在建议减少社会中信息的流动来防止个人隐私损害之前还有一句话,是“有时候,立法者需要接受这会是个隐私比以前要少的世界”,说完这句话,Paul教授才说,但更多时候,我们需要减少社会中信息的流动来防止个人隐私损害。而且这句话虽然听上去刺耳,我个人认为是一句别人不愿意说的大实话,隐私权和信息自由流动本来就是天生矛盾,在现在隐私权面临威胁的情况下,信息自由流动肯定要受到一定程度的限制,有限制肯定就会减少流动,立法者做的工作是让这种限制对信息流动的影响越小越好,但信息流动是肯定会相对减少的。所以本文作者在这里对Paul Ohm教授观点的批评我认为是有失偏颇的。言归正传,本文作者认为不能抛弃“个人可识别信息”这个概念,因为法律需要明确不同信息的边界,才能进行相应的保护,没有这个概念,个人信息就没有了边界,法律保护将丧失确定性。
第二步,作者认为“个人可识别信息”的定义方式应当采用“标准standard”而非“规定rule”。标准是指开放式的决策标准,规定是指严格的决策工具。举个例子,前面说的“同义反复式定义”和“非公开定义”都属于确立了一项开放性标准,而“具体列举式定义”则属于严格的规定。作者认为,开放式标准的定义方式有3个好处,一是跟得上时代的快速变化,二是覆盖多种类的信息,三是可以让规定式定义成为开放式标准的补充。比如咱们国家2013年9月实行的《电信和互联网用户个人信息保护规定》中规定的个人信息,是指电信业务经营者和互联网信息服务提供者在提供服务的过程中收集的用户姓名、出生日期、身份证件号码、住址、电话号码、账号和密码等能够单独或者与其他信息结合识别用户的信息以及用户使用服务的时间、地点等信息。这就是典型的规定和标准结合的定义。
第三步,作者讨论了美国对于个人可识别信息的限缩解释倾向和欧洲的扩张解释倾向。美国的限缩解释倾向刚刚已经说过了,比如规定地址是个人可识别信息,邮政编码作为地址的一部分就不能算是,这里就不赘述了。欧盟数据保护指引规定,个人数据是指与一个确定识别或者潜在可识别自然人相关的信息。在欧盟,确认识别个人的信息和潜在可识别个人的信息是同等对待的,这个实践源自德国1977年的联邦数据保护法,随着科技的发展,经济发展合作组织(OECD)的隐私指引也遵循了同样的规则,并针对个人信息列举了8项原则。只要存在个人可识别信息,无论是确定识别信息还是潜在识别信息,OECD指引的所有原则都要全部适用。2004年亚太经合组织隐私框架规定也采取的同样的方式。作者认为,欧洲这种对确定识别信息和潜在识别信息采用同样的法律规制方式是错误的,因为这两种信息的识别风险的不同的,造成损害的风险也不同,不应当适用同样的规制标准,比如处理潜在可识别个人信息就没必要征得个人的同意,因为本来就是潜在识别,不是确定识别。
第四步,作者终于正式介绍他建议的“个人可识别信息2.0”概念的定义,这个新的概念将个人信息分成了三类:确定可识别信息,潜在可识别信息和不可识别信息。确定可识别信息是指能够确定能从其他人中唯一识别出某个人的信息;潜在可识别信息是指这些信息有可能未来会识别出某个人,但这种可能性并不显著;不可识别信息是指基本不可能识别到某个人的信息。作者认为,如果某一项潜在可识别信息很可能识别出某个人,那么这项潜在可识别信息应当被作为确定可识别信息来对待。在评估识别可能性方面,作者认为要综合考虑信息将被保存的时间,相关科技的发展和相关方的识别动机。
第五步,作者列举了“个人可识别信息2.0”概念中,不同类别的信息应当遵循的七项规制原则,包括(1)信息使用限制;(2)数据收集限制;(3)个人信息披露限制;(4)仅收集使用准确,相关且实时的信息(信息质量原则);(5)个人的被通知权,获取权和修正权;(6)透明处理系统;(7)个人信息安全保护。作者认为,如果信息属于确定可识别信息,那么上述七项原则均需要适用,对于潜在可识别信息,(1)信息使用限制;(2)数据收集限制;(3)个人信息披露限制;(5)个人的被通知权,获取权和修正权都没必要适用,只有(4)仅收集使用准确,相关且实时的信息(信息质量原则);(6)透明处理系统;和(7)个人信息安全保护应当适用。对于不可识别信息,法律不用管。在这个体系下,由于信息的识别可能性越高,法律管得就越多,公司都会有动力自主降低信息的可识别性。
第六步,作者通过新的“个人可识别信息2.0”概念解决第三部分中的精准行为营销问题。在精准营销领域,个人可识别信息2.0有四点好处,1. 如果针对特定人群的行为营销涉及到很可能识别到个人的信息,2.0概念中的七项规则原则都可以适用;2. 2.0概念下可以有效帮助联邦贸易委员会规制行为营销中涉及的个人信息;3. 2.0概念有助于推动立法;4. 2.0体系下,精准营销领域的公司很难再抗辩某项信息不属于个人可识别信息,信息透明性会被进一步促进。
总结第四部分,作者首先论述了为什么不能抛弃个人可识别信息的概念。建议个人可识别信息采用开放式的信息,列举式为辅的方式。讨论了美国对个人信息限缩的解释倾向,和欧盟的扩张解释倾向,最终解决了2.0的概念,并列举了七项原则,并且尝试了营销的问题。咱们国家现在采用了欧盟的扩张式解释的方案,在个人信息的定义上能够单独或者与其他信息结合识别用户信息,对于这种信息其实并没有分析识别性可能性低的如何区分以及识别可能性高的怎么区分。
我分别谈一下对于Paul Ohm教授和本文两位教授观点的看法。
Paul Ohm教授的核心观点是对每一项信息流动进行成本收益分析,同时考虑五项因素(诸如收集主体,信息体量等)。在出现一个具体案件时,这可以是一个很好的case by case的分析方式。但立法的目的是预防信息流动产生的问题,这种方法恐怕很难成为一个具体可操作的立法条款,因为它缺乏确定性和边界性。此外,在做成本收益分析时,评估信息流动的收益我认为是一个难题,这个收益是对谁的收益?比如在美国在线公布2000万条搜索记录这个案例中,信息流动的收益指的是对美国在线的收益?对研究者的收益?对社会的收益?对消费者的收益?哪些收益应当纳入评估,我认为是一个难点。
本文作者根据个人信息的可识别可能性将信息分为三类,这个体系下最大的问题是如何评估识别可能性?比如QQ有我们的年龄信息,这个信息的识别可能性有多大?我认为很难说,因为QQ拥有的我们的年龄信息能否识别出你我,不取决于这个信息本身,而取决于这个信息与QQ控制不了的大量外部信息结合,能否识别出我们。目前已经有大量的外部信息散落在外,而且越来越多,作为QQ,它预测不了外部信息有什么,也就无法评估年龄这个信息的识别可能性,结果很可能就导致它无法公开这个信息,信息流动就被中止了,创新很可能就被抑制了。作为一项解决方案,我建议参考Paul Ohm教授的信任主体机制,对于社会中的医院,研究机构,大学等可信任的主体(可考虑通过备案认定),他们泄露个人信息的可能性极低,那么有大量数据的公司们就可以相对放心地将自己无法评估识别可能性的信息授权他们来研究,既可以免除自己的责任,又同时实现了信息流动促进创新的目的。
张吉豫副教授:谢谢胡宇翔的精彩讲解,逻辑非常清晰。同时,我们也可以看到针对相同的问题,不同的作者给出不同的建议。如果仅仅为了保护个人隐私,可能还不是最为困难,困难在于隐私保护过程中必然涉及到对数据流动性的干扰,涉及到相关主体自由的限制,需要有正当性的基础;同时,刚才宇翔提到,信息有积累效应,信息越多,对个人身份的识别性就越强。同样的是,信息越多,对其它各种信息、特征的识别性也越强,蕴含着巨大的潜在价值。在这些问题中间如何平衡,非常值得我们深度思考。接下来我们有幸邀请到了腾讯研究院的资深专家王融老师,王老师在加盟腾讯研究院之前就已经在个人信息保护方面进行了多年深入研究,有请王老师为我们进行评议。
主题评议
王融高级工程师:谢谢各位老师,也非常感谢未来法治研究院的邀请。精武和宇翔对文章的主讲也非常的详细,如果我们没有读过这篇文章,听他们的介绍已经帮我们节省了很多时间成本,他们对文章本身的解读也非常棒。此外,我从企业自身的角度做一些补充。
这两篇文章时间比较早,分别10年和11年,但是实际上你可以看到信息技术的发展以及它对社会带来影响变化的时间并不是以年来计算的,它带来的问题也不是对传统法律问题的延伸。
这里面,首先要理解美国和欧盟对信息保护的最大分野,美国使用的是PII的概念,范围是是相对狭窄的,但是欧盟的personal data是非常开放的。不一定要求我把你识别出来,只要是对个人的描述就可以,所以你网络上的行为都可以称之为personal data。在美国语意下不仅仅是把个人区别出来,甚至是要把你的身份识别出来。
在美国语意下是去身份化,把身份移去,但是在欧盟的语系里面,anonymization提升到一个很高的标准,标准是完全识别不出来我的个人信息。比如我感冒了去医院,在医院的系统里面我被编了一个ID号,在欧盟仍然算作个人数据,算作是假名数据,这是欧美至少在实践中的一个明显分野。Paul教授的论文是很有预见性的,通过这篇文章我们可以认识到de-identification是一个几乎不可能实现的任务。但实际上,在我们在走向终点的时候,我们可以利用新的技术来解决这个问题,我们可以看到在实践层面,我们选择了与Paul教授提出的完全相反的一条路,越来越多的国家在法律上认可匿名化的概念,给他一个法律性质上的认可,只要你采取匿名化了我就免除你的某些责任。
在实践上,我们在走向未来的过程中,我们是认可匿名化的,包括我们最新的网安法,以及欧盟的很多监管机构是认可的。我们在个人数据保护如此严格的前提之下,随着技术发展方向,应当给技术发展一条法律的出路。而且,从根本讲两个问题,就是匿名化由两个核心因素决定。一个是主体掌握数据源的多少,掌握的数据源越多,你的识别能力越强;另一个是主体掌握数据处理技术越强,你的识别能力就越强。
我们产生的数据源越来越多,进行交易的数据源也越来越多。同时我们技术反向化的能力也越来越强。我们所认为的匿名化判断标准应该是动态的。这其中最大意义在于,不仅仅是商业环境需要匿名化,包括政府信息公开也需要,因为只有这样才能够将数据匿名化后公开,最大程度上开放和利用,利用数据来推进社会发展,增进社会福利,特别是医疗等科研领域的数据匿名化利用,将切切实实的带来人类福祉。
在实务中,我们已经看到匿名化已经有了一定探索,包括我们怎么通过合同约束交易双方对匿名化的承诺。双方承诺性义务。甚至在遇到意外复原场景下,我们应该怎么去处理这些数据。这些都是很有益的探索。
张吉豫副教授:王融老师的发言很精彩,下面我们有请许可老师发言。
许可助理教授: 我想补充一个问题:为什么PII会成为两篇文章的核心问题?这是因为对于隐私的确定是非常困难的。作为一种主观性的概念,隐私的边界和范围往往是主观的,显然,这与法治的确定性产生了矛盾。因此,在早期的普通法里,将隐私归纳为亲密关系中的“秘密”,试图通过人际关系的确定来确定隐私的边界。但是,随着社会的发展,特别是互联网的发展,亲密关系已经无法涵盖需要保护隐私的日常交往场景。所以,我们需要有另一个客观化的尺度来度量隐私。由此,因此,就从传统人际关系的尺度,来到一个更客观、更可观察的PII尺度。但PII并不是万能的,今天讨论的两篇文章都讨论了PII的限度,也就是真正匿名化的困难。尽管这两篇文章的主要观点截然不同,但有一点是两位作者公认的,那就是从信义关系(fiduciary relation)出发,来理解隐私。
2016年,耶鲁大学的Jack Balkin教授发表了一篇论文,同样认为应当用“信息信托”(information fiduciaries)来保护互联网公司与用户间的隐私。在某种意义上,这种从PII向信义关系的转变,可能又回到了英国的思路,回到了普通法上关于隐私的界定,回到特定关系上的秘密。不过,与对亲密关系的传统认定不同,现在的“信义关系”不再限于医生和患者之间,律师和被代理人之间,而是拓展到雇主和雇员,网络服务提供者与用户之间。正是因为fiduciary relationship的灵活性,它不但能适应不同的场景,还能够根据信任的强弱,对当事人苛加不同的义务。与Paul Ohm主张的行为规制不同,通过信义义务的规制更具有优势。因为行为规制的问题自傲与,只要立法者列出红线,或者监管者进行清单式管理,被监管者就可能创造出新的行为模式,从而绕开监管。
回到中国,我们应该怎么处理这个问题呢?我个人认为,尽管利用信义义务(Fiduciary duty)或者信任关系来处理中国问题非常困难。正如王融老师所说,尽管PII的问题重重,它仍然被日本、中国广泛接受。其背后的理由,我理解有两个方面。
一是立法成本和司法成本比较。显然,对于这两种成本,大陆法主要以前者为主,普通法以后者为主。信义义务就是一个典型通过司法来确定规则的普通法方法,而包括中国、日本在内的具有大陆法色彩的国家特别希望能通过立法,来确定规则,从而降低司法成本。
二是执行频率的成本。一个规则越可能被频繁使用,它就越应该在事前明确,而不是在事后确定。从数字经济发展的立场看,中国企业对于合规的要求不断提升,他们希望更加准确和精准的规制。这些都造成,国家更愿意通过PII的客观标准,而不是看起来比较细致、通过信义关系进行的相对主观的标准。
当然,正如这两篇PII所指出的,PII确实存在种种不足。因此,张新宝老师在《个人信息保护法(专家意见稿)》的起草中,将风险治理的理念引入到个人信息保护之中。简言之,很多个人信息的保护不能仅仅通过表面形式和类型来进行,而是要根据其性质、数量和情景,在风险评估的基础上,判断是否受到保护,以及受到何等程度的保护。
我就简单讲这么多,请多多批评。
张吉豫副教授:许可老师的观点对我们很有启发,下面有请下一次作报告的刘晓春老师为我们点评。
刘晓春助理教授:今天的这两篇文章,比较集中地探讨了一个问题:数据匿名化之后是不是真的不可复原了?第一篇文章认为根本没有彻底匿名化的数据。第二篇文章认为,基于第一篇文章的观点,在规制的时候,有必要在可以被识别和不可被识别之间加一类——潜在可识别的信息。这两篇文章的共同之处是都挑战了现有在可识别个人信息和非可识别信息之间泾渭分明的两分法模式,提出了重构的方式和要素性、综合衡量的解决方案,这种路径很具有启发性。
对于美国法视野下的这种“个人可识别信息”(PII)的概念进行精细化的讨论和分类,包括将考虑要素作出精细的设计和划分,试图应对不同情境下个人信息应当被控制或者应当不被控制的情况,我比较感兴趣的是这样的理论范式的实际应用场景。目前现实的情况可能更多是一个授权实现模式的问题。不管是原始的信息还是经过处理后潜在可识别的信息,消费者在大多数的情况下实际上都是一揽子进行了信息的授权,而这样不加区分的信息授权并没有导致太明显的现实担忧,并没有形成个人数据提供者、采集者和正当处理(包括可能是不彻底的匿名化处理)者之间的紧张关系。比如,我将我的个人信息许可给一个购物APP,有一天我发现他对数据的处理和使用有可能超过了我原以为许可的范围,用到了它给我提供的金融服务里面,推荐我去贷款,或者应用到了新闻推荐服务,给我推荐了很多相关的新闻信息,这个时候我可能并不会有特别强烈的被冒犯的感觉,我会意识到个人信息的提供会给我带来更多的服务便利,不管这是原始的PII,还是潜在的PII,我都可能通过一个合同安排许可出去,因此这种区分对我可能没有太大的意义。
我们经过调研发现,在当下的中国社会,主要问题是在于个人信息的不正当泄露或者说所谓的黑产,那些实际上触犯了刑律的行为,通过完全违反消费者意愿的行为来处理原始的个人信息。对这些行为合法性的评价目前来看并不需要非常精致的关于个人信息分类的法律结构。
那么回到对于个人信息类型化和匿名化的具体讨论,我们如果要反思现有的规范框架,在此基础上设计一个精巧的制度,去进行要素分析,对每个场景去进行分析,主要针对的是什么样的场景呢?当我们愿意用个人信息交换服务的便利的时候,规制的重点应该在哪里?
从另一个角度来说,私权模式下的规制模式中,消费者这种情况下是否有能力发现企业对于个人信息的使用超过了规制允许的范围呢?政府是否有这样的能力去进行监控呢? 在要素分析和个案权衡的方法下,技术的复杂性和数据处理、流动的隐蔽性,会不会对于查明事实造成无法逾越的成本?
我自己的理解,两篇文章的作者都提出了要素分析的方法,并不是长远来看每个个案都要根据要素去衡量,而是提出这样的要素去为法院、FTC所用,可以通过案例的演进来形成相对统一的标准。但是这个过程可能是一个漫长的过程。这样的过程,在我们互联网时代,可能太漫长了,无法解决我们在日新月异的数字时代想要解决的问题。因此,我想再次结合我自己之前的一个研究观点,我们是不是可以建立一个由行业标准作为主导的机制,由最了解技术和数据处理前沿实践的互联网企业来作为主体,由他们在要素的指导下来制定出行业标准。结合市场的声誉机制和信任机制,有责任心、值得信任的企业可以发挥其影响力,一方面承担起形成行业标准的责任,另一方面也可以发展最佳实践范本。政府的职能并非在个案中事必躬亲,而是通过对于行业标准制定和执行的监管,来实现有效的治理。在这个意义上,下次读书课我将试图来做报告的美国FTC通过监管形成的案例体系,希望也可以给大家带来一些启发。
以上想法可能有点散,不够成熟,请大家指正,谢谢大家。
张吉豫副教授:下面就剩余一个发言名额了,还有哪位老师想谈谈自己看法?
丁晓东副教授:我们简单讲一下之前选这两篇文章的目的和前两次读书会的逻辑结构在哪里。隐私和个人信息保护的问题首先是一个非常复杂的问题,如果我们去看文献,会发现隐私有时候会指很多东西,例如在国外,堕胎问题、生育问题也会被归纳为隐私问题。另一方面,对隐私的讨论角度也常常非常多,例如隐私和民主的关系,很多文献会讨论隐私对于民主的作用,因为公民只有足够的隐私才能够有自己的空间,而不是一个实施时刻防备的状态,这样没办法成长为公民,所以有公法的维度。
隐私权从一开始可以说是一个私法问题,刚刚开始Warren和Brandeis提出隐私权以及隐私侵权的私法实践,完全是侵权法上的问题。后来Westin的理论与其后的公平信息实践(Fair information practice),又更多变成了对信息积极控制的问题。所以我们第一次的读书会也基本是私法的进路。第一次读书会我们主要是比较了几种私法的进路,一种把隐私定义为积极控制,还有一种是把信息定义为消极地防御,还有把隐私定义为一种财产权的结果,还有就是定义为人格权的进路。
而第二次读书会的主题基本上是从一个公法的角度以及消费者法保护的角度。两篇文献核心争议某种程度上是一个法律框架选择的问题,里面涉及到的核心问题是选择一个公法规制的视角还是风险评估的框架,还是消费者保护的框架。
从某种程度来说,Ohm这篇文章更多的是支持风险评估的框架。Ohm批评的对象是对匿名化的迷信,认为只要抓住了PII这个关键,然后对此进行规制就能解决风险问题,但Ohm指出,即使匿名化了,风险仍然存在,而且可能是一些很大的风险。所以Ohm的方案是先进行风险评估,规制行为而不是PII。 Ohm倒没有完全放弃PII的概念,但他认为对PII的规制必须有风险评估的前提。
第二篇文章还是坚持PII的规制视角,Schwartz和Solove部分吸收了Ohm的观点,区分了几种类型的PII,但他们仍然认为,通过规制PII来规制相关问题,这是很有意义的。在一定程度上,他们的这种视角其实是支持消费者保护法的框架。在这种框架下,首先是个人拥有一定的权利,就像在消费者保护法中一样,个人可以主张这种权利;其次,当然Schwartz和Solove也支持风险评估的视角,包括他们说隐私保护应当更多采取标准(standard)而非规则(rule),他们也意识到隐私与个人信息保护很难通过纯粹私法来进行解决。
总之,如果就两篇文章的不同来看,可以发现两者的核心差异在于法律框架的不同,Ohm的论文是先看风险评估再看PII,但是后篇文章是先分几类PII,再进行风险评估。究竟哪个路径更好,还需要我们进行思考。