尽管相关组织采用了多种保护措施,但涉及个人身份信息(PII)的数据泄露仍然会给各行各业造成重大的经济损失。根据IBM发布的《2023年数据泄露成本报告》显示,在2022年3月至2023年3月期间,被泄露的客户和员工PII分别给企业造成了每条记录183美元和181美元的损失。
匿名化(Anonymization)是最有效的数据保护措施之一,可以防止个人数据泄露,或者至少可以降低每个泄露的个人数据记录的成本。在本文中,我们将了解什么是数据匿名化,研究其类型和主要挑战,并提供有关匿名化数据的最佳实践。
什么是数据匿名化?
数据匿名化是将敏感的个人信息转换为不能与特定人员联系的匿名数据的过程,此过程包括删除或编辑PII。根据个人身份信息的独特性和个人身份识别的难易程度,个人身份信息可分为两类:
·直接标识符(Direct Identifier),指的是可用于直接识别个人的唯一信息,包括姓名、物理地址、电子邮件地址、可识别的照片、电话号码和社保号码等。
·间接标识符(Indirect Identifier),也称为“类识别符”,指能够帮助建立信息之间的关联,将要识别的个人从人群中摘选出来的数据。常见的间接标识符包括生日、年龄、性别、邮件编码等。这些数据无法单独识别某人,但稍作组合就可以实现强大的识别能力。
数据匿名化可以帮助公司保护其客户、员工或合作伙伴的敏感信息隐私,同时仍允许他们将其用于商业目的。因此,如果恶意行为者设法破坏以前匿名化的数据,他们将无法轻松识别该数据属于谁;反过来,数据匿名化有助于防止身份盗窃、金融欺诈、跟踪和骚扰、歧视和其他侵犯隐私的行为。
根据Verizon的《2023年数据泄露调查报告》,个人数据是以下行业中最常见的数据泄露类型:
·金融和保险,个人数据泄露占比74;
·医疗保健,67%;
·制造业,60%;
·专业的科学和技术服务行业,57%;
·教育服务,56%;
·信息行业,51%;
·采矿、采石、石油和天然气开采和公用事业政府,50%;
·公共管理机构,38%。
由于数据泄露,各行各业仍在丢失大量个人数据,上述统计数据强调了实施量身定制的个人数据保护措施的重要性。
个人数据泄露不仅表明组织的安全存在漏洞,还可能导致客户信任和收入的损失、违规罚款和法律责任。
通过隐藏或删除收集数据中的PII,组织可以将未经授权访问内部数据资产所造成的损害降至最低。这就是匿名化的目的。
数据匿名化的类型
数据的匿名化可以通过多种方式实现,以下是一些最常见的数据匿名化技术:
1.数据脱敏(Data Masking)
数据脱敏,又称数据漂白、数据去隐私化或数据变形,指的是对数据集中的敏感信息进行加密,以便在企业用于分析和测试时保护原始数据。在涉及用户安全数据或一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号等个人信息都需要进行数据脱敏。
当数据需要由不同的各方共享或访问时,这种技术通常很有用。例如,可以用随机生成的字符或数字替换诸如社会保险号、姓名和地址之类的个人识别信息(PII),或者用“X”替换社会保险号或信用卡号中除最后四位数字以外的所有数字,从而保护数据安全。
2.数据泛化(Data Generalization)
顾名思义,这种技术是用更通用的数据值替换特定的数据值,敏感数据可以被修改成一系列的范围或一个具有合理边界的大区域,或者在保持数据准确性的前提下,删除一些标识符。例如,一个人的确切年龄是匿名的,只显示一个更通用/广泛的年龄范围,比如25-34岁。因此,这种技术可以应用于多种类型的数据,例如人口统计数据或事务数据。值得注意的是,平衡对数据执行的泛化也很重要,这样它就不会损害数据对分析的有用性。
3.数据置换(Data Swapping)
这种技术指的是在数据集中重新排列或置换两个或多个敏感数据记录,匿名化是通过将一条记录中的值与另一条记录的相应值置换或交换来完成的,即置换数据集中两条记录的位置。例如,在包含姓名或社会保险号等敏感信息的医疗记录中,置换某些字段的值将有助于保护患者的隐私,同时保持所有其他记录的完整。对数据集中两个或多个个体之间的值进行置换不仅能够保留数据集的统计属性,还能保护个体的身份安全。
4.数据假名化(Pseudonymization)
这种技术被认为不如其他匿名化技术(如数据脱敏)有效,后者确保匿名数据集难以检索,在这种技术中,原始PII被替换为假标识符或假名,但保留了可以访问原始数据的特定标识符。因此,虚假标识符可能与个人的真实身份直接相关,也可能不直接相关。数据假名化通常用于任何业务分析或测试不需要敏感或个人数据,但需要掩盖个人身份的情况。例如,在医学研究中,根据伦理和强制立法,病人的身份可能需要模糊。但是,可能仍然需要某些形式的病人身份证明,以便将不同来源的医疗记录联系起来。
它可以与散列、加密或令牌化等方法结合使用。例如,将姓名或身份证号等数据转换为固定长度的字符串,称为散列或随机生成的令牌(随机字母数字代码),它是原始数据的唯一表示,但不能反向识别或显示原始数据。然后,该散列可以用作原始PII的假名。
5.差分隐私(Differential Privacy)
差分隐私(简称DP)是用来保护隐私的密码学技术,通过对查询的结果加入噪音,使得查询操作的实际结果隐藏起来或模糊化,直至无法区分,从而实现对敏感数据的保护。这种受控噪声不会显著影响对数据进行的任何分析结果的准确性;因此,它是一种基于扰动的匿名化的具体方法。添加到数据中的噪声量由一个称为隐私预算的参数决定
不过,无论您选择何种方法对组织中的数据进行匿名化处理,都仍可能会面临一些挑战。
数据匿名化的主要挑战
有效的匿名化可以起到很好的屏障作用,然而,实现有效的匿名化并不像想象的那么容易。以下是组织在匿名化数据时经常面临的关键挑战:
1.平衡隐私和实用性
在数据匿名化和数据效用之间取得平衡至关重要,但也极具挑战性。一方面,有效的匿名化过程对于保护客户、员工和其他用户的隐私至关重要。因此,能够从数据中完全清除PII的匿名化技术和工具对于维护个人隐私非常有益。
另一方面,企业收集和使用对研究、分析和决策有价值的数据也是至关重要的。事实上,完全匿名的数据可能会对业务毫无价值,这使得数据收集和处理失去了原有意义。
组织的最终目标是实现和维护最大程度的隐私保护,同时保持足够的数据准确性。实现这一目标可能需要对数据匿名化过程进行持续评估和优化。
2.防止重标识(re-identification)
除非您使用的是一劳永逸地删除个人身份信息的匿名化技术,否则始终存在匿名数据被用来追踪特定个人的风险。
恶意行为者利用大量攻击来重新识别个人,甚至重利用匿名数据。例如,如果他们设法访问包含财务信息的匿名数据集,然后将其与其他数据集(如选民登记数据库)结合起来,并最终执行重标识。
因此,组织必须确保所收集信息的隐私性。为加强对数据隐私的保护,可考虑将匿名化与其他数据安全方法结合使用。
3.遵守数据安全要求
各种数据保护法案定义了组织应该如何收集、存储和处理个人信息。其中一些法案建议使用匿名化技术,例如:
·通用数据保护条例(GDPR)——这是一项欧盟法规,它没有强制要求数据匿名化,但鼓励使用匿名化技术来保护数据以及其他保护措施。
·加州消费者隐私法案(CCPA)——美国法案,强制组织匿名收集数据,以提高数据的隐私性。它还要求各组织采取一切必要手段保持数据匿名化并防止重标识。
·个人信息保护和电子文档法案(PIPEDA)——加拿大的一部法律,要求组织保护个人信息,并将匿名化列为数据保护方法之一。每一项立法都明确规定,组织需要像对待个人数据一样对待匿名数据,并对其进行适当保护。
数据匿名化最佳实践
下述数据匿名化最佳实践可以帮助组织保护个人信息,同时保留数据的分析价值。
1.进行数据发现和分类
如果不知道数据集中存在什么PII,谈何匿名化数据。这就是为什么有必要识别收集和存储的数据中的所有直接和间接标识符,执行数据发现和分类可以帮助实现这一点。
数据发现旨在简化数据管理。它涉及到组织存储的所有数据的标识、数据类型以及不同数据资产之间的关系;另一方面,数据分类结合了基于数据属性和特征的分类和标记。通过将数据划分为不同的类别,数据分类使组织更容易实现针对各种类型数据的具体情况量身定制的安全措施。
实现这两个实践可以让组织准确地识别需要匿名化的敏感数据,并确保所有此类数据均受到保护。此外,组织还可以以此决定使用哪些匿名化技术,并选择能够处理需要匿名化的具体数据的技术。
2.优先处理数据用例
除非您确切地知道组织内的人员如何使用数据,否则您无法采取措施来保护数据。识别所有数据用例并对其进行优先级排序可以帮助您提高匿名化工作的效率。
考虑与组织内的数据使用者接触,以确定他们如何使用数据以及出于什么目的使用数据,它将帮助您揭示最常见的数据用例及其对您业务的重要性。然后,根据它们对数据隐私和业务价值构成的风险对这些用例进行优先排序。
有了数据用例的优先级列表,您将更容易决定应该首先匿名化哪些敏感信息,从而优化匿名化所需的资源和工作分配。
3.映射相关法律规定
虽然保持敏感个人信息的安全是匿名化的最终目标,但对您的业务来说,遵守数据保护要求也至关重要。映射适用于组织的法律、标准和法规是遵循法规的第一步。为了映射适用的法律要求,建议遵循以下步骤:
·确定适用于您的行业、位置和运营区域的要求;
·研究和理解要求;
·用您的团队能够理解的方式来解释要求;
·将要求集成到您的工作过程中;
·记录要求和既定的程序以满足这些要求;
·持续监控这些要求是否有任何更改,以及是否出现新的要求;
·定期更新文件,提高员工对合规措施的意识。
除了帮助您采用正确的措施来实现合规性之外,映射相关的法律要求还可以增强您的数据匿名化工作。
4.最小化数据收集
您可能认为收集的数据越多,您的分析就越准确,对您的业务也就越有利。然而,大量的数据收集可能是有害的。当您收集了太多数据时,您很少会使用所有数据,但您仍然需要分配资源来存储和保护未使用的数据资产。
最小化数据收集可以简化数据匿名化过程,降低数据安全风险。因此,只收集分析所必需的数据,避免收集未来可能永不会使用的数据。
5.评估当前的技术堆栈
如今,许多平台都默认内置了数据匿名化功能。但是,您仍然需要评估当前技术的功能是否足以正确地匿名化个人数据,防止重标识,并满足数据保护要求。
考虑分析当前技术栈的匿名化功能,以检查它们是否与您想要达到的匿名化水平相匹配。此外,检查它们是否能帮助您满足适用于您组织的数据保护要求。
此过程将帮助您确定当前的堆栈是否足以满足您的匿名化需求,以及是否存在需要通过部署其他数据匿名化工具来弥合的缺口。
6.提前为重标识做好准备
您的组织可能出于合法原因需要重标识以前匿名的数据。例如,您可能需要它进行数据分析、定制客户支持或安全事件调查,这就是最好事先考虑去匿名化过程的原因所在。为此,可考虑采取以下措施:
·验证您的匿名化技术是否支持重标识;
·定义并记录数据重标识的合法原因;
·制定关于重标识过程的指导方针,并指定可用于数据去匿名化的技术和工具;
·指定人员对重标识过程负责;
通过提前规划数据重标识,您可以减少违反数据隐私的可能性,同时确保在需要时可以访问数据。