美国智库报告强调大数据去身份识别的重要性
2014年6月16日,美国信息技术与创新基金会(ITIF)发布了一份题为《大数据与创新,以正视听:去身份识别发挥重要作用》的白皮书[1],指出:通过大数据分析可以创造巨大的经济与社会价值,但前提是要确保个人隐私得到维护,而去身份识别是最为有效的个人隐私保护方法之一。
一、去身份识别对大数据和创新中发挥着重要作用
对数据进行去身份识别是使数据能被第三方再利用的一种方式。为确保信息中的相关个人信息被真正消除,除了去除最直接的识别符(即能直接识别个人身份的变量)外,还需要去除准识别符,即那些虽不能直接确认个人身份,但具有高度相关性、可间接确认个人身份的变量。
在许多场合,均可以在对数据进行完整的去身份识别时,确保数据具备足够的质量供分析所用,即同时实现个人隐私保护与数据质量保留。一个经典的案例是美国遗产健康大奖赛(HHP),该大赛的目标是利用当年和之前的数据来预测患者来年的住院天数。这需要高质量的数据集,同时由于信息的敏感性,还需要保护个人的隐私。为同时满足隐私和数据质量要求,研究人员采取了先进的分步方案对数据进行了去身份识别:首先通过用不可撤销的假名替代直接标识符、移除数据集中不寻常的高值等基础技术对数据进行预处理;然后针对预处理后的数据集,评估其可能被攻击者再次进行身份鉴别的风险;最后,基于对各种可能攻击的分析结果,使用自动化算法来对数据集进行去身份识别。经过这一系列步骤后,攻击者要再次将去身份识别的数据进行身份鉴别,概率仅有0.0084。
二、身份再鉴别风险被过度夸大
虽然去身份识别的数据再次被确认身份的几率很小,但机构在进行去身份识别时,还是应该先进行风险评估,并考虑去身份识别技术与身份再鉴别技术目前的发展情况。决策者应为开发更强大的去身份识别工具、相关培训资料与最佳实践提供支持,使这些技术能被广泛采用。特别是应创建一种治理体制,帮助机构持续评估去身份识别数据库的整体质量,确保其发挥作用,并尽可能降低这些数据被再次确认身份的风险。
虽然仍有不少反对者声称,去身份识别的数据很容易再次被进行身份鉴别。然而,这不过是被过度夸大的担心。就保护个人信息而言,去身份识别目前仍然是一种有效且颇具价值的机制。而且,身份再鉴别技术的发展反过来亦会促进去身份识别技术的进步。 (张娟)
[1] Big Data and Innovation, Setting the Record Straight: De-identification Does Work. http://www.itif.org/pressrelease/protecting-data-innovation-and-privacy.