导航菜单
首页 > 管理学论文 > 情报论文 » 正文

基于PPDM的智慧图书馆用户隐私数据保护研究

陆康 刘慧 任贝贝 杜健




摘  要:[目的/意义]数字图书馆逐渐向智慧图书馆转变。图书馆数据的收集、分析等数据使用行为不断被实践,并对业务管理与服务创新做出一定的贡献。然而,涉及用户隐私敏感数据的使用可能会带来安全方面的问题。[方法/过程]本文在分析传统的图书馆数据挖掘方法基础上,尝试引用PPDM(Privacy-Preserving Data Mining)的数据泛化、清洗、屏蔽、扭曲等方法,将数据挖掘与业务需求相融合,并以用户数据规范化使用为目标,探索智慧服务背景下用户隐私保护机制,构建业务实施与数据保护融合的可行性方案。[结果/结论]智慧图书馆数据收集、数据发布、数据共享、数据汇聚都可以借鉴PPDM方法对用户隐私数据加以保护。智慧图书馆只有紧密联系技术创新才能够保障服务创新,从而促进智慧图书馆事业的发展。

关键词:PPDM;智慧图书馆;用户数据;隐私保护;数据挖掘

DOI:10.3969/j.issn.1008-0821.2020.10.010

〔中图分类号〕G2520  〔文献标识码〕A  〔文章编号〕1008-0821(2020)10-0093-11

Research on User Privacy Data Protection of Smart Library Based on PPDM

Lu Kang1  Liu Hui1  Ren Beibei2  Du Jian1

(1.Nanjing Xiaozhuang University,Nanjing 211171,China;

2.Shanghai Institute ForIntegrated Application of Network Technology,Shanghai 200336,China)

Abstract:[Purpose/Significance]Digital libraries are also gradually transforming into smart libraries.The collection,analysis and other data usage behaviors of library data are constantly practiced,and make certain contributions to business management and service innovation.However,the use of sensitive data involving user privacy can raise security concerns.[Method/Process]Based on the analysis of data mining method based on the traditional library,try reference PPDM(privacy preserving data mining),the method of data generalization,cleaning,shielding,distortion,etc,and the integration of business requirements,data mining and the user data is standardized as the goal,to explore the smart service under the background of user privacy protection mechanism,build business implementation and data protection,the feasibility of integration solutions.[Pesult/Conclusion]The PPDM method can be used for data collection,data release,data sharing and data aggregation in a smart library to protect user privacy data.Only by closely connecting with technological innovation can smart libraries guarantee service innovation and thus promote the development of smart libraries.

Key words:privacy-preserving data mining;smart library;user data;privacy protection;data mining

智慧圖书馆概念提出至今[1],互联网智能技术支持书书互联、书人相联以及人人相联等[2],系统之间的关联构成了智慧图书馆数据汇聚的基础。在当今互联网社会高速发展的时代,无处不在的计算机设备产生大量的数据。互联网社会的数据分析有利于医疗卫生、金融银行、商业经济、交通运输以及网络安全等领域服务效率的提升。然而,数据源自于主体产生,数据主体大部分与公民相关,即收集的数据可能涉及个人的敏感信息。随着“棱镜门”等隐私泄露事件不断被媒体披露,人们对个人数据隐私问题的关注也逐渐提高。虽然个人层面隐私的概念没有明确的标准[3],而隐私权的概念在1948年提出[4],并且被公认为一项权利,但是仅限于个人方面。《中华人民共和国网络安全法》、GDPR(General Data Protection Regulation)等互联网法律法规先后被相关政府机构颁布实施,为用户数据隐私与互联网安全提供了执行标准,也为机构组织数据使用规则的制定提供了依据。隐私权—阅读、思考和发展思想和信仰的权利,不受政府或其他人的观察或不必要的监视—是知识自由的基石。它是行使言论自由、思想自由和结社自由的必要条件[5]。自从数字图书馆起,图书馆就依靠互联网技术实现服务创新。随着互联网社会中智慧服务概念的提出,“智慧城市”“智慧医疗”“智慧交通”等概念应运而生。互联网中的“智慧”主要依托数据。数据敏感性问题直接关系到用户的隐私。例如,静态数据方面:用户的个人身份信息等;动态数据方面:用户的互联网访问行为等。数据蕴含着价值,其中之一就是用户的核心信息与互联网行为,这也恰恰是图书馆想要获取的数据之一。人类在享受互联网技术成果的同时也逐渐意识到互联网社会其实也是一个充满悖论的空间。互联网技术应用的双重性以及产生的伦理问题越来越引起人们的反思[6]。所以,在互联网技术创新的背景下,如何将用户隐私保护与数据价值获取做到有效平衡,这也是图书馆开展智慧服务的关键。

1  图书馆隐私的文献回顾

互联网社会形成后,计算机系统产生大量的数据,数据被称为是重要的资源之一。互联网服务于人类社会,互联网数据与人类活动存在着重要的关联,也因此产生了数据隐私等问题。在世界范围内,“隐私”概念与范围的界定尚未形成统一的标准。1948年的《世界人权宣言》中对隐私权的定义,仅局限于家庭以及与家庭相关的信息交流。隐私范围的界定也是比较困难[7-8]。隐私可以分为:信息、主体(个人)、交流(通信)以及范围(领域、领土)等[9]。其中信息包括用户个人数据的收集与使用。主体容易因隐私泄露而受到伤害。交流则指任何形式的通信。范围则指所涉及的物理与虚拟的边界。信息在可控的传播范围内,Westin A F隐私的定义为:个人、机构或者团体为主体决定在时间和方式上以何种程度传达有关主体的信息,其中主体与隐私之间存在着“映射关系”[10]。这是从控制信息处理权利的角度定义的。Bertino E等从数据控制者角度做了相关定义[11],同时指明了隐私受到侵犯的风险。信息共享与数据汇聚产生了大量的互联网资源,数据流动让数据价值得以体现。图书馆数据开放与共享属于必然的趋势[12]。图书馆的精准化、个性化、智能化的服务成为智慧图书馆主要特征[13]。精准化、个性化与智能化的服务也需要通过数据来“感知”用户的需求。智慧图书馆的“感知”只能通过收集、分析用户数据来实现。用户的数据是用户互联网行为“痕迹”。数据隐私保护的传统解决方法一般通过修改原始数据来保护个人信息行为,隐藏“痕迹”,然而数据修改破坏了数据完整性,降低了数据价值维度,导致数据分析、挖掘等数据使用得到不准确的结论,该类数据无法满足精细化、个性化与智能化的智慧服务需求。IBM Almaden研究中心的Agrawal领导的研究小组,在2000年的ACM SIGMOD会议上首次提出了“隐私保护数据挖掘(Privacy-Preserving Data Mining,PPDM)”的概念[14]。PPDM主要考虑两个方面的问题:1)为了保证数据的控制者、处理者不威胁到数据主体(用户)的隐私,原始数据的敏感信息(姓名、身份证号、性别、Email、家庭住址、单位地址等标识符)被修改或者清洗掉。2)在数据挖掘过程中获取的敏感信息、知识也应该被剔除。PPDM主要是从挖掘算法层面对原始数据进行修改,从而让数据在挖掘前后都保持隐私状态[15]。PPDM主要是干扰、加密与匿名化等方法[16]。在大数据资源价值的背景下,PPDM最大化保护数据挖掘隐私,保障数据的实用性与价值性,为图书馆等领域的智慧服务提供技术支持。PPDM针对传统隐私保护技术不再适用大数据价值挖掘而逐渐被学者们关注。PPDM的多场景、多样化的模拟环境被开发、应用。有些则侧重于衡量与比较这些技术在隐私保护的级别、数据完整性与复杂性标准方面。PPDM不仅可以用来从数据中提取知识,同时注重数据隐私的保护,包括数据转换技术方案,平衡数据挖掘与数据隐私效用,以及分布式隐私技术,用于不披露本地信息而从分布式数据中挖掘宏观信息。大数据的非结构性特点增加了挖掘与分析的复杂度,数据隐私的关注与保护,使得原本复杂的应用体系变得扑朔迷离,PPDM为智慧服务提供了合理化、规范化使用数据的方案,也为智慧图书馆的发展奠定了基础。

2  传统的数据挖掘与隐私保护方法

沃伦和布兰代斯完全不能想象的科技,那些我们在相对较短的时间之前无法想象的科技,它们给信息隐私带来了前所未有的风险[17]。互联网的技术创新赋予决策新的理念与场景。决策是人们为了实现某一预设的目标,在拥有一定的信息与知识的基础上,根据主、客观条件的可能性,提出各种可行的方案,采用一定的科学方法,对所需解决的问题方案进行比较、分析与评价,并最终进行方案选择的全过程[18]。数据支持决策的过程,取决于互联网技术工具的保障,例如AI(人工智能)、机器学习、数理统计、数据仓储、模式识别以及可视化技术等。其中部分工具的组合使用可以实现对数据的自动化分析、归纳、推理,从中提炼出潜在的动态、模式,帮助决策者调整业务策略,达到提高运营效率的目的,这属于数据价值“提炼”的过程。数据的使用从传统的数值统计分析等显性使用到运用关联分析工具进行数据挖掘分析的逐步深入發掘数据的潜在价值,提高数据的使用效率。数据挖掘也成为大数据领域数据价值提炼的重要方法。而深度使用数据导致的一些问题,也让图书馆等以互联网为载体的服务机构有所担忧。随着对数据伦理、数据隐私、数据安全以及数据主体(用户),数据控制者(机构、组织)以及数据处理者(业务实施)三者权利与义务问题探讨的逐渐深入,数据研究从传统技术方法向人文应用方面的转变,实现技术保障、人文规范的融合模式。而数据挖掘方法的应用不断嵌入场景需求,使得应用越来越贴近实际需求。

21  图书馆等领域常用数据挖掘与保护方法

传感器、业务计算机等工具系统不断收集大量的数据。电子商务、公共服务等领域可以从数据中提取价值、信息、知识而受益。数据KDD中的知识发现与数据挖掘两种术语模糊不清。KDD的过程是由数据清洗、数据集成、数据筛选、数据转化、数据挖掘、模型评估、知识展现构成。其中数据挖掘则是以大数据集合的提取知识并展示与解释这些知识的过程。电子商务、公共服务领域的数据挖掘方法主要分为分类归并(聚类分析)、关联规则挖掘和分类组成。

211  数据的聚类分析(分类归并)

聚类分析也可称为分类归并,是根据研究对象(样品或者指标等)的特征,对其进行分类的方法,以降低研究对象的数目。其中该类对象(事物)缺乏可信的文献资源,无法判断其类别数量,而聚类的目的就是将相似特征的事物归纳到一类中。事物特征之间存在着一定的关联性。所以,聚类分析是以未知事物为研究对象,对具有相同特征(同质)的事物进行统计分析的方法。大数据世界的事物具有不确定性,聚类分析的方法能够帮助人类发现其中的规律,进一步提炼数据价值。聚类方法由于对象与需求的不同,也分为层次聚类与非层次聚类两大类方法。传统聚类能够解决低维度数据的聚类问题,但是大数据发展至今,数据的异构性、非结构化等多样性,使得传统聚类方法不能有效解决大数据价值的“提炼”问题。高维度的聚类分析已经成为大数据价值提炼的重要研究方向。物联网、人工智能等运用多样化的传感器工具,使得数据的收集变得越来越容易与及时,这也导致数据存储从传统的“数据库”向“数据池”“数据湖”乃至“数据海”转变,低维度的数据聚类分析已经不能够满足实际应用的需要,而高维度的数据聚类在市场调研分析、信息数据安全、金融趋势分析以及国家安全领域均有广泛的应用前景。

212  数据的关联规则挖掘

关联分析又称为关联挖掘,即以目标数据中的信息为载体,找出其中存在的项目集合或者对象集合之间的频繁模式(关系)、关联以及相关性与因果结构,通俗来说,就是分析目标对象之间存在的一切联系。该类规则的表示形式一般为:if(条件)、then(结果)。规律的发现,存在着一定的概率,即存在前提条件下,结果发生的概率。Apriori算法、FP-growth算法等是常用的关联分析方法。关联分析从大量数据中发现项集之间存在的关联与相关联系。在电子商务领域中,“购物篮分析”就是发现用户在放入购物篮中商品之间的联系,从中分析用户的购物习性。通过对用户的购物行为的分析,可以从中帮助电子商务机构制定个性化的营销策略,以提高商品的销售率。图书馆也是如此。图书馆管理系统可以通过用户借阅的纸质图书,以及使用的数字资源信息,分析用户的图书馆资源使用行为,可以帮助图书馆在学科的精准服务中提高资源的推送效率,从而提升图书馆资源服务的“智慧”性。机构、组织可以通过用户使用互联网的行为中发现其规律,运用关联分析等方法,挖掘用户需求、偏好,从而进行资源的推送,达到提升服务效率的目的。关联分析可以分为关联规则挖掘、关联规则分类。关联规则挖掘是为了寻找数据集合中变量之间的关系,而关联规则分类则是一种监督学习问题,其目的是创建一个模型,在一定的条件下,可以识别未知数据并进行分类、标签。关联分析也是一种探索未知数据的方式,随着数据集的增大,其分析模型结构也逐渐向适应海量数据环境进化。

收藏此文 赞一个 ( ) 打赏本站

如果本文对您有所帮助请打赏本站

  • 打赏方法如下:
  • 支付宝打赏
    支付宝扫描打赏
    微信打赏
    微信扫描打赏
留言与评论(共有 0 条评论)
   
验证码:
二维码