数字图书馆用户的行为偏好隐私保护框架
所属栏目:信息安全论文
发布时间:2018-05-18 13:39:59 更新时间:2019-06-12 15:30:48
吴宗大 谢 坚 郑城仁 周志峰 陈恩红
摘 要 针对新兴网络环境下数字图书馆用户的行为偏好隐私保护问题,设计实现了一个有效的方法框架 该方法框架的基本思想是:通过在可信客户端精心构造一系列“真假难辨 ”的伪行为 ,连同用户真行为一起,提交给不可信服务器端,“以假乱真 ”掩盖用户行 为蕴含的敏感偏好。评估实验验证了该方法框架的有效性,即能在不损害数字图书馆服务的实用性、准确性和高效性的前提下,确保用户行为偏好隐私在不可信数字图书馆服务器端的安全性。该工作是针对数字图书馆用户行为偏好隐私保护问题的首次研究尝试.对搭建新 网络环境下用户隐
私安全的数字图书馆平台具有重要意义。
关键词 数字图书馆 行为偏好 隐私保护
本文系国家社会科学基金青年项目“数字图书馆用户的‘行为偏好隐私’保护方法研究”(编号:17CTQO11)的研究成果之一。
0 引言
随着云计算等新兴网络信息技术的迅速发 展。数字图书馆的应用领域得到不断延伸,已成 为人们日常生活的重要组成部分。然而,在给 用户带来巨大便利的同时,数字图书馆正变得越来越“不可信 ”,从而 引发数字图书馆用户对 个人隐私安全的极度担忧[1-2]。用户隐私安全 问题已成为制约数字图书馆发展与应用的主要 障碍之一 3 ]。数字图书馆的用户隐私主要表现在以下两个方面 ]:①个人资料隐私,包括身 份标识隐私 (如身 份证 )和背景资料隐私 (如职 业);②行为偏好隐私,即使用图书馆服务时(如图书浏览服务、检索服务、推荐服务等),用户行为(服务请求 )背后所蕴含的兴趣偏好隐私 (如 图书浏览行为蕴含用户偏好的图书类别 )[6-7]。 其中。资料隐私安全问题可通过数据加密技术较好地解决.即将用户资料加密后再存放到数字图书馆服务器中。这样即使它们不幸泄露,也 难以被读懂 ]。然而,加密方法并不适用用户 行为偏好隐私.因为图书馆服务需要服务器支持,如果加密用户行为会使得服务器因无法“读懂”用户服务请求 ,而使得服务无法进行或有效完成 _】“j。为此,如何有效保护数字图书馆用 户的行为偏好隐私安全,已成为一个至关重要 的问题。
早期.图书馆 领域的学者更多从法律角度 研究图书馆用户隐私保护问题 ’ 。虽然制 定隐私权相关的法律能在一定程度上保护用户隐私.但是并 不能从根本上解决该问题,它更多地需要采用隐私保护技术来解决 ]。近年来 ,学者尝试从技术角度研究该问题 [5 】.但已有方法还不够深入且缺乏系统,并且它们更多针对 资料隐私,没有关注行为隐私。此外,针对不可信网络环境下的用户隐私安全问题,信息科学 领域学者已给出了许多有效方法,代表性的有 隐私加密技术、掩盖变换技术和匿名化技术。 以下简要介绍这些方法的技术特点.并 分析在 数字图书馆中的应用局限性。①隐私加密技术 是指通过加密变换,使得用户行为对服务器端不可见,以达到隐私保护的目的,代表性的有隐 私信息检索技术[15-17]。该类技术不仅要求额外硬件和复杂算法的支持.且要求改变服务器端的服务算法,从而引起整个平台架构的改变,降低了方法在数字图书馆中的可用性。②敏感数 据掩盖技术是指通过伪造数据或者使用一般化 数据来掩盖涉及用户敏感偏好的行为数 据 _l 。由于改写了用户行为数据,该类方法对服务的准确性会造成一定负面影响.即其 隐私保护需以牺牲服务质量为代价,难以满足数字图 书馆的应用需求。③匿名化技术是用户隐私保 护中广泛使用的一种技术。它通过隐藏或伪装用 户身份标识,允许用户以不暴露身份的方式使用 系统 2 。然而,匿名化隐私保护技术也受到了许多质疑。Josyula等 l2 和 Narayanan等 [ 分析 了匿名化技术对隐私保护的不足.并给出实验 证明。结果表明,通过匿名化技术收集的用户数据往往难以保证质量。更重要的是,数字图书馆一般要求用户必须实名登录后才能使用各项服务,所以。匿名化隐私保护技术难以有效地 应用于数字图书馆。
综上所述。已有用户隐私保护技术并不是 针对数字图书馆提出的,在实用性、准确性、安全性等方面仍无法满足数字图书馆的实际应用需求。理想的数字图书馆行为偏好隐私保护方 法需要满足以下几个方面的要求:①确保用户行为隐私在不可信服务器端的安全性:②确保 服务结果的准确性.即对 比引入隐私保护方法 的前后。用户获得的最终服务结果一致;③不损害数字图书馆信息服务的实用性,即隐私保护 方法不改变服务器端的服务算法,不需要额外硬件支持,也不会对用户服务的使用效率产生 显著影响。为此,本文的研究目标是:针对数字图书馆用户的各类行为,构建统一的行为偏好 隐私保护框架模型,有效突破已有隐私保护技 术在数字图书馆中的应用局限性,能在不改变现有数字图书馆平台架构、不改变现有图书服务算法、不改变图书服务准确性、基本不改变服务效率的前提下,确保各类用户行为偏好隐私 在不可信服务器端的安全性。本文是针对数字 图书馆用户行为偏好隐私保护的首次研究尝试,对构建新网络时代用户隐私安全的数字图书馆环境具有积极意义。
1 系统框架
数字图书馆提供的信息服务包括:图书浏 览服务、检索服务、阅读服务、推荐服务等。在 使用这些服务时.用户 首先在客户端发起服务请求,服务器根据请求携带的数据.为 用户提供相应图书服务。在数字图书馆中,服务器端是不可信的,它是攻击者的主要目标。因此,基于 用户服务请求,不可信服务器可以分析出用户的兴趣偏好,从而导致用户行为隐私泄露。图 1 结合一个具体的图书浏览服务实例(即用户浏 览“犯罪心理 ”相关 图书 )。展示了本文采用的用户行为偏好隐私保护基本架构。
2 隐私模型
基于前文系统框架,本小节定义一个面向数字图书馆用户的行为偏好隐私保护模型。据 前文分析可知,理想的伪行为序列应 “真假难 辨”(即与用户行为序列特征相似 ),能 “以假 乱真”,掩盖用户敏感图书偏好 (即能 有效降低敏 感偏好在不可信服务器端的暴露程度)。
3 算法设计
基于第2小节给 出的数字图书馆用户行为 偏好隐私模型,本节讨论模型算法实现,以生成满足模型约束(定义3.11)的伪图书服务请求序列。可以看出.第2小节的隐私模型是以图书行 为序列为研究单位。然而,由于数字图书馆用 户的行为序列是随时间动态增长的,算法难以次性为用户行为序列构造生成完整的伪行为 序列,为此,本节的实现算法将以单个行为为基 本处理单位(即算法输入),即当用户在可信客 户端发起一个当前图书服务请求时。隐私算法将结合客户端保存的历史图书行为序列(包括行为序列的内容,为此,算法采用 “贪婪策略” (即在为用户当前图书服务请求构造伪请求时,只考虑当前构造的伪请求是否满足隐私模型的条件约束.而不考虑后续图书服务请求的伪造问题).但要求最终生成的伪行为序列能很好地 满足定义 3.11的条件约束 。算法 1描述 了我们采用的算法基本实现方案。
4 实验评估
本小节旨在验证前述图书行为偏好隐私保护模型的有效性。数字图书馆为读者提供的信息服务形式多样。为了简化实验设计,这里只考虑相对简单的图书浏览服务和图书阅读服务。这种做法是为了更好地保证算法的安全性(具 为了获得实验数据,我们收集了温州大学图书馆 100名读者近年来的图书服务记录,并为每位读 者精心挑选了 1000条浏览记录和1000条 阅读记 录(即用户行为序列长度为 2000,由相同长度的阅读行为子序列和浏览行为子序列构成)。
前文给 的仅是一个针对图书馆用户的行为偏好隐私保护框架模型,其实际运行还依赖于行为偏好相关度、行为分布特征、行为连续特征和行为关联特征等函数的准确实现。为此,需要研究在仅考虑图书浏览行为和阅读行为 时,上述四类函数的具体实现方法。笔者注意 到用户的一条图书浏览或阅读记录 (即 浏览行 为或阅读行为)通常对应着一本具体图书.为此,借助于用户行为蕴含的具体图书信息,可构 建上述四类函数。为了构建行为偏好相关度函数 (定 义 3.1),挑选 “中图法 图书分类目录”中处于次顶层的图书目录 (如 B0哲学 理论、B1世界哲学、DO政治理论等 )组建行为偏好空间 ,然后。以图书分类目录为中间媒介构建行为偏好 相关度函数 (行 为对应图书.偏 好对应图书目录)。对于行为分布特征函数 (定 义 3.4),主要 考虑了图书长度、文体、价格、语言等基本特征 对于行为连续特征函数 (定 义 3.6)和关联特征函数 (定义 3.8),主要考虑了行为频度和偏好频 度两类特征。表 1给 出了这些函数的实现方法。
表 1 图书行为函数的具体实现方法
4.2 实验结果
实验一旨在评估本文方法所产生的伪行为 对用户敏感偏好的掩盖效果。这里使用“偏好 暴露度”(参考定义 3.3构建 ),以度量敏感偏好关于行为序列集 A,.{ 。,A 一, }的暴 露 度,即 max P (exp(P ,A0)/exp(P ,A ))。显然,度量值越小越好,因为它意味着攻击者越难从行为序列集A 中直接猜测用户敏感图书偏好。该度量主要取决于敏感偏好数量和构造的 伪行为序列数量。实验中,行为序列长度固定 为 2000。实验评估结果 如罔 3所示 ,其中,子图左下角指示预先设定的用户敏感偏好数量 (M= 1、M=3和 M=5)。从图 3可以看出,本文方法生成的伪行为序列能有效地改善敏感偏好的暴 露程度,并且这种改善效果基本上与伪行为序 列数量正相关.不会 随着敏感偏好数量的改变而明显改变。相比于本文方法,随机方法生成 的伪行为虽然也能在一定程度上降低敏感偏好的暴露程度,但稳定性较差(即不与伪行为序列数量正相关),并且其效果会随着敏感偏好数量的增加而变差。后续实验也表明:随机方法所生成的伪行为序列与用户真实行为序列的特征相似性很差,使得它们容易被攻击者排除,难以有效地保护用户敏感偏好。
5 分析讨论
虽然攻击者掌握着丰富的背景 知识.但还是难以从服务端所记录的历史图书服务请求记录中识别出用户真实图书服务请求 或者用户敏感个人图书偏好,因而本文方法具有较好的隐私安全性。结合前言和第 1小节的内容可知:在安全性、准确性、高效性和可用性 上,相比于已有方法,本文方法拥有更好的综合性能,能在不改变现有数字图书馆平台架构、不改变现有图书服务算法、不改变图书服务准确 性、基本不改变图书服务效率的前提下,确保各类用户行为偏好隐私在不可信服务器端的安全性。
6 总结展望
本文提出了一个数字图书馆用户行为偏好 隐私保护框架模型。该框架模型采用基于客户 端的体系架构.通 过在可信客户端为用户图书 服务请求(即用户行为)精心构造一系列“真假 难辨”的伪行为,“以假乱真”掩盖用户行为背后 蕴含的敏感偏好。通过理论分析和评估实验, 验证了该方法的有效性,即能在不损害数字图书馆服务的实用性、准确性和高效性的前提下, 确保用户行为偏好隐私在不可信服务器端的安 全性。然而,这项工作仍存在一些问题需要进 一 步研究改进。一、本文仅描述了一个较抽象 的用户行为隐私保护框架模型。数字图书馆用 户行为形式多样 (如 图书推荐行为、检索行为 等),如何在模型框架下为各类用户行为设计实 现相应的隐私保护算法还有待进一步深入研 究。二、本文没有讨论数字图书馆用户行为隐 私保护软件的具体设计实现问题。数字图书馆的用户终端界面形式多样 (如 移动应用终端、浏 览器终端等),如何实现隐私保护软件与用户终端的无缝对接还有待进一步研究。
参考文献
『1] 易红,任竞.图书馆大数据服务环境下用户隐私泄露容忍度的实证研究 [J].图书馆论坛 ,2016,36(4):
57—64.(YiHong,Ren Jing.Empircalstudy on libraryusers’privacyleakagetoleranceunderthebackground of
librarybigdataservice[J].LibraryTribune,2016,36(4):57—64.)
『2] 彭华杰.大数据 时代图书馆读者的隐私危机与隐私保护 [J].图书馆 工作与研究,2014,1(12):56—59.
fPengHuajie.Theprivacycrisisandprotectionoflibraryreadersinthebigdataera[J].LibraryWorkandStudy,
2014,1(12):56—59.)
『3] 马晓亭,陈臣.基于大数据生命周期理论的读者隐私风险管理与保护框架构建 [J].图书馆 ,2016(128):
62—66.(MaXiaoting.Chen Chen.Construction oftheprivacy iskr managementand protectionframework forli—
braryreadersbasedonbigdatalifecycletheory[J].Library,2016(128):62—66.)
[4] 宛玲,霍艳花,马守军.英 国大学图书馆网站个人信息保护政策文本分析及启示 [J].图书 情报工作,2016,60(12):62-68.(Wan Ling,HuoYanhua,MaShoujun.Textanalysisofpersonalinformation protection policiesoftenBritishuniversitylibrary websitesanditsenlightenment[J].Library andInformationService,2016,6O(12):62—68.)
[5] HartZ,HuangS,LiH,eta1.Riskassessmentofdigitallibraryinformationsecurity:acasestudy[JJ_TheElec— tronic Library,2016,34(3):471—487.
[6] 邵志毅,杨波,梁启凡.云计算 中数字图书馆外包数据的完整性检测 [J].图书馆论 坛,2014(12):98— 103.(ShaoZhiyi,Yang Bo,Liang Qifan.Integrityverification ofoutsourceddigital resourcesincloud computing [J].Library Tribune,2014(12):98—103.)
[7] 王碧琴,任洁,冯彦平,等.数字图书馆用户信息隐私的安全威胁分析 [J].图书馆学研 究,2015(1O):34—36.(WangBiqin,RenJie,FengYanping,eta1.Analysison thesafetythreatofuser'sinformation privacyin digitallibrary[J].ResearchonLibraryScience,2015(10):34—36.)
[8] WuZ,XuG,ZongY,eta1.ExecutingSQLqueriesoverencryptedcharacterstringsinthedatabase—as—service model[J].Knowledge—BasedSystems,2012(35):332—348.
[9] WuZ,XuG,LuC,et1a.AnefectiveapproachorftheprotectionofprivacytextdataintheCloudDB[J/OL].
WorldWideWeb[2017—08一O1].htps://link.springer.com/article/10.1007/sI1280—017—0491—8.
[1O] wuz,shiJ,LuC,et1a.Constructingplausibleinnocuouspseudoqueriestoprotectuserqueryintention[J].
Information Sciences,2015(325):215—226.
[11] wuz,LiG,LiuQ,eta1.Coveringthesensitivesubjectstoprotectpersonalprivacyinpersonalizedrecommenda。
tionfJ/OL].IEEE Transactions on Services Computing[2016—10—08].http://ieeexplore.ieee.or#
document/7486070.
[12] 李东来,蔡冰,蒋永福,等.以制度保障公共图书馆的读者权益[J].中国图书馆学报,2010,36(4):l7—
23.(LiDonglai,Caibing,JiangYongfu,eta1.Protectreader'sightsrand interestsin publiclibrarybyrulesand regulations[J].JournalofLibrary ScienceinChina,2010,36(4):17—23.)
[13] 王琼,曹冉.英 国高校科研数据保存政策调查与分析 [J].中 国图书馆学报,2016,42(5):102—115.fWangQiong.CaoRan.InvestigationandanalysisofthedatapreservationpolicyinBritishuniversities[J].Jour。 nalofLibrary Sciencein China,2016,42(5):102—115.)
[14] 张雪梅,张艳芳,张阳.图书馆读者隐私权的侵权表现与法律保护 [J].情 报科学,2012(6):839—842.
(ZhangXuemei,ZhangYanfang,ZhangYang.Tortperformance andlegalprotection on readerprivacyoflibrary
[J].InformationScience,2012(6):839-842.)
f15] MouratidisK,Yiu M.Shortestpathcomputationwithnoinformation leakage[J].VLDB Endowment,2012,
5(8):692—703.
[16] Khoshgozaran A H ,Shirani—MehrC.Blind evaluation oflocation based queriesusing space transformation to pre—
servelocationprivacy~J].Geoinformatica,2013(4):599—634.
[17] 田丰,桂小林,张学军,等.基于兴趣点分布的外包空间数据隐私保护方法 [J].计算机学报 ,2014(37):
123—138.(Tian Feng,GuiXiaolin,ZhangXuejun,eta1.Privacy—preservingapproachforoutsourced spatial data basedonPOIdistribution[J].ChineseJournalofComputers,2014(37):123—138.)
[18] ZhangF,LeeVE,JinR.k-CoRating:filingupdatatoobtainprivacyandutility[C]//Proceedingsofthe20th
AAAIConference on ArtificialIntelligence,2014:320—327.
[19] XuY,WangK,ZhangB.Privacy—enhancingpersonalizedWebsearch[C]//Proceedingsofthe16thInternational
Conference on W orld W ide W eb,2007:591—600.
f20] ChenG,HeB,ShouL,eta1.UPS:eficientprivacyprotectioninpersonalizedWebsearch[C]//Proceedingsof
the 34th international ACM SIGIR conference on Research and development in Information Retrieval,2011:
615—624.
[21] ShouL,BaiH,ChenK,et1a.SupportingprivacyprotectioninpersonalizedWebsearch[J].IEEETransactions onKnowledgeandDataEngineering,2014,26(2):453—467.
f22] NarayananA,Shmatikov V.Robustde—anonymization oflarge sparsedatasets[C]//ProceedingsoftheIEEE
Symposium on Security& Privacy,2008:111—125.
[23] Juan V,JosepP,JuanH S.DocCloud:adocumentrecommendersystem oncloud computingwithplausibledeni-
ability[J].InformationSciences,2014,258(10):387—402.
[24] Shang S,HuiY , Hui P,et 1a.Beyond personalization and anonymity:towards a group—based recommender
system[C]//Proceedingsofthe29thAnnualACM Symposium onAppliedComputing,2014:266—273.
[25] JosyulaR R,PankajR.Canpseudonymityreallyguaranteeprivacy?[C]//ProceedingsoftheUSENIX Security
文章TAG标签:图书馆论文
月期刊平台服务过的文章录用时间为1-3个月,依据20年经验,经月期刊专家预审通过后的文章,投稿通过率100%以上!