试析面向大数据的个性化检索中的用户匿名化策略

来源 :电子世界 | 被引量 : 0次 | 上传用户:bhwbx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】本文首先概括介绍了个性化检索,并在此基础上对面向大数据的个性化检索中的用户匿名化策略进行论述。期望通过本文的研究能够对确保用户隐私的安全性有所帮助。
  【关键词】数据;模型;匿名化;个性化检索
  在信息化时代的背景下,数据的重要性日益凸显,数据量也不断增大,想要从海量的数据当中获得有价值的信息,便需要借助相应的技术,个性化检索技术随之应运而生。随着业内专家学者对该技术的研究逐步深入,也取得了一定的成果,为人们的生产、生活带来了极大的便利。为了使个性化检索的应用更加广泛,必须对其中的用户隐私保护问题予以重视。借此本文就面向大数据的个性化检索中的用户匿名化策略进行浅谈。
  一、个性化检索概述
  在个性化检索中,个性化是这种检索服务最为突出的特点之一,而实现个性化的前提条件是需要获取大量与用户爱好、兴趣等有关的数据。在搜集用户的爱好及兴趣时,较为常用的方法有两种,隐式和显式,其中显式的搜集方法就是用户通过手动的方式选择自己感兴趣和喜好的数据,互联网上两大主流搜索引擎谷歌和雅虎的个性化检索也要求用户显式参与,以便更多地搜集与用户兴趣和爱好相关的数据信息;而隐式的搜集方法则是从用户历史检索记录、网页点击情况及历史访问记录等进行相关数据提取。显式搜集最为显著的优点是所获取到的信息准确性较高,但从用户的角度上讲,这个过程既繁琐且漫长,所以想要很好地完成有一定难度,而隐式的搜集方式虽然能够进一步减轻用户的负担,但却并不能确保所获取信息的完整性及准确性。鉴于此,可将这两种搜集方式进行有机结合,充分发挥出各自的优势,这样便可以达到理想中了的效果。
  在搜集到与用户爱好、兴趣相关的数据信息之后,需要将这些数据以某种特定的形式来表示和存储,比较常用的一种方式为UP,即用户兴趣模型,描述该模型最为常用的方法为基于权重向量,除此之外,本体论方法的使用也相对较多,该方法主要描述的是概念之间的关系,它对个性化检索的帮助较大。在本体论方法中,基于ODP目录的方式应用比较广泛,这是目前全球最大的分类层次结构,绝大多数研究者都对其青睐有加,该方法不但考虑到了用户爱好、兴趣的长期性这一特点,而且还可以对用户兴趣模型进行更新。需要阐明的一点是,这种方法的本质属于图的结构,并不能对概念的层次关系进行表示。
  由于个性化检索存在泄漏用户隐私的可能性,这在一定程度上给用户带来了困扰,也对个性化检索的应用与发展造成了影响。鉴于此,必须采取有效的技术措施确保用户隐私的安全性。
  二、面向大数据的个性化检索中的用户匿名化策略
  在个性化检索中,链接攻击是造成用户隐私泄漏的主要原因之一,而匿名化限制发布则是解决这一问题的重要技术。由上文的分析可知,用户兴趣模型是个性化检索中的关键之所在,为此,下面本文重点针对用户兴趣模型的匿名化展开研究。
  所谓用户兴趣模型的匿名化主要是指按照用户兴趣模型间的相似性,将之聚类成为等价用户组兴趣模型,并在这一基础之上,对用户兴趣模型的权值进行重新计算,由此便可以实现根据背景知识无法确定用户的目的,即保护用户的隐私。
  (一)模型的预处理
  在对用户兴趣模型进行匿名化的过程中,需要借助不同用户兴趣条目的相似性,但由于此类条目具有随意性的特点,所以即便两个用户的的兴趣条目完全相同,也很难从中发现不同词法表示出来的语义上的相似。为了能够对兴趣条目语义上的相似性进行比较,便需要对即将进行匿名化的兴趣模型加以处理。在这一过程中,有必要引入以下两个概念:即同义词集合与上位词。前者具体是指包含该词在内的所有同义词的集合;后者则是指概念上外延至更加广泛的主题词。所谓的预处理实质上就是将用户兴趣模型当中所涉及的每个兴趣条目用相应的同义词集合加以代替,在此基础上进行上位词集合扩展,随后添加同义词集合的上位词集合,其权重与同义词的权重相同。为了便于同义词集合与上位词的获取,可以引入同义词词林。表1为用户兴趣模型集,表2为预处理结果。
  表1 用户兴趣模型集
  表2 预处理结果
  按照用户兴趣模型当中所涉及的兴趣条目的同义词集合与上位词,可以使模型相似性的计算更为准确。通常情况下,当用户提交某个查询后搜索引擎返回的结果不满意,此时用户便可能会用词义相近的词来进行代替,并重新进行查询。经过预处理之后,模型中表示出来的为不同用户模型在语义上的相似性,由此可以使匿名化的变得更加合理可行。
  (二)匿名化算法的设计与实现
  1.匿名化过程。可以将用户的兴趣模型聚类为簇,并用簇质心的来表示每个用户的兴趣模型,由表1可得用户兴趣模型的簇质心,如表3所示。
  表3 簇质心模型
  由表3可知,经过聚类之后的簇质心权值的平均值与原始模型的权值出现了差异,具体而言,簇质心模型对用户的兴趣倾向性进行一定的破坏,本文所提出的匿名化算法主要是按照同义词集合替换后的结果生成等价组模型(EUP)的兴趣条目集合,再依据原始的模型对权值进行计算,具体的计算公式如下:
  由于对用户兴趣模型进行匿名化的最终目的是实现模型满足链接性的隐私保护需求,所以,当等价组模型中的兴趣条目所链接到某个用户的概率≤p时,即可判定这组模型满足链接性的隐私保护需求。
  2.匿名化算法。用户兴趣模型的匿名化的具体算法如下:
  V代表模型集合當中兴趣模型的具体数量
  result←最终的返回结果,其初始值为空
  while>0
  up←从UPS当中选取的首个用户
  UPS←UPS—up
  equiUserGroup←创建up所属的等价组对象
  while equiUserGroup不满足链接性 &&>0
  mostSimilarUser←从UPS当中选取与up相似度最高的用户兴趣
  UPS←UPS—mostSimilarUser
  equiUserGroup←equiUserGroup ∪ mostSimilarUser
  end while
  if equiUserGroup满足链接性 then计算等价组模型对应用户的权值
  result←result∪equiUserGroup
  end if
  end while
  return result
  三、结论
  总而言之,随着信息化技术得不断发展和个性化检索的广泛应用,个性化服务中的隐私保护问题势必会受到越来越多的关注和重视。本文在引入同义词集合与上位词的前提下,对个性化检索中的用户兴趣模型的匿名化处理进行了论述,并给出了匿名化的具体算法,采用这种匿名化策略能够对用户的隐私起到一定的保护作用。在未来一段时期,应当重点加大对用户匿名化相关技术的研究力度,除了要对现有的技术方法进行逐步改进和完善之外,还要开发出一些新的方法,从而更好地为个性化检索中用户的隐私保护提供服务。
  参考文献
  [1]滕金芳,钟诚.基于匿名方法的数据发布隐私泄露控制技术进展分析[J].计算机学报,2010(12).
  [2]李立,袁方,郗亚辉.面向相关多敏感属性的隐私保护方法[J].山东大学学报(理学版),2011(5).
  [3]崇志宏,倪巍伟,刘腾腾.一种面向聚类的隐私保护数据发布方法[J].计算机研究与发展,2012(10).
  [4]滕金芳,钟诚.基于聚类的敏感属性l-多样性匿名化算法[J].计算机工程与设计,2013(11).
  [5]朱青,赵桐,王珊.面向查询服务的数据隐私保护算法[J].东南大学学报(自然科学版),2010(5).
其他文献
当前关于国际公共产品的认知主要是基于“公益论”而非“战略化”视角,相对忽视霸权国及其他主要国家的能动意愿和具体实践。单纯从供给者角度分析“搭便车”行为,也存在一定
变压器是电力系统中重要的电气设备,针对其局部放电,作者模拟了典型的放电模型,然后根据信号特点提取了原始特征量,所构成的特征空间是非线性的,采用KPCA可以有效提取非线性特征并
目的探讨运动、饮食、健康教育联合干预对学龄前儿童超重肥胖情况的影响观察。方法选取某地区儿童248名(均为学龄前儿童)作为研究对象,将之按自愿参加的原则随机分为观察组(n
当代医学模式的特征是从重治疗转向重预防,因而“治未病”的理论和实践被提到了前所未有的高度,而“治未病”的核心就是辨体论治。中医体质辨识通常采用医生问诊的方式进行,这种
目的分析针对性护理在改善轮状病毒所致腹泻患儿生活质量方面的效果.方法以该院2017年1月至2018年1月收治的96例轮状病毒所致腹泻患儿为研究对象,分成观察组49例,对照组47例,
物价、房价、养老、医疗、收入分配等民生热点是每年参加两会的代表委员们的关注焦点,今年也不例外。2011年全国两会注定会在中国的民生大工程中留下浓墨重彩的一笔。
针对直流系统中所使用的铅酸阀控式蓄电池发生开路故障情况,从蓄电池发生开路故障的基本现象入手,分析蓄电池发生开路的直接原因和根本原因,从而确定蓄电池检测的基本原理,通
高速铁路(高铁)在全国范围内建设进程的加快,火车时速从120公里增加到350公里,这不仅给人民出行带来了便利,同时也给移动通信覆盖增加了难度。因列车在高速运行状态下会产生多普勒
为了接收水下目标回波,研究设计了一款适用于无缆定点剖面检测仪的小型化水声接收机,系统采用硬件电路实现对微弱、强干扰噪声影响的输入信号预处理,使其满足后端数字处理要