基于互联网和众包的交互式数据融合方法

来源 :苏州大学 | 被引量 : 0次 | 上传用户:wpaghq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式匹配和实体匹配是多源数据融合的俩个核心问题和主要步骤。其中模式匹配旨在统一异源数据集的不同模式;而实体匹配旨在发现异源数据集中指向同一实体的不同记录。在以往的研究中,这俩个问题往往被看做俩个相互独立的重要问题而被大量研究者关注。然而模式匹配和实体匹配之间天然存在相互关联性,模式匹配的结果好坏会影响到实体匹配的结果,反之亦然。此外,以往的模式匹配和实体匹配方法一般只借助数据源本身的知识进行匹配,往往由于缺乏相关领域知识支撑而达不到很好的匹配效果。基于以上问题,本文提出基于互联网与众包的交互式数据融合方法。一方面我们研究模式匹配和实体匹配之间的交互问题,以协同交互地方式执行模式匹配和实体匹配从而使对方从中获益以达到更好的融合效果。另一方面,我们考虑借助互联网和众包来获取外部领域知识,来辅助我们更好地进行匹配。综上,我们的研究内容具体包括:(1)本文调研了多数据源融合中模式匹配和实体匹配之间的交互性。每一步的模式匹配的决策是基于中间过程的实体匹配结果,反之亦然。(2)本文提出了交互式数据融合方法,考虑了属性对和记录对的匹配可能性的计算问题以及语意漂移问题。我们设计了一种基于sigmoid函数概率模型来估计属性和记录对的匹配可能性。针对语意漂移问题,我们提出了两种有效的方法来检测属性对和记录对的正确性,从而保证了每一步的匹配质量。一种是通过计算两个属性下属性值之间的相似度的无偏方差来筛选记录对。另一种通过交叉验证的方法来检测属性对。(3)本文提出了在数据源中缺失值较多时利用互联网和众包来辅助我们进行交互式数据融合的方法。我们分别研究了如何从互联网上获取高质量的数据,以及互联网和众包的使用时机。(4)为了减少交互式算法的时间消耗,我们设计了一种基于q-gram的索引结构。基于该索引我们降低了该算法90%左右的时间消耗。
其他文献
学位
风能作为一种无污染的清洁能源,已经成为可再生能源发展最快的一部分,已经引起了全球各个国家的注意,然而风速预测在风能领域中扮演着非常重要的角色。由于气象因素的影响,使
新时代背景下,健康是全面协调可持续发展的必然要求,是增加人民幸福感和获得感的具体举措,也是实现中国梦的重要一步。聚焦上海,从全局和战略上把握健康事业的发展,以人民健
随着运营商开始光纤宽带提速,为IPTV(Internet Protocol Television,交互式网络电视)视频业务发展带来了新的机遇,未来超过90%的流量将是视频业务,视频业务将成为运营商的核
“爱存钱”是中国人的显著特点,而对各民族金钱存储心理账户的研究可以在心理学上提高我们对各民族间存储方式差异的理解。已有研究表明,基于东西方文化的差异,人们对金钱等各种资源都存在不同的心理账户,并且这些心理账户的认知机制受到人际关系、时间等因素的影响。而且有学者对心理账户的内隐结构进行研究发现,心理账户可以分为金钱收入账户、金钱支出账户和金钱存储账户。那么,这些影响心理账户的因素对金钱存储心理账户是
伴随着经济的高速发展及社会的不断进步,航空运输成为继海运、公路、铁路之后又一种推动经济快速发展的交通运输方式;航空网络具有重要的经济和社会价值,对中国航空网络特征
目前在推荐领域,协同过滤推荐是被深入研究,同时也被广泛应用在实践中的具有非常重要意义的推荐算法。但是当在数据集中混入攻击数据或者当有恶意用户(如:托攻击)时,目前提出
相位恢复是指由信号傅立叶变换或其它线性变换的幅值恢复原始信号。通常观测设备只能测量到信号的强度信息,造成相位丢失,然而相位中大约包含整幅图像75%的信息,因此恢复图像
随着工业流程的高速发展,工业过程中的控制系统趋于规模化和复杂化,控制系统的性能问题受到广泛关注。控制性能评估技术作为一个高效的手段,直观地为我们展示了控制系统的性
目的:糖尿病是以高血糖为特征的一种慢性代谢综合症。近年来,糖尿病的发病率和致死率居高不下。过氧化物酶体增殖激活受体(PPARs)属于核受体家族,分为PPARα、PPARβ/δ、PPARγ三个亚型。糖尿病和脂质异常的发生与PPARs密切相关。贝特类PPARα激动剂是一类降脂药物,会导致腹痛、肾衰竭等不良反应;噻唑烷二酮类药物是作用于PPARγ的一类降糖药物,PPARγ的激活能明显增强机体组织对胰岛素