实体识别关键技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sunzui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体识别在数据质量管理中起着重要地位。它是数据质量管理的重要研究方向。在一个或多个数据库中,同一个现实世界实体可能具有多种描述方式。实体识别的目的是识别出数据集中描述同一真实世界实体的元组。实体识别的结果可以在数据质量管理的其他阶段,例如数据清洗阶段和数据质量评估阶段,得到广泛应用。同一实体具有不同描述的问题在各种应用领域的信息系统中普遍存在。由于实体识别在数据质量管理中具有重要意义,人们已经开始了实体识别的研究。尽管现有的方法能够在很多应用中有效的识别实体,但是还存在如下的不足:1.当前的实体识别存在重名和异名的问题。重名是指描述现实世界不同实体的数据对象的名字相同,而异名是指描述现实世界中相同实体的数据对象的名字不同。目前实体识别的研究或是只解决了重名问题,即对名字相同的数据对象进行实体划分或是只解决了异名问题,即识别出名字不同但描述相同实体的对象集合,而缺少对一般情况(即重名和异名同时存在的情况)的考虑。2.传统实体识别方法往往是基于元组的相似性比较来获得结果的。它们假设数据集满足紧凑集性质,即指代同一实体的元组的相似度比指代不同实体的元组对的相似度更高。然而,在某些情况下,这样的性质并不成立,则传统的实体识别方法不能有效地识别实体。3.当前实体识别方法中所采用的相似性度量并没有考虑不同词之间所具有的相关性以及某些描述实体重要特征的词对识别实体的重要贡献。基于当前的相似性度量方法,往往不能得到有效的实体识别结果。4.目前的数据质量评估只包括一致性,时效性,完整性和精确性。然而通过实体识别的结果可以评估另一类数据质量问题,即指代同一真实世界中的实体的元组在各属性上的值存在冲突的问题。我们将该问题称为冗余数据上的实体描述冲突问题。当前尚无任何评估实体描述冲突的方法提出。综合上述分析,本文将以信息集成和互联网搜索为背景,研究数据质量管理中实体识别的关键技术,以最大化实体识别结果精确度,最小化时间复杂性为目标,研究基于图模型的实体识别框架、基于规则的实体识别算法、基于距离度量的实体识别算法和基于实体识别结果对数据质量的评估。本文的主要研究成果如下:(1)提出了实体识别问题中的异名和重名同时存在的现象,据我们所知,这是首次在实体识别问题中考虑这两类问题同时出现的情况。本文提出了一种普遍适用的实体识别技术框架EIF,该框架通过将元组之间的相似性关系转化为图模型,从而利用图聚类算法解决实体识别问题。基于所提出的EIF框架,本文设计了识别论文作者的算法。该算法有效地利用了作者名字和合作者信息来实现同时具有异名问题和重名问题的论文集合上的作者识别。实验结果表明基于EIF框架的作者识别算法的结果精确度优于现有方法。(2)针对某些难以用元组相似性比较来识别实体的情况,提出了利用实体描述信息所建立的规则来识别指代相同实体的元组的方法。设计了实体识别规则的语法和语义,定义并分析了实体识别规则系统的独立性,一致性,完整性和有效性。提出了一种有效的规则发现算法和基于规则的实体识别算法,并对算法的正确性和复杂度进行了分析。最后提出了一个规则更新策略。在真实数据上的实验对所提出的算法的效率和有效性进行了验证。(3)以词作为描述实体的特征,分别为元组对上的实体识别和元组集合上的实体识别提出了两种基于词特征的距离度量和距离度量的学习算法。在算法中,通过将训练集中的元组或元组对转换成以词为特征的向量,利用学习算法计算出基于词特征的距离度量。在真实数据上的扩展性实验对我们所提出的度量学习算法的有效性进行了验证。(4)定义了实体描述冲突的数学模型。当实体识别结果的精确性不是100%时,提出了实体描述冲突的范围计算问题。为了解决这个问题,提出了四个基本操作并证明了实体描述冲突范围的计算问题是NP难并为四个基本操作提出四个近似算法,给出了近似比。提出了一个基于四个基本操作的计算实体描述冲突范围的框架。在真实数据和合成数据上对所提出的算法的有效性和效率进行了验证。
其他文献
随着建筑行业的快速发展,建筑市场逐渐标准化、规范化,市场、政府更加倡导标准化施工,提倡建筑的安全环保、节能降耗。因此,新型组合式支吊架在工程中的应用得到了推广。本文主要
以6年生‘藤稔’葡萄(Vitis viniferaL.‘Fujiminori’)为试材,在枝条不同节位进行短截处理,对9个花发育相关基因的时空表达进行研究。结果表明,在冬季休眠后期虽然VvAP1、Vv
广东农村城市化工业化现状问题对策●邓杏琼●改革开放以来,伴随着我省农村经济全面发展,特别是农村二、三产业迅速发展和经济实力的增强,大大地加快了农村城市化、工业化建设步
多源运动图像作为一种重要的冗余和互补的信息表现形式,在卫星遥感、航空航天、机器人视觉等领域的图像处理与分析中都起着重要的作用。由于多传感器系统中不同传感器的光谱
方塔出土西夏汉文佛经"修持仪轨"是藏传佛教密教经典,记载的是上乐金刚本尊坛城身轮、语轮、意轮四方四隅的神灵安排。其中,身语意轮四方四隅为二十四处音译词,这些音译词均为
上世纪60年代,Sutton提出了事件相关电位(event re-lated potential,ERP)的概念,通过平均叠加技术从头颅表面记录大脑诱发电位来反映认知过程中大脑的神经电生理改变,因为事
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
在中国传统社会中,十分重视宗族关系,为应对可能出现的绝嗣现象,过继制度应运而生。清代,对民间过继有严格的规定,但对宗室内过继的规定并不多,尤其是皇子出继后,其地位待遇