【摘 要】
:
随着Internet的发展,web上的信息正爆炸式增长,由于信息的无序性以及人们不满足于自己去检索必要的信息,等等诸如此类的需求推动了web文本信息抽取的研究。但是目前信息抽取
论文部分内容阅读
随着Internet的发展,web上的信息正爆炸式增长,由于信息的无序性以及人们不满足于自己去检索必要的信息,等等诸如此类的需求推动了web文本信息抽取的研究。但是目前信息抽取中使用的主要技术,存在一些问题,比如自适应性不好,统计能力不强等,造成抽取结果中的准确性和召回率较低,通过分析以上问题,本文提出了一种基于混合模型的方法,能较好的改善上述问题,提高抽取质量。本文通过介绍在文本信息抽取领域使用的两种主要技术:隐马尔可夫模型(HMM)和BP网络,并分析了二者的优缺点,HMM是一种优秀的统计学模型,其优越的时序性,动态性和优秀的建模能力已经使得该模型成功应用于各个领域,但其适应性交差,并需要大量的训练数据;BP网络有优秀的决策能力,对不确定信息的描述能力以及自适应性较强,但是该模型时序性不强,而且需要特定的输入条件。在此基础上研究如何通过隐马尔科夫模型和神经网络模型的结合,来提高目前信息抽取方法的准确性和召回率。通过分析发现,两种模型在优缺点上互补,将HMM与BP网络结合在一起,可以即克服HMM在分类能力以及适应性上的不足,又可以弥补BP网络需要特定输入和建模能力弱等缺陷。在分析了前人对信息抽取技术的改进后,本文采用对待抽取文本进行分块的方法,首先将文本进行人工标注,然后对各状态进行多HMM训练,将HMM训练后的最佳状态输出概率作为BP网络的输入,在BP网络中进行映射,运用BP网络分类能力强的特点对文本状态进行映射分类。实验结果表明,该混合模型比传统的HMM模型或者BP网络的分类能力在准确率上有了约15%的提高,在分析了实验结果以及网络结构的基础上,通过对BP网络的算法进行改进,使得在抽取过程中,分类效果尚不明显的易混淆状态在准确率上又有了4%左右的提高。
其他文献
分析震动数据从而识别震动目标类型和震动目标位置,在周界安全防护领域具有重要的研究意义。在了解国内外地面震动目标识别和定位技术的基础上,本文研究了基于时间序列相似搜
随着网络的普及以及WEB2.0的迅速发展,互联网已经成为世界上规模最大的公共数据源。与此同时电子商务的迅猛发展,给人们的生活带来了极大的便利。越来越多的人们开始选择网上
中医舌诊是中医临床进行辨证论治过程中的一个重要步骤。舌下络脉诊断是通过观察舌下络脉的形色变化来判断人体健康状况的一种古老诊断方法,是中医舌诊的重要组成部分。利用
无线传感器网络(Wireless Sensor Networks,WSN)是物联网研究和应用的关键技术,属当前国内外的研究前沿,具有重要的理论研究和应用价值。随着无线传感器网络技术的发展,多接收节
基因表达式编程算法(Gene Expression Programming,GEP)是一种新型的处理高维的、不确定性因素的智能进化算法,它能够挖掘出隐藏在数据中的知识,如规则、模型等,并且不需要任
基于内容的图像检索是多媒体搜索引擎的一项重要技术,在给定查询图像的前提下,依据内容信息或指定的查询标准,在图像数据库中搜索并查找出符合查询条件的相应图像。传统的基于内
古文献有重要的历史和学术研究价值。随着古文献研究的不断深入,不同版本间的差异性比对研究已成为古文献学的重要研究内容。目前,差异性比对研究大多采用人工方式,效率较差
近年来随着互联网技术和数字技术的发展,隐秘信息的安全保护问题日益突出。大容量的信息隐藏技术作为信息隐藏领域的关键技术,引起了许多学者的广泛关注,并取得了很大发展。而批
近年来,随着计算机网络技术的发展,网络用户急剧增加,网络规模以惊人的速度增长,网络流量也急剧增加。当网络中过多的数据包得不到及时处理时,网络的吞吐量就会降低,性能也随
随着Internet技术的发展和日益普及,网络规模不断扩大,复杂性不断增加,异构程度也越来越高,使得现代网络管理系统通常要面对一种复杂的、大规模的、大量的信息数据以及多元化