面向主题的Web文档自动文摘生成方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:shazishidaoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,信息爆炸已经成为一个很严峻的问题。面对互联网中海量的信息,想要快速有效地获取所需信息变得越来越困难。如何为用户提供简洁有效的信息、满足用户个性化的需求并提高人们获取信息的效率是一个迫切需要解决的问题。为了解决上述问题,本文研究了面向主题的Web文档自动文摘生成方法。具体地讲,本文主要对以下几个方面进行了研究:1.对主题各侧面相关句子的识别方法进行了研究。提出了一种基于依存关系的句子相似度计算方法,使用该方法对句子进行聚类,然后从每个类中抽取词和语法特征形成模式,并使用这些模式来识别主题各侧面相关句子。另外,还研究了使用分类器来进一步识别主题各侧面相关句子的方法。该方法根据词在依存树中的层次对词的权重进行调整,选取有效的依存关系作为特征,使用句法树作为结构特征并用基于动词的裁剪策略对句法树进行裁剪。2.在文摘句的选取部分,提出了一种适用于Web文档的文摘句选择方法。该方法先根据Web文档的特点对候选句子进行评分,再依据句子间的相似性、文档间的链接、句子间的锚链接、句子间的相似度和句子的邻接关系,使用图排序算法对句子的评分进行调整。最后使用MMI算法根据句子的评分和文摘的长度限制选择文摘句。3.在文摘句的排序部分,提出了一种基于上下文的句子排序算法。该方法通过计算文摘句的上下文和其它文摘句的相似度来判断句子间是否相邻,并根据相似度和句子间的相对位置关系计算其可信度。使用基于特征的方法选择第一个句子。选择和前面一个句子有最大邻接度的句子为下一个句子。以上三个部分的实验均证明,本文提出的方法取得了良好的效果,部分优于现有的方法。
其他文献
随着科学技术的发展与物联网时代的到来,无线传感器网络(Wireless SensorNetwork,简称WSN)越来越受到人们的关注与重视,被广泛地应用到各个领域,在国防和科研两方面体现的尤为明
学位
Web应用技术在商业、工业、教育等领域所产生的深远影响,使得Web应用测试方法也越来越受到重视。将用户会话数据直接应用于Web测试,使得测试过程与真实数据结合起来,避免了模
传统运动融合仅处理相同角色的运动数据,已有运动数据库无法得到充分复用。为了突破动画角色的骨架结构限制,合成更加丰富多样的运动数据,提出一种面向异构骨架的角色运动融
现在我们处在信息急速爆炸的时代,这时候很难做到为用户提供符合心意的有用信息。因为搜索引擎的出现,用户减少了部分信息过载压力,但存在结果单一性问题,无法提供差异性的可
随着云计算、大数据以及物联网等技术的迅速发展,数据的存在形式发生了变化。在许多实际应用中,产生的数据大多数以数据流的形式存在,如网页搜索日志数据、传感器网络数据、
随着Web服务的流行,Web服务的数量与日俱增,经常会出现多个Web服务满足同一功能请求,对于如何从中选出最优的服务,现有基于功能性描述的Web服务发现方法无法解决这一问题。所
探地雷达(Ground Penetrating Radar,GPR)作为一种高效率、结果直观的浅层物理探测技术,以其无损、高分辨的特点,被广泛应用于环境工程、地质勘探等多个领域。由于地质环境复
我国的煤矿井下供电网大多数采用了小电流接地系统,该系统发生单相接地故障的概率很高。对于井下特殊的工作环境,如果发生了单相接地故障,必须及时地处理,避免故障扩大,影响整个供电系统的安全运行。长期以来,尽管很多学者进行了大量的研究,但是选线准确率达到100%的选线装置还不存在,并且适用于煤矿井下的小电流选线装置几乎没有,因此设计一套经济实用、符合煤矿特殊的供电环境并能快速准确地实现故障选线的装置,具有
随着互联网的快速发展和广泛应用,Web Service已经成为网格和分布式计算基础结构和应用构建的标准,基于Web Service的分布式计算模式也逐渐成为应用模式和软件相关技术发展的