基于Hownet语义短语指纹的句子相似度检测算法

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:fragishsss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
抄袭他人的研究成果,篡改或伪造数据后继续发表,给学术研究带来了极严重的危害。因此,建立一种快速准确的论文抄袭检测模型,是具有现实意义的。  由于汉语本身的特点,词语、句子、段落之间的结构非常复杂,语法形式灵活多变,语用歧义性大,且词与词之间无明显分隔,造成中文学术论文抄袭检测的难度较大。同时,基于数字指纹的大规模相似度检测方法,仅适用于精确检测,对文本进行各种细微的修改均可能导致数字指纹方法的失效。  本文提出一种基于Hownet语义短语指纹的句子相似度计算方法,以快速准确地实现中文学术论文的大规模相似度检测。该方法以局部词频生成指纹算法和基于知网的词汇语义相似度计算为理论依据,通过提取特征短语生成语义指纹进行相似度计算,不仅考虑了词项在文本中的概率分布情况,还深入挖掘了文本的语义信息,能够有效地检测出文本的细微修改,实现了基于细微修改后的数字指纹大规模相似度检测。在复旦大学中文语料库上进行的实验表明,本方法在进行相似度检测时,无论在准确率、召回率以及F1度量值标准上均优于传统的词频统计方法以及基于句子的数字指纹方法。
其他文献
随着世界经济全球化和一体化的发展,电子数据交换已经成为企业参与贸易竞争的重要手段。而作为电子商务主体的企业对企业的电子商务,也特别需要安全高效的数据交换的支持。传统
该论文结合某航空测量数据采集系统的研究背景,研究基于实时Linux的实时软件.文中综述了实时Linux的开发及应用现状,并对实时Linux系统内核的构造机制、设备驱动程序开发技术
“信息系统体系结构”(InformationSystemArchitecture)是用来描述信息系统构成成分及其相互之间的关系的一种模型理论,可以用它来指导信息系统的规划和设计.该文以国际集装箱
Globus是计算网格技术的典型代表,它帮助规划和组建大型的网格试验平台,开发适合大型网格系统运行的大型应用程序.Globus力图实现计算网格结构来提供对高性能远程计算资源普
发展智能交通系统是解决交通问题日益恶化的关键.该文介绍了ITS和中间件的有关内容,详细分析了CORBA的体系结构和对象模型;分析了网络信息交换系统架构采用CORBA架权的原因.
为了能更好地支持决策分析,发挥数据的更大价值,数据仓库技术应运而生.其中,联机分析处理(OLAP)是数据仓库最主要的应用之一.该文从提高数据仓库和OLAP系统性能的角度出发,讨
在计算机网络迅猛发展的今天,网络入侵检测成为愈加重要的问题,利用人工免疫的思想和机制来解决网络入侵检测问题已经成为该研究领域的前沿课题.该篇论文在分析网络入侵检测
在该系统中,用户可用形式化的约束描述语言描述系统约束规则,并可自行定制工作流模板及其任务环节.系统还提供对任务、约束规则和权限的灵活管理.在流程执行过程中,系统提供
该文对CAI课件的设计、开发及制作的规范和评价标准等进行了系统的研究,着重指出了课件素材的重要性和当前教育资源匮乏的现状.为弥补课件制作过程中的这一薄弱环节,作者采用
本文针对建筑行业提出了一种新型的配料仪的设计方法,配料仪的作用是将四种原料混合在一起,它是一种单片机应用于工业生产过程自动控制的典型产品。这些年来,随着建筑行业的发展