论文部分内容阅读
抄袭他人的研究成果,篡改或伪造数据后继续发表,给学术研究带来了极严重的危害。因此,建立一种快速准确的论文抄袭检测模型,是具有现实意义的。 由于汉语本身的特点,词语、句子、段落之间的结构非常复杂,语法形式灵活多变,语用歧义性大,且词与词之间无明显分隔,造成中文学术论文抄袭检测的难度较大。同时,基于数字指纹的大规模相似度检测方法,仅适用于精确检测,对文本进行各种细微的修改均可能导致数字指纹方法的失效。 本文提出一种基于Hownet语义短语指纹的句子相似度计算方法,以快速准确地实现中文学术论文的大规模相似度检测。该方法以局部词频生成指纹算法和基于知网的词汇语义相似度计算为理论依据,通过提取特征短语生成语义指纹进行相似度计算,不仅考虑了词项在文本中的概率分布情况,还深入挖掘了文本的语义信息,能够有效地检测出文本的细微修改,实现了基于细微修改后的数字指纹大规模相似度检测。在复旦大学中文语料库上进行的实验表明,本方法在进行相似度检测时,无论在准确率、召回率以及F1度量值标准上均优于传统的词频统计方法以及基于句子的数字指纹方法。