带噪声的文本聚类及其在反垃圾邮件中的应用

来源 :广西师范大学学报：自然科学版 | 被引量 : 0次 | 上传用户：li13688

【摘要】

：

本文针对垃圾邮件包含较多干扰信息，导致文档相似度度量效果较差的问题，将Needleman—Wunseh算法引入到文本相似度计算中，并针对性地提出一种高效的聚类算法，为反垃圾邮件系统提

【作者】

：

周鑫郝志峰蔡瑞初温雯

【机构】

：

广东工业大学计算机学院

【出处】

：

广西师范大学学报：自然科学版

【发表日期】

：

2011年2期

【关键词】

：

文本相似度文本聚类 Needleman—Wunsch算法垃圾邮件 text similarity text clustering Needleman-W

【基金项目】

：

国家自然科学基金资助项目（61070033）,广东省自然科学基金重点项目（9251009001000005）,广东高校优秀青年创新人才培育项目（LYM09068）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文针对垃圾邮件包含较多干扰信息，导致文档相似度度量效果较差的问题，将Needleman—Wunseh算法引入到文本相似度计算中，并针对性地提出一种高效的聚类算法，为反垃圾邮件系统提供了一种有效的垃圾邮件鉴别技术。与传统的仅基于知网、基于语义等聚类算法相比，本方法在算法效率和聚类质量上都有很大的改进。

其他文献

鹊肾树树叶化学成分研究

利用硅胶柱层析、硅胶薄层层析和Sephadex LH-20柱层析等方法，对鹊肾树Streblusasper树叶75％乙醇提取物的化学成分进行研究，分离得到6个化合物，并通过UV、IR、NMR、MS等现代谱学

期刊

鹊肾树化学成分分离Streblus asper chemical constituents isolation

北部湾秋、冬季渔业生物群落结构特征的变化

根据2001年秋、冬季在北部湾进行的渔业资源底拖网调查，对北部湾渔业群落资源状况、重要种类组成及其生态优势度、多样性等方面进行季节变化的初步研究。结果表明，秋、冬季渔业

期刊

渔业生物群落结构生物多样性北部湾fishery species community structure biodiversity Beibu g

基于价值链视角下的企业成本管理研究

本文主要针对基于价值链视角下的企业成本管理展开深入研究,先阐述了价值链成本管理的具体应用,主要包括采购环节、设计环节、生产环节以及服务环节等,然后重点阐述了几大注

期刊

价值链企业成本管理

呫吨酮衍生物的合成及与G-四链体作用的研究

以邻羟基苯甲酸和间苯三酚为原料，通过一步法合成了1，3-二羟基呫吨酮，再经醚化、取代、季铵化反应得到化合物d,用IR、NMR、MS、元素分析等进行结构测定和表征，利用圆二色（CD）光谱和

期刊

呫吨酮季铵盐G-四链体xanthone quaternary ammonium salts G-quadruplex

初中政治课上的学法指导

“授人以鱼不如授人以渔”。学生是学习的主体，新课程改革的目标之一就是要让学生“学会学习”、“自主学习”，它要求受教育者不仅要学会知识，更主要的是学会怎样学习，即掌握科学

期刊

初中政治课学法指导“学会学习”学生自主学习自主探究新课程改革授人以渔受教育者

采取有效措施激发历史兴趣

学习效果的好坏关键在于学生对学习是否充满兴趣，学生学习兴趣的培养关键在于教师。笔者是一名中学历史教师，教学中十分注重学生学习兴趣的培养，现将本人在教学中的几点做法整理

期刊

中学历史教师激发学习效果学习兴趣学生培养教学

带噪声的文本聚类及其在反垃圾邮件中的应用

其他学术论文