论文部分内容阅读
本文针对国内中文垃圾邮件过滤研究缺乏语料库的问题,首先收集了700多封邮件建立了语料库。再在这个语料库的基础上进行研究,将邮件文本特征向量化,利用支持向量机文本分类算法进行二值分类,并根据邮件过滤中代价不对称问题对支持向量机算法进行了Cost-sensitive改进。
论文利用支持向量机算法和代价敏感的支持向量机算法对样本进行训练和分类测试。实同时,结合中文分词,特征提取等垃圾邮件过滤问题中的关键技术,本文设计开发了一个垃圾邮件过滤预处理系统,该系统实现了将邮件文本表示成数字化的特征向量的功能,为本文研究提供了可靠的实验平台,并为开发实用的垃圾邮件过滤系统奠定了基础。