论文部分内容阅读
邮件在日常生活中被广泛使用,而垃圾邮件的传播大大影响了人们的正常生活,浪费大量的网络资源,造成大量财力人力的浪费。如何控制垃圾邮件的传播是各国正在研究的课题之一。如今,中文垃圾邮件的数量大大增加,在前人研究的基础上,利用前人的研究成果,对中文垃圾邮件的过滤技术进行深入研究,对于控制中文垃圾邮件的传播以及占领该领域的市场有很大的作用。
目前实际应用的主要过滤方法是基于关键字的简单规则的过滤,包括黑白名单、邮件头分析等。这些方法具有很大的局限性,过滤效果不是很好。
为了能更好的进行邮件过滤,文本分类和信息过滤理论被应用到邮件过滤上来,提出了许多的基于内容的邮件过滤方法。
另外,针对中文垃圾邮件独有的特点,需要把国外现有的技术进行改进才能够应用到实际中。
本文首先分析了垃圾邮件的现状,介绍垃圾邮件的定义及解决垃圾邮件的两种途径:然后叙述了邮件系统的相关理论,包括邮件的传输过程,使用的相关传输协议,邮件的格式信息,以及在邮件传输过程中的不同阶段可以采用的过滤方法:接着分析了目前常用的简单过滤方法,和文本分类方法的邮件过滤方法,并详细介绍了贝叶斯方法的相关理论。在分析中文垃圾邮件的特点之后,在CCERT提供的邮件样本的基础上,试验了朴素贝叶斯方法。实验中,首先通过试验确定一些参数,并总结这些参数对于实验结果的影响规律。在确定参数之后,在不同的样本规模下实验朴素贝叶斯方法的过滤效果。最后对传统的方案进行了两种改进方法,并进行试验。最后提出了在Windows下利用SPI技术构建客户端邮件过滤技术的方案。
关键字:贝叶斯方法邮件过滤 SPI