基于贝叶斯方法的中文垃圾邮件过滤技术研究

来源 :北京机械工业学院 北京信息科技大学 | 被引量 : 0次 | 上传用户:Alkaid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
邮件在日常生活中被广泛使用,而垃圾邮件的传播大大影响了人们的正常生活,浪费大量的网络资源,造成大量财力人力的浪费。如何控制垃圾邮件的传播是各国正在研究的课题之一。如今,中文垃圾邮件的数量大大增加,在前人研究的基础上,利用前人的研究成果,对中文垃圾邮件的过滤技术进行深入研究,对于控制中文垃圾邮件的传播以及占领该领域的市场有很大的作用。 目前实际应用的主要过滤方法是基于关键字的简单规则的过滤,包括黑白名单、邮件头分析等。这些方法具有很大的局限性,过滤效果不是很好。 为了能更好的进行邮件过滤,文本分类和信息过滤理论被应用到邮件过滤上来,提出了许多的基于内容的邮件过滤方法。 另外,针对中文垃圾邮件独有的特点,需要把国外现有的技术进行改进才能够应用到实际中。 本文首先分析了垃圾邮件的现状,介绍垃圾邮件的定义及解决垃圾邮件的两种途径:然后叙述了邮件系统的相关理论,包括邮件的传输过程,使用的相关传输协议,邮件的格式信息,以及在邮件传输过程中的不同阶段可以采用的过滤方法:接着分析了目前常用的简单过滤方法,和文本分类方法的邮件过滤方法,并详细介绍了贝叶斯方法的相关理论。在分析中文垃圾邮件的特点之后,在CCERT提供的邮件样本的基础上,试验了朴素贝叶斯方法。实验中,首先通过试验确定一些参数,并总结这些参数对于实验结果的影响规律。在确定参数之后,在不同的样本规模下实验朴素贝叶斯方法的过滤效果。最后对传统的方案进行了两种改进方法,并进行试验。最后提出了在Windows下利用SPI技术构建客户端邮件过滤技术的方案。 关键字:贝叶斯方法邮件过滤 SPI
其他文献
在无线通信技术快速发展、频谱资源匮乏与浪费的时代背景下,认知无线网络被认为是改善频谱资源利用率的一项关键技术。为了协调授权用户和非授权用户间的关系和改善频谱资源匮
随着针对应用层的网络攻击以及拒绝服务攻击的日益频繁和复杂化,目前防火墙技术面临的突出问题是:如何在提供复杂的应用层数据保护的同时,解决防火墙软件的平台无关性和可移植性
随着网络的高速发展,IP网络正在从当初单纯传送数据向可传送数据、语音、活动/静止图像的多媒体网络转变。从仅提供尽力(best-effort)服务向一个综合的或者拥有服务质量(Qual
经验模式分解(EMD)方法是Huang提出的一种新的信号处理方法,在非平稳信号分析方面有良好的性能。EMD方法是一种完全数据驱动的方法,它不依赖于傅立叶变换,而且具有多尺度特性
在网络攻击日益猖獗的今天,IP回溯技术对宏观网络攻击具有很强的威慑力。它追踪出的攻击路径信息可供网络专家研究网络攻击方式、弥补系统漏洞,并做出应急响应措施。但是IP攻击
随着网络技术、计算机远程教育的迅速发展、终身教育观念的普及,各高等学校迫切需要有科学、方便、完善的题库管理系统,作为积累题目、自动组卷、保存成卷、分析试卷的工具。题
近年来,随着宽带计算机网络技术的发展及视频技术的日趋成熟,IPTV应运而生。然而,视频具有带宽高、数据量大及实时性强的特征,这使得大量用户的同时点播常常造成网络带宽的瓶颈,网
随着电子政务的日益普及和广泛的应用,传统的行政事业运行模式正面临着严峻的挑战,如何以电子化、信息化的手段来提高其行政管理水平、行政效能和决策的准确性,从而更加科学有效
为解决日益增长的案件数量与有限的司法资源之间的矛盾,以及避免不同法官之间判罚尺度不统一导致的判决偏差,本文面向智慧检务,以刑事案件为研究对象,对基于计算机辅助的刑事
本论文来源于西安电子科技大学“211工程”标志性成果项目《宽带无线IP接入网络系统安全技术》。我们研究的《宽带无线网络集成认证平台》是它的一个子课题,研究的目的就是要