基于SVM的智能邮件过滤系统研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:qq240927781
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展逐渐改变了人们的生活方式,电子邮件因其方便、快捷的特点已受到人们的青睐,许多重要信函也会通过电子邮件的方式传送。但是,许多垃圾邮件同时也在网络中蔓延,占据了邮件服务器的大量存储空间,用户往往需要花费大量的时间去删除这些垃圾邮件。因此,研究邮件的自动过滤具有重要意义。邮件的自动过滤主要有基于规则和基于统计两种方式。基于规则的过滤器,往往局限在二维空间上进行处理,缺少可信度,需要用户手工设置和更改过滤规则,故过滤效果不佳;而目前基于统计的过滤器中,常用的贝叶斯方法等是建立在经验风险最小化的基础之上,过滤器推广性能较差。支持向量机(SVM)是在统计学习理论的基础上发展而来的一种新的模式识别方法,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势。它不仅考虑了对推广能力的要求,而且追求在有限信息的条件下得到最优结果。因此,本文将支持向量机应用于邮件过滤,实验证明过滤效果较好。本文首先分析了垃圾邮件的现状与危害,介绍了反垃圾邮件组织与常识,对邮件过滤技术的研究现状进行了深入地分析与说明。其次,阐明了邮件的特征表示方法和支持向量机理论,讨论了基于支持向量机的邮件过滤算法,并通过实验比较了支持向量机算法与简单向量距离法、贝叶斯算法在垃圾邮件过滤中的情况。结果表明,支持向量机算法的过滤效果明显优于另外两种算法。最后,本文设计并初步实现了一个基于支持向量机的智能邮件过滤系统。该系统位于邮件客户端,能对邮件样本进行自动学习,并自动登录服务器检测新邮件。本文所实现系统的独创特点在于:采用两级过滤方式,从而在过滤速度与效果上有较优的表现;在第一级过滤中不仅能按好友列表、地址黑名单过滤,还能按邮件主题的相似性过滤;在第二级过滤中不仅考虑邮件内容特征词条,还综合考虑了邮件的专项特征,因此,其过滤效果优于单纯的规则过滤和内容统计过滤;系统还采取了多项措施来减少因误判而带给用户的损失,如,保存可疑邮件,发送回执信息等。
其他文献
随着我国国家信息化工程的建设发展,各行各业都建立了各自的信息处理系统,但是,目前企事业等单位现有的软件往往由不同的部门开发,软件之间相互独立,自成系统,数据标准不一致
随着经济的发展及科学技术的进步,各行各业面临的是一个日益复杂和不断变化的环境,决策问题变得越来越复杂,特别是对于面向多层次、多目标的复杂系统决策问题,因涉及到多种专业知
随着Internet技术的发展,计算模式不断更新,信息系统基本架构也从C/S架构逐渐发展为当今主流的B/S架构。各种设计模式的提出与使用对信息系统的开发产生了越来越大影响,模式采用
语音识别技术自诞生以来就对人类的生活方式产生了深远的影响,因此语音识别技术一直以来都是世界各地学者们深入研究的热点。目前语音识别广泛采用动态时间规整(DTW)技术和基
本论文研究的主要内容是基于内容的图像结构表示和分类。作为一个有着广泛应用前景的研究领域,基于内容的图像分类吸引了越来越多的研究人员参与,取得了许多研究成果并开发了
网络流量异常检测是入侵检测的一种检测手段,它能够对网络中数据流量进行实时的收集、分析和处理,根据获得的网络运行状况及时向网络管理者发出异常警告,其重要性得到了研究
植物是自然界的一个重要组成部分,与我们的生活息息相关。随着分形学的研究和发展,植物模拟已成为人们研究的热点问题。植物模拟在人工智能、计算机游戏、虚拟现实、教学软件、
水情自动测报是采用现代科技对水文信息进行实时遥测、传送和处理的专门技术,是有效解决江河流域及水库洪水预报、防洪调度和水资源合理利用的先进手段,是水文现代化的发展方向
步态识别是指通过人体走路的姿势来识别人的身份。步态识别是模式识别、图象处理等学科的一大新兴研究热点,可以广泛地应用到安全部门、身份鉴别、数字监控等领域。 步态
电力系统故障诊断系统能够辅助调度人员处理事故,起到缩短事故处理时间,防止事故扩大的作用,对保证电力系统稳定运行具有重要意义。本文系统了解及比较了在电力系统故障诊断领域中几种人工智能技术的应用情况,同时对Agent的特点、结构、优势以及实现作了深入的研究。在此基础上提出了一种基于多Agent的电力系统故障诊断系统模型,并实现了其中的诊断Agent。诊断Agent 是在原有专家系统的基础上产生的,这种