在线组合分类器应用于大规模垃圾邮件过滤的研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wei370210524
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,垃圾邮件的泛滥在严重干扰了人们的正常工作和生活的同时消耗了大量的带宽资源。传统的反垃圾邮件的方案例如设置过滤规则或者对邮件地址应用黑名单或白名单不仅需要大量的人工介入并且过滤效果也不甚理想,尤其当面对新的垃圾邮件样本时完全无能为力。电子邮件本质上是一种结构化的文本,用机器学习的算法来进行邮件分类其实就是处理文本分类问题。同时由于处理过程需要随时学习新产生的垃圾邮件样本以提高准确性和鲁棒性,所以我们的算法模型必须具有很强的适应性,或者说必须是在线模型。本文将垃圾邮件过滤抽象成在线结构化文本的二分类问题。本文分析并实现了包括逻辑回归、朴素贝叶斯、感知器等先进的在线分类器,并且原创提出了一种新型的改进朴素贝叶斯分类器nsnb。nsnb具有过滤效果优秀以及轻巧快速等一系列特点。在此基础上,本文提出了一种新型的用于在线分类器集成的框架,通过综合八种不同的分类器的输出给出最终的判断。此集成框架规范了邮件数据的预处理过程,统一使用未解码的N-gram算法摈弃了传统的中文分词以及TF-IDF算法,同时对第一层分类器的挑选进行了严格的约束,并且针对问题的在线特性提出了thick thresholding和result scaling两项技术。本文还提出了名为在线权重投票的分类器集成算法并与其它集成算法进行了比较,同时我们还对最佳分类器子集的选择问题进行了深入的探讨。依据本文的理论成果,作者实现了名为Terminator的垃圾邮件过滤器。在实验数据集上的结果远远超过了目前最优秀的垃圾邮件过滤器,并且在合作者网易邮箱提供的数据上面也有非常好的表现。
其他文献
本文在分析国内外超声诊断仪市场现状后,提出一种基于ARM9的便携式B超仪器设计方案,旨在满足特殊医疗环境下对超声诊断仪的需求。   论文首先分析超声诊断仪的基本原理和结
学位
高清化和智能化是视频监控系统发展的趋势,也是衡量系统优劣的重要标准。高清化主要反映在分辨率上,而智能化主要体现在后期的视频处理上。本文从系统架构设计与实现的角度提
在未来的网络发展中,无线网络将演变成一种支持全IP、基于多种无线网络接入技术的无缝融合异构网络,它们在覆盖范围、接入能力等方面各不相同,没有一种单一的网络可以在带宽
集成无线通信、嵌入式计算、传感器和分布式信息处理技术的无线传感器网络已经成为当前信息网络研究的热点,随着廉价的CMOS摄像头及微型麦克风的出现,以及人们对图像、音频和
对于一种逻辑(?),它在一类结构C上的模型检测问题是询问一个给定的(?)语句在一个给定的C结构中是否成立。核化是一个在设计固定参数算法中广泛应用的技术。核是一个从输入实
目前,图像编辑软件的广泛应用已经导致了许多非法的数字图像使用。在这种情况下,急需开发相关的计算机技术来验证数字图像的完整性,从而阻止对数字图像的恶意伪造。图像哈希是一
学位
多标记学习问题中每个样本可以同时和多个标记相关联,因此比传统的单标记学习有更广的应用空间,并受到越来越多研究者的关注。然而,多标记学习依旧存在着维度灾难、噪音特征
随着越来越多的用户愿意上网发微博,表达对公共事件的关注和看法、表达个人情感或情绪、报道新闻事件、发表观点等,微博已经成为非常有价值的数据源。如何有效地获取和展现微
V网伴侣(VPMN Partner)是一款面向企业用户的统一通信(Unified Communication)业务,并与传统的VPMN业务(virtual private mobile network,移动虚拟专网业务)融合。V网伴侣业
利用GPS载波相位进行载体姿态测量是近几年来新发展起来的一项GPS应用技术,具有全天候、精度高、无需对准、无累计误差、成本低等优点,正越来越多的应用于航天、航海等行业并逐
学位