一种基于向量空间的多语言反垃圾短信系统的设计和实现

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:hbc235wjm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代社会很多的信息传递都是依靠手机进行的,手机短信就是其中一种重要的形式。正常的短信增进了我们个人与社会的沟通,这也正是短信能蓬勃发展的原因。但现在正有越来越多的人利用短信的高阅读率来发送各类垃圾短信,这类短信包括广告,欺诈等。这类短信已严重影响了我们的日常生活,如何有效的识别并隔离这些垃圾短信已成为研究热点。 本文研究了采用向量空间模型从内容上对短信进行分类的方法。在向量空间模型方法使用的过程中,我们把本系统分成了三个主要部分。第一部分训练模块,第二部分训练结果评测,第三部分用户端模块。其中,第一和第二部分已在台式电脑上得以实现,第三部分在windows mobile平台的智能手机上得以实现。 在训练中,根据训练样本应用向量空间模型的方法来得到属性列表和机器学习模型文件,在机器学习模型文件中就包含了两个类别中心向量。在训练结果评测过程中,应用夹角余弦法这种计算简单向量距离的方法求出各测试向量与各个类别中心向量之间的距离,以此来预测各测试向量的属类。为正常和垃圾短信分别设置正负识别率的阈值,只有当对简繁体中文短信的正负识别率都超过了我们预定的阈值之后,才进入到应用阶段,也就是用户端模块。在这个阶段中,就能直接作用于所收到的短信:它会判断出所接收到的短信是垃圾短信还是正常短信,并根据判断所得到的类别来把所接收到的短信放入手机中特定的文件夹中。实验表明,本系统对简体和繁体中文的短信都取得了较好的识别率。
其他文献
随着计算机技术和网络通信技术的快速发展,使得无线自组织网络技术越来越多的被人们所使用。传统的无线自组网由于没有处理链接中断和网络分裂的专门方案,所以当网络通信环境
后PC时代的到来,使得人们开始越来越多地接触到嵌入式产品,形式多样的数字化设备正使得我们的地球变成了一个具有电子皮肤的“地球生物”,嵌入式技术已成为一个研究热点和消费热
计算机及互联网科学技术的进步,对各个领域的促动极大,由计算机安全引发的问题,越来越引起人们的强烈关注。计算机病毒是计算机安全问题的重大隐患。Windows系列操作系统在用
近几年来,在软件工程领域,基于构件的开发方式逐渐成为创建可扩展系统的一种重要手段。和传统的软件开发方法相比,基于构件的开发方法在体系结构、开发过程、软件方法学和软件构
Peer-to-Peer(简称P2P)是一种很有发展潜力的网络技术,在对等计算、协同工作、搜索引擎、文件交换等领域相比传统的C/S模式有着不可比拟的优势。Gnutella是一种P2P的网络通信
聚类分析算法是数据挖掘领域的重要研究方向,在工业、商业和科研等领域越来越起到高效提取重要数据信息的作用。随着各领域信息化进程的快速发展,这些领域产生的数据量以爆发
随着呼叫中心突飞猛进的发展,越来越多的企业用它来发展业务,扩大客户群,树立企业形象。呼叫中心的服务质量直接关系到企业形象和经济效益。呼叫放弃率是用来衡量呼叫中心服
随着医学成像技术的飞速发展,医学图像越来越多的被用于临床诊断中,并取得了显著的效果。这一情况导致了相关数据的飞速增长。找到与患者图像相似的医学图像,有助于发现之前
异构数据集成是数据库领域的经典问题,现在随着XML技术的兴起,异构数据集成再次成为研究的热点。由于计算机网络的普及和网络上数据信息的迅猛增加,数据的共享已经成为一个必然
计算机对等网络P2P(Peer-to-Peer)是目前流行于网络技术研究领域的一种新兴网络模型。作为真正的分布式计算技术,它的应用已延伸到分布式计算、协同工作、分布式搜索、文件共