基于规则和统计的网络不良信息识别研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:ffanhaixin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展,给社会和人们的生活带来了巨大而深远的影响。互联网作为信息传播的载体,与传统的纸媒相比具有无法比拟的优越性,为不同领域如政治、经济、文化等的信息传播提供了优质的平台,也为人与人之间的交流创建了一种新的途径。互联网给人们生活带来便利的同时,也带来一些负面的效应。虚拟的网络环境中,每一个用户都被转化为一串虚拟的符号,用户通过个人网页、微博、微信公众号、论坛等形式的网络媒体发布的信息、言论等,都具有一定的不确定性,即使许多平台采取一定的事前审核、事后过滤措施,但仍然有某些身份隐蔽、道德意识、文化素养较差的人存在,使得大量虚假的、色情类、政治敏感类、诈骗类、迷信类等信息充斥网络的角角落落,败坏社会风气,蛊惑人心,给人们的身心健康造成极大的损害。作为一种用户量巨大的网络社交媒体,微博是一种基于用户关系的信息分享、传播、获取的平台,用户发布的微博消息可以通过客户端或者平台及时推送给粉丝,实现了实时、快捷的信息传播。同时微博粉丝也可以通过发表评论与博主进行互动,或者可以进行转发、评论、收藏等操作,实现信息分享、传播,扩大信息传播的范围,增强信息的影响力。微博的这个特点同时也导致了微博成为不良信息的藏身之地。因此微博已经成为许多学者研究的对象。为了净化网络环境,让未成年人远离不良信息的侵害,给互联网用户提供良好的搜索体验,有必要控制这些不良信息的发布和传播,采取相应的措施和手段加强监督和管理。为此,本文以网络中不良信息的识别为目的,结合已有的中文文本挖掘技术来进行实验研究。通过爬虫程序采集微博用户针对特定微博正文进行评论和转发内容,得到原始数据。并对原始数据进行去除无关的符号、分词处理、依存关系标注、词频统计等操作,并利用得到的数据来提取文本的特征集。为了提高分词的准确性,本文设计了不良词库,其中包含不良词语本身对应的基本词表、近义词表、缩写词表、词语之间的依存关系表;将基于统计的特征提取算法与依存关系分析相结合,有效提取文本特征,并使用朴素贝叶斯算法实现了文本分类模型。进一步将该模型应用于微博中用户评论的分类处理,通过实验对分类器进行测试,与改进前相比,分类的准确率和召回率有明显的提高。最后针对本文的研究做出总结,提出本文的创新点和不足之处,并在后续的研究过程继续完善。
其他文献
城市用水不仅关系着城市居民的生活质量,而且极大地影响城市经济的正常发展,对于整个城市的稳定有着重要的作用。水资源需要合理的开发与利用,因此如何科学的调度城市供水是
Internet是在早期出现的网络体系结构,随着用户和数据量的不断增多,Internet越来越难以满足对于服务质量的保障,这也成为Internet面临的一大挑战。虽然Internet尝试过增加一
互联网逐渐成为记录人们生活和工作的信息载体,给人们的生活和工作带来了获取信息的便利,同时在被使用的过程中产生了大量的文本数据。如何从海量的、复杂的文本数据中及时有
移动和嵌入式设备已经成为人们日常生活中不可或缺的一部分。随着科技的发展,这些设备也体现出越来越高的性能,同时带来的是设备续航时间过短的问题。由于材料本身的限制,电池换
随着微机电系统(Micro-Electro-Mechanism System, MEMS)、片上系统(System on Chip, SOC)、无线通信和低功耗嵌入式技术的飞速发展,孕育出无线传感器网络(Wireless Sensor N
RFID射频识别技术是近代兴起的无线识别技术,有着广阔的发展前景。与传统的一些识别技术相比较,RFID射频识别技术拥有很多优点,例如:非接触性、传输数据率高、通信距离远和穿
云计算的概念自2007年提出以来就受到了业界的极大关注,并且已经广泛应用到生活和生产的各个领域。在云环境中,一切资源都是以服务的形式提供给用户的,所以云服务的发现问题成为
本文的主要研究内容是在固定背景下基于光流场的视频图像序列的运动检测应用研究。对视频图像中的运动分析在计算机视觉中占有十分重要的地位,已成为热点研究领域之一。视频
最近,网络舆情频繁发生,特别是网络上影响国内外的重大事件,往往会在极短的时间内就会引起全国网民的关注,从而形成相应的网络舆情事件。这对国家的安全具有一定的威胁性。在其中
特征提取算法在人脸识别研究领域占有重要的地位,是最基本的研究问题之一。目前,人脸特征提取的重点是对算法可行性与有效性的研究。尽管在特征提取领域,已经出现了许多经典的算