基于层次主题模型的网络新闻汇聚

来源 :浙江大学 | 被引量 : 0次 | 上传用户:csfyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的快速发展,互联网已经成为人们快速获取信息的重要手段之一。尤其是移动互联网的普及,使人们可以随时随地在互联网上分享各式各样的信息,这使得网络上的数据量以极快地速度在膨胀。因此从互联网浩瀚的数据海中快速准确地获取领域相关内容变得非常困难。如何准确地从互联网上汇聚与领域相关的新闻数据已经成为当今大数据时代的重要研究内容。有鉴于此,本文结合网络爬虫技术、文本分类技术与主题建模技术,提出了基于层次主题模型的网络新闻汇聚技术框架,在研究多源网络数据采集与新闻网页并行分类技术的基础上,重点研究主题词筛选技术;此外,本文面向公共安全领域集成相关技术搭建了网络新闻数据汇聚系统。具体工作如下:1)基于层次主题模型的网络新闻汇聚技术框架:有机整合了基于UIL的新闻网页爬虫、百度新闻爬虫、微博爬虫、CNTV网络视频爬虫等多种爬虫,支持多源数据的采集;设计了层次主题模型支持通过新闻网页并行分类与主题词类别标引技术实现网络新闻数据的分类组织。2)主题词筛选算法:针对人工筛选关键词爬虫搜索词遇到的困难和存在的缺陷,提出了基于在线层次狄利克雷过程的主题词筛选算法,实验结果表明,该方法可较好解决自动化筛选搜索关键词的问题。3)面向公共安全的网络新闻数据汇聚系统实现:在上述数据汇聚框架和关键词筛选算法的基础上,实现了面向公共安全的网络新闻汇聚系统,提供数据采集与主题跟踪功能,验证了所提技术框架的可行性。
其他文献
随着计算机硬件性能的日益增强和万维网的迅速发展,计算能力的迁移将会发挥更加重要的作用并最终被广泛采用。利用虚拟技术进行进程迁移一直是计算能力迁移的研究热点,但是,
近年来,基于活动的社交网络逐渐流行。基于活动的社交网络主要帮助用户组织线下活动,在这类社交网络上,用户可以创建、加入兴趣小组,同时兴趣小组的成员可以发起线下活动。随
随着计算机技术的迅猛发展,学校教学和管理的信息化发展也有长足进步,硬件水平不断提高,为实现无纸办公提供了坚实的物质基础,从软硬件双方面把学校建设成一流的信息管理、教育教
现代服务业的飞速发展,对标准化的征信和信用服务提出了要求。为了达到建设我国非官方的、商业化的信用体系的目的,一个标准化的征信和信用管理系统的建设迫在眉睫。传统的电
随着嵌入式技术和网络技术的不断发展,将嵌入式监测设备接入Internet网络进行远程监测正逐步取代传统的监测方案。本文设计了嵌入式远程状态监测系统的总体结构,完成了其核心
随着军事采购信息化的发展,需要处理的信息资源随之飞速增长,军事采购的过程越来越复杂,如何使用计算机对采购过程进行自动和有效的组织和管理,成为当前军事采购信息化建设迫
随着Internet的发展,网络信息安全逐渐成为Internet及各项网络服务和应用进一步发展的关键问题。传统的方法是对操作系统进行安全加固,通过各种各样的安全补丁提高系统本身的
随着互联网的普及和开源框架技术的不断发展,许多早期开发的金融系统已经无法满足金融企业发展的需求,逐渐成为了企业内部的遗留系统。它们一方面保存了企业内部十分重要的商业逻辑和大量珍贵的数据;另一方面也因为技术人才的缺失和开发效率的低下逐渐成为企业发展的瓶颈。因此如何应用更成熟、先进的技术和框架对这些遗留系统进行应用与开发成了目前很多企业关注的焦点。本文所涉及的多货币基金会计系统就是这样一套开发于上世界
程序切片是一种重要的程序分析技术,用于从原有程序中抽取对特定程序点上特定变量有影响的成份以构成新程序,通过分析这种新程序(称为程序切片)达到简化原程序分析的目的。二十
基于移动对象位置的服务(Location Based Service,LBS)是智能交通系统(Intelligence Transportation System,ITS)中的重要组成部分。其中,最优路径选择、实时路况查询、周边目标