基于Hadoop平台的文本分类应用研究

被引量 : 0次 | 上传用户:squallcl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在线文档信息的迅速增加,文本分类成为处理和组织文档数据的关键技术,研究如何对海量的非结构化文本数据进行分类有着十分重要的意义,而云计算为处理海量数据提供了强有力的工具。为此本文研究了基于开源分布式平台Hadoop的文本分类,主要做了以下工作:1.研究了Hadoop的原理及系统架构,包括Hadoop的两大核心(HDFS和MapReduce)的原理及运作机制、新一代的MapReduce:YARN、Hadoop的安装配置方法等。2.研究了文本分类的原理和关键技术,文本分类的实现流程以及各部分所涉及的关键技术,包括文本预处理、向量空间模型、特征词权重计算、文本特征降维等。在分类算法中主要研究了朴素贝叶斯和KNN算法,并设计和实现了这两个算法对应的文本分类器,并通过单机实验分析和比较分类器间的性能。3.通过将文本分类流程中的步骤MapReduce化,分别设计和实现了并行化版本的贝叶斯分类器和KNN分类器。4.研究了PCA降维、将特征词映射为概念的降维方法等。分别将PCA降维和HowNet降维应用到KNN文本分类并实现对应的分类器,并通过实验比较和分析两个降维方法造成的性能差异。然后使用MapReduce模型设计和实现基于HowNet降维的KNN并行分类器,最后通过在Hadoop集群上的实验验证并行分类器的有效性及观察分布式特性对分类效率的影响。
其他文献
预应力混凝土箱梁是桥梁在城市和公路桥梁中被广泛采用,其具有受力性能好、承载力高、抗扭刚度大等优点,从出现至今已经成为桥梁中普遍采用的梁的形式,尤其在大跨连续梁桥、
本研究结合成都市的基本情况,选取4组有代表性的指标,采取K均值聚类分析和GIS空间叠加方法对成都市进行了农业功能分区。将成都市划分为6个功能分区:(1)都江堰平坝农产品供给
学校应急管理是国家公共危机管理的组成部分,关系到家庭和社会的和谐和稳定。本文介绍了国内外学校应急管理现状,提出目前我国学校应急管理中存在的问题,借鉴国外发达国家应
民用机场机坪具有范围小,保障单位和人员多而杂等特点,是航空地面事故的多发环节。本文针对国内某国际机场近五年的机坪事故数据进行统计分析研究,运用事故树的方法定性分析
近年来,随着电力行业制度体制不断地深化改革,电力基础设施建设单位开始自负工程项目建设的盈亏,电力市场竞争变得日益激烈。因此,强化变电站工程建设项目中的成本控制成为电
本论文对旅游个性化推荐进行了研究,对特定领域的非结构化自由文本进行领域概念的实例、属性和属性值的实体识别与抽取,构建了云南旅游本体知识库,为旅游用户在旅游论坛中提
王新志教授认为,中风病急性期主要有两种病理变化:水瘀互结、痰热腑实。治疗上分别采取益气活血利水、化痰通腑攻下原则,并据此研制出中风芪红利水饮、中风星蒌通腑胶囊,用于
对当前炼化企业基层单位HSE管理体系现状进行了分析。指出了基层单位HSE管理理念没有真正转变、HSE管理制度执行力差、HSE管理职责落实不到位、HSE培训缺乏针对性、HSE绩效考
<正>"想不到东山的道路建得可以和高速公路媲美了!"近日,面对记者采访,来到东山旅游的张先生看着双向8车道的疏港公路和双向6车道的西铜公路发出由衷赞叹。东山原是海防前线"
过去十年来,教师反思能力的培养呈现前移的趋势,各学科师范生反思能力的培养也逐渐受到重视。本文对某师范大学探索性实践课程《英语教育学》进行了一学期的观察研究,旨在了