基于条件随机场的中文分词消歧研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:viclee0716
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,自然语言处理技术被广泛地应用在生活的各个方面。中文分词技术是自然语言处理领域的一个基础性课题,通过中文分词技术,计算机能够处理人类的自然语言。歧义切分是中文分词技术中的难点之一。歧义主要分为三大类:交集型歧义、组合型歧义和混合型歧义。解决歧义切分的方法主要有三大类:基于词典与规则的方法、基于统计的方法和混合方法。  中文分词是自然语言处理领域中其它任务的基础性工作,所以歧义切分效果的好坏至关重要。目前分词问题歧义处理使用的模型算法有很多,例如隐马尔可夫模型、最大熵模型,但是这些方法都存在着一定的不足,实际应用的效果较差。条件随机场对所有特征实现全局归一化,可以利用长距离的特征,不存在标记偏置的缺点。因此,本文重点研究基于条件随机场模型处理中文分词的歧义问题。  本文所做的主要工作如下:  (1)介绍了中文分词的基本理论和基本方法。双向最大匹配算法是中文分词技术的基础工作,可以实现对文本的初步切分,影响其他后续任务的实际效果。隐马尔可夫模型和最大熵模型是被广泛应用于实际工作的基于统计的分词技术,该类方法具有较高的实用性。数据平滑技术主要分析了加法平滑方法、古德-图灵估计方法和Katz平滑方法。  (2)分析了条件随机场的理论,利用条件随机场的特征选择算法以适应切分消歧的要求。利用条件随机场的无向图模型特性将文本进行有效的标注,根据实际需求设计特定的特征模板,对文本进行有效的切分处理。  (3)研究歧义字段的特征模板的构建,并且利用构建的特征模板进行特征选择,选出有代表性的、不冗余的有效特征。  (4)利用模型进行歧义字段消歧处理。通过训练语料选取合适的函数参数,对测试语料进行封闭测试和开放测试,通过比较得出结论。  (5)基于条件随机场模型构建一个中文分词系统。该系统以双向最大匹配为基础,找出存在切分歧义的词语,然后通过基于条件随机场的改进算法进行进一步地切分处理。
其他文献
随着Web2.0时代的到来,人们渐渐从信息接收者转变为信息创造者,信息分享也变得更加容易,人们在享受着互联网带来的便利的同时,也逐渐被信息过载问题所困扰。面对浩瀚的、令人
随着互联网高速发展,网络中的信息飞速增加更多的人参与到互联网中进行发言和互动交流为充分地分析和预测舆论走向和趋势,互联网舆情相关技术应运而生截止到2012年,中国网页总数
四点接触球轴承跑合装置作为一个测试卫星零部件的设备,主要用于测试控制力矩陀螺用四点接触球轴承,在轴承装入整机前需要对其进行跑合。轴承内部的配合和摩擦力矩是轴承的重要技术指标,而轴承内部的配合和摩擦力矩受到多种因素的影响,而这些影响需要通过分析测试设备的跑合数据得出结论。本课题主要描述四点接触球轴承真空跑合装置控制系统的设计与实现。本文首先论述了四点接触球轴承跑合装置的总体结构设计,给出了各个部件的
微博的开放性与便捷性,使得微博己经成为了网络舆论传播的一个重要平台。但是微博信息量大,传播速度快,这给网络舆情的收集和管理工作带来了挑战。因此,如何从微博信息流中及
随着IT技术的进步,互联网已经深入到了人们的日常生活之中,各种网络服务也开始迅速增长。但是,巨大的网络流量已经造成了用户之间的网络拥塞问题,导致网络的服务质量和用户体验降
随着计算机硬件的发展以及有关需求的推动,虚拟化技术成为了当前计算机研究的一个热点。通过使用虚拟化技术,可以充分提高对硬件资源的使用率以及分配的灵活性。在虚拟桌面以及
本文深入分析了J2EE的多层体系结构及其存在的缺陷,并对MVC设计模式进行了分析。然后,对三种流行的轻量级开源框架Struts2、Spring和Hibernate进行了比较,Struts2实现并继承了MV
随着社会的不断发展和进步,企业的人力资源数据越来越多。如何从这些人力资源数据中挖掘出信息,已经成为企业发展建设过程中的迫切需求,而数据挖掘技术为企业人力资源的需求预测带来了新的机遇。通过良好的人力资源挖掘及预测技术可以帮助企业管理者清晰的了解企业人力资源状况,为其提供正确的人力资源需求预测数据,以帮助管理者更好的管理企业。本文首先对需求预测的定性与定量分析进行研究,对数据挖掘算法进行研究并分析对比
随着云存储技术的不断成熟和信息的海量增长,云存储系统得到越来越广泛的应用,同时也带来了用户对其数据不可控、云存储服务提供商不可信和用户数据泄漏等新的云存储安全隐患,传
在汽车的发展进程中,对于人类来说汽车驾驶辅助系统的研究始终是汽车使用者非常看重的一环。近年来,随着智能化产品的兴起,各种智能化产品层出不穷。Android嵌入式系统的流行