基于隐马尔可夫模型的中英文句子分析与研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:a391137182
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言和互联网的飞速发展,全球每天都有成千上万甚至上亿的各种新闻事件发布,而大部分是英文新闻,在汉语国家中也有大量的中文新闻公布,如何从这些大量英文新闻中快速的识别其主旨,识别出其具体的名词和动词,这取决于该句子中每个英文单词的具体标记词性。本文采用隐马尔可夫模型对英文句子标记语料库进行训练然后得出英文隐马尔可夫模型文件,然后用该模型文件去标记识别英文句子具体成分,找出句子中对应具体的名词和动词,从而提炼句子,找到该句子或该文章中的主题关键字,因此我们只需要读取这些主题词便可了解该文章大致内容,就不必再详细看细节内容了。也可以利用这种识别标记应用于多篇英文文章分析。这种自动帮我们识别词性并分析为我们节约大量的读英文新闻时间。   同样,对于大量的中文句子我们如何让机器自动断句分词,找出一篇文章中重复度很高的名词和动词确定主旨词,也可用于比较文章的相似度和相关度,甚至可对这些中文分词结果作中文词性分析,识别出句子中具体的名词、动词、形容词、副词、介词、助词等。根据此要求本文也采用隐马尔可夫模型对大量的中文词库训练集进行训练,得到中文隐马尔可夫模型文件,然后用所得中文隐马尔可夫模型文件去对中文句子进行快速自动分词,以供搜索引擎使用,还可以用在切词软件中,并且所得的分词结果可用在中文篇章分析中,得出文章的相关度。   以上两种功能的核心是采用马尔可夫链来建隐马尔可夫模型,从建模型文件过程得出一些英文单词与下一单词的概率数值,也可以得出一个中文汉字和下一汉字之间概率数值。利用这些概率数值来识别标记英文句子词性和确定中文句子中字与字之间组成词关系,进行匹配从而实现功能。其结果准确率能满足我们大量的应该需要,同时我们也可以利用这两个模型文件分别对大量的英文句子和中文句子标记识别和分词,将所得结果写成语料库和训练集格式形式,从而快速形成大量丰富的语料库和训练集。
其他文献
在云计算趋势下,桌面虚拟化越来越成为一个关注的热点。桌面虚拟化将用户的桌面操作系统集中运行在服务器端,服务器使用虚拟化技术,在一台物理服务器上同时运行多个桌面操作
随着家居电商的进一步发展,用户对个性化推荐的需求与日俱增,各种各样的推荐算法开始应用其中。传统的聚类推荐算法,每个参与的用户或物品只能属于一种类别,因此很难描述每个
近几十年来,随着半导体工业飞速发展,片上能集成的晶体管数目越来越多。如何有效组织片上日益增加的晶体管数目,来设计与制造更高性能的处理器,是计算机体系结构面临的一个重要挑
近年来,随着多传感器信息融合技术的发展,红外与微光图像的融合已成为图像处理领域研究的一个热点,在夜视图像研究领域更是备受关注。红外热像仪输出的图像反映的是目标场景
Web服务作为实现面向服务计算的标准技术,是一个平台独立的、松耦合的、自包含的、基于可编程的Web的应用程序,它采用开放的XML标准描述、发布和配置这些应用程序,由于其对异
网络流量分类识别是互联网研究领域的重要分支。互联网流量的深入分析研究对于网络扩容和优化、网络安全、上层用户行为分析等具有重要意义。近年来,互联网的持续演进和发展给
无线传感器网络的节点能量非常有限,全部由自带电池供给难以更新,因此在路由设计时如何最大化地节省节点的能量以延长网络寿命是无线传感器网络发展亟待解决的关键技术和重要问
在经济全球化的背景下,选择合适的合作伙伴共同完成生产任务,是保证生产顺利进行和企业最终盈利的关键。合作伙伴的选择包括综合评价和优化组合两个主要环节。科学有效的综合
随着信息时代的来临以及互联网络的飞速普及,人们的生活习惯也随之发生了很大的变化,把更多的时间和精力从报纸刊物转向了网络媒体。网络媒体已经成为了人们获取信息的重要途
煤炭是我国能源的主体,我山西省矿产资源丰富,素有“煤矿之乡”之称,在全国的煤炭生产中煤储量中占有非常大的比例。在煤矿安全生产中,危害性最大的是瓦斯突出,因此对瓦斯突