【摘 要】
:
词聚类就是对一些纷繁的个别词应用某种方法进行分组形成语义相近或相关的词类(或词聚簇)。它在智能检索、文本分类、词义排歧、机器翻译等领域都有广泛的应用,是语言学和自
论文部分内容阅读
词聚类就是对一些纷繁的个别词应用某种方法进行分组形成语义相近或相关的词类(或词聚簇)。它在智能检索、文本分类、词义排歧、机器翻译等领域都有广泛的应用,是语言学和自然语言处理中十分重要的研究课题之一。
在词聚类技术中,采用什么样的词语相似度计算方法以及如何对词语聚类,往往决定了词聚类效果的好坏。传统基于互信息的词聚类方法由于简单、易于实现等特点,被应用在了基于上下文的机器自动聚类中。该方法存在两个问题:
(1)未考虑词对的不同分布所造成的词语关联强度差异;
(2)虚假关联问题,即有些实际较强的关联关系计算结果较弱,反之某些实际较弱的关联关系计算结果较强,这与实际情况不符。
本文针对传统基于互信息的词聚类方法存在的以上两个问题,围绕如何计算词语相似度及选用合适的词聚类算法开展了研究工作:
首先,本文提出了一种基于关联分布的词语相似度计算方法。该方法用词语关联分布规范化因子对传统互信息度量待聚类词和基词关联度的方法进行了修正,即用关联的累积分布函数更准确的度量其关联度;然后由所得关联度构造待聚类词的属性向量;最后由属性向量利用夹角余弦法计算出待聚类词语相似度。实验结果表明,新方法比传统方法有更好的词语相似度计算效果。
其次,实现了基于关联分布相似度的词语聚类算法。该算法以基于关联分布的词语相似度计算方法所得待聚类词语相似度为基础,利用仿射传播聚类算法,将词对相似度转换为矩阵形式作为输入,在算法开始时将所有的待聚类词语都视为潜在的聚类中心,算法通过迭代循环不断进行消息传递,以产生一些高质量的词聚类代表,然后将各词分配给最近的词聚类代表所属的类,则找到的聚类即是词聚类结果。实验结果表明,该算法能够较准确地进行中文词语聚类。
其他文献
随着多媒体技术的发展和互联网的普及,数字多媒体作品的制作、处理和网上传播越来越便捷,多媒体数字化给人们提供便利的同时,也给知识产权的保护带来挑战,数字媒体作品尤其是
网页浏览和搜索引擎的关键字检索是人们从Internet上获取信息的传统方法,其局限性主要表现在:网页浏览方式很难在Internet上定何特定的知识;搜索引擎则很容易将所需知识淹没在大
随着计算机计算能力的迅速提高,计算机的普及以及Internet的迅速发展,个人信息的安全性变得越来越脆弱,传统的数据加密技术可以部分地克服信息的随意散布,但随着破译技术的迅
随着互联网技术的快速发展,计算机辅助设计系统呈现网络化的趋势。基于互联网的计算机辅助设计系统能够充分利用异地资源,实现计算机支持的协同工作,从而有效地缩短产品的开发周
随着BBS,聊天室,即时通讯软件,手机短信等这些短文本在Internet信息流中日益突出的地位,人们迫切需要一些自动化工具帮助进行短文本海量信息处理。短文本命名实体识别是短文
近年来,随着我国经济社会不断发展,劳动争议案件也呈上升趋势,特别是劳动合同法和劳动争议调解仲裁法颁布实施后,劳动者维权意识不断加强,使得劳动争议仲裁案件明显增多。与
图像分割主要是把特定的感兴趣的区域提取出来的技术,它是图像识别、图像检测和图像匹配中的关键步骤,从图像处理到图像分析起到了枢纽的作用,在图像工程中占着极为重要的位置。
随着虚拟现实技术和仿真技术的兴起,快速、健壮的碰撞检测检测算法在虚拟现实、计算机游戏、计算机辅助设计等领域扮演着重要角色。在刚体对象的碰撞处理中,由于模型不会发生
图像分类是计算机视觉和人工智能领域最近几年的研究热点。支持向量机是基于结构风险最小化原理的高效分类器,其核心技术之一是核函数。塔形匹配核(Pyramid Matching Kernel,PMK
数字水印是一种信息隐藏技术,通过将具有确定性和保密性的信息(水印)直接嵌入到数字化媒体中,使之作为原始数据的一部分保留在其中,即使在解密之后仍可以对数据的复制和传输