分析分类数据的一种方法——对偶刻度法

来源 :第二届全国学生计算语言学研讨会 | 被引量 : 0次 | 上传用户:woaiwojiaren5210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文介绍一种处理分类数据的多元统计方法——对偶刻度法,结合它在群体研讨中的具体应用,描述其对专家发言(分类数据)的实时处理,聚类分析和可视化显示.
其他文献
本文简要介绍了CTT软件,并介绍了利用它在简单的CFG形式化体系下做汉语自动句法分析的状况、存在问题、解决办法,提出了利用CTT开发智能的对外汉语教学软件的设想.
词义消歧在自然语言处理的许多应用领域都起着十分重要的作用.为了适用于大规模的词义消歧,提出了一种无导的学习方法.基于向量空间模型,结合机读词典和义类词典建立从义项到义类的映射关系,再利用义类知识在语料库中无导学习消歧特征,最后利用这些特性实现词义消歧.
双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题,其中涉及词法、语法、语义以及不同语言间的固有差异和翻译习惯等诸多问题.本文在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧算法,将词对齐问题转化为迭代求解锚点词对的过程,取得了较好的效果.经过对真实语料的测试,词对齐准确率达93.0﹪,召回率达77.3﹪,F值
本文描述了一种采取姓氏触发策略,基于最大熵模型的中文姓名识别方法.在识别过程中,首先对候选姓氏进行归类,然后对于多义候选姓氏,通过提取其上下文信息,利用最大熵模型来判断姓氏,最后识别出整个姓名,从而完成对中文姓名的识别过程.
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接影响到自然语言处理中诸多问题的解决.现在大部分的词义消歧方法都是在分词的基础上做的.借鉴前人的向量空间模型运用统计的方法,本文提出了不用直接分词而在术语抽取的基础上做消歧工作.在义项矩阵的计算中,采用改进的tf.idf.ig方法.在8个汉语高频多义次的测试中取得了平均准确率为84.52﹪的较好的效果,验证了该方法的有效性.
本文以动词次范畴化框架(subcategorization frame,& SCF for short)为句式描写,提出一种语言学知识与统计方法相结合的汉语句式转换信息自动获取方案.首先以语义相关系数为量度自动生成可能发生句式转换的候选句式对,然后依次以句式对频率和SCF句法相关系数为观察量对候选集合进行最大似然假设过滤.结果表明,自动获取的SCF句式转换对的精确率为68.37﹪,召回率达到81.
目前世界上典型通用的语言生成方法大致有四种:封装文本,基于模板,基于短语以及基于特征的方法.这些方法基本上都是针对英语提出来的,由于汉语(典型的分析语)与英语(属于印欧语系)的语法特点差异很大,它们并不完全适用于汉语.基于短语本位语法体系,综合基于短语方法的层叠思想和基于模板方法的实现结构,我们设计了一个混合模板方法用于实现限定任务领域的汉语口语人机对话系统的语言生成器.实验表明,此方法拥有相对令
在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点.属于同一类型的条目文本中总是重复出现有限的几个知识点,这些知识点构成了有关该类型的知识点集合,并且这些知识点在该类型中不同的条目文本中的分布有较强的规律性.在条目文本中划分出这些知识点是百科全书中知识提取过程的重要一环.本文中提出了一种基于隐马尔科夫(HMM)模型的划分方法,利用知识点在条目文本中的转移规
本文从一个机器辅助翻译系统出发,采用分层次的多级索引结构,构造了一个具有综合作用的词典,由系统词典和用户词典组成,该词典的使用穿插于整个系统的使用,在实际的使用过程中发挥了较高的效率.文章详细阐述了构造词典的整个过程.
"Of-短语"在英语中是一类重要的短语结构,准确理解"of-短语"的结构及其构成关系,对于机器翻译的发展意义重大.本文在尤金·奈达博士提出的框架基础上,就"of-短语"的理解和翻译问题,提出了13类不同的语义结构关系,并进一步进行了应用性探讨,提出了每种关系在英汉机器翻译中可供选择的结构框架.