语料统计相关论文
针对自然语言处理中利用概念空间进行自动文档处理,本文提出一种基于组合词典和语料统计来计算概念内聚度的方法;该方法融合知识库......
本文介绍了作者近期从5千余万字当代语料中对GB13000.1字符集20902字和88102条词语进行流通频度统计的结果.比用历史语料统计的使......
该文首先简要介绍了机器翻译技术的发展现状和几种主流的机器翻译方法,探讨了基于规则和基于统计两种主要的语言模型,对基于这两种......
汉语句法分析是中文信息处理领域极具挑战性的课题之一。其任务主要是:根据特定的语法把给定的句子转化为词语之间彼此关联的结构形......
大规模语料库中分词不一致现象普遍存在,并影响语料库的建设质量.在对熟语料进行分析统计的基础上,着重研究以"不"开头的双字结构,......
针对特定领域文本特点,提出了一种基于层次特征词权重的文本分类方法.该方法首先通过对特定领域内的语料统计,构建一个具有层次结......
从90年代开始,国际自然语言处理领域的主要特征之一就是转向对大规模真实文本的研究和处理.随着语料规模的不断扩大,统计中的数据......
本文在加工过的网上文本语料统计的基础上,首先用N元递增分步算法,获取含新词语的汉字串:经过初筛选,建立新词语候选词库;最后以构......
本文通过对《红楼梦》宝黛二人诗歌翻译的语料统计,在翻译策略、译文结构、译文语义、案例方面进行对比后表明,霍译的诗歌具有散文......
“倒”和“却”都是现代汉语中的常用副词,但是留学生在日常交际中却常回避它们的使用,即使使用了这两个副词,也会存在错用和混用的问......
为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影响了文本处理的效果.针对该问题,提出一种应用于维吾尔语的停......
建立了一种德语语料词性注方法以及基于词性标注的统计方法,初步实验证明了上述方法对德语语料标注和标注后的语料进行单词,词类,短语......
本文介绍了中文信息处理技术发展的现状及面临的主要困难,指出:关键在于对现代汉语研究的滞后。到目前为止,中文信息处理主要依赖于对......
...
为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影响了文本处理的效果。针对该问题,提出一种应用于维吾尔语的......
文章基于对四本翻译学词典条目语料高频词的统计处理,研究了词典的编排体例,并将共同的10个条目进行了比较。经过统计数据分析和多......
本文通过对《红楼梦》宝黛二人诗歌翻译的语料统计,在翻译策略、译文结构、译文语义、案例方面进行对比后表明,霍译的诗歌具有散文......
本文基于语言主观性的理论视角,采用语料统计的研究方法,对老舍长篇小说《二马》的两个英译本(Lao 2001,2013)中的汉语流水句进行......
建立了一种德语语料词性标注方法以及基于词性标注的统计方法.初步实验证明了上述方法对德语语料标注和标注后的语料进行单词、词类......