基于边界点词性特征统计的韵律短语切分

来源 :中文信息学报 | 被引量 : 29次 | 上传用户:iris_1204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于基于规则方法的文本处理系统在系统建立时需要总结大量的规则 ,而且很难保证它在处理大规模真实文本时的强壮性 ,因此本文在使用统计方法进行韵律短语切分方面做了一些有益的探索。先对文本进行自动分词和自动词性标注 ,然后利用从已经经过人工标注的语料库中得到的韵律短语切分点的边界模式以及概率信息 ,对文本中的韵律短语切分点进行自动预测 ,最后利用规则进行适当的纠错。通过对一千句的真实文本进行封闭和开放测试 ,词性标注的正确率在 95%左右 ,韵律短语切分的召回率在 6 0 %左右 ,正确率达到了 80 %。
其他文献
C语言凭借功能强大、语法简洁、使用方便等优点成为目前程序设计工作中使用最广泛的语言之一.结合教学实际,分类例举出C语言中常见错误并分析产生原因,提出解决方法,以提高学
以结晶硫化钠和对二氯苯为原料,采用碱金属醋酸盐催化剂合成高线型聚苯硫醚(PPS)树脂,考察了碱金属醋酸盐催化剂用量、反应温度和反应时间对PPS产品进行表征对PPS产品的熔体流
DHCP服务器可以为网络中的主机动态分配IP地址.从技术性和实用性角度,阐述如何在Linux系统下通过配置DHCP服务器和DHCP中继代理,实现多网段共享一台DHCP服务器.
<全衡>是第一个较全面考虑香港和国际的需求的网上汉字输入系统,其核心部件是词典.<全衡>使用的是一部拥有六万余词条的词典,每一词条讲述一个词语,信息包括该词语的简体字形