基于规则与统计相结合的中文文本自动查错模型与算法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：xiaoyawxh

【摘要】

：

中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多

【作者】

：

张仰森曹元大俞士汶

【机构】

：

北京大学计算语言学研究所,北京理工大学计算机科学工程系,北京信息科技大学计算机及自动化系

【出处】

：

中文信息学报

【发表日期】

：

2006年4期

【关键词】

：

计算机应用中文信息处理中文文本自动查错规则与统计相结合非多字词错误真多字词错误

【基金项目】

：

国家973项目资助(2004CB318102);国家863计划资助(2001AA114210,2002AA117010);中国博士后基金项目资助(2005038026)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念．提出一组错误发现规则，并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合，建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验，所提算法的查错召回率为86．85％、准确率为69．43％，误报率为30．57％。

其他文献

高龄前列腺增生患者合并心血管疾病的围手术期处理

目的加强对高龄前列腺增生患者心血管疾病的围手术期处理,以降低患者围手术期心血管疾病风险及提高患者术后生活质量。方法回顾性分析我院60岁以上前列腺增生合并心血管疾病

期刊

经尿道前列腺电切术心血管疾病高龄

常见药物变异现象及保管养护方法

药物在贮存过程中,在外界条件和自身性质的相互作用下,容易发生物理或化学变化。尤其是中药大都含有淀粉、蛋白质、脂肪油、纤维素、鞣质等成分,如果贮存不当,易出现发霉、虫

期刊

药物变异因素药物变异现象药物保管养护

急性胰腺炎血浆凝血功能检测的临床意义

目的　探讨 14 6例急性胰腺炎 (AP)病人凝血系统的变化及临床意义。方法　用全自动血凝分析仪 ,检测AP组和正常对照组 (NC)的凝血酶原时间 (PT)、凝血酶原时间国际标准化指数

期刊

急性胰腺炎多器官功能障碍综合征凝血酶原时间

就业效果视域下高师院校教学实践活动分析——以河北师范大学为例

教学实践与师范生就业效果呈正相关,对就业各环节均产生正向效能。以河北师范大学学生参加顶岗实习支教教学实践为背景,反思教学实践中存在的问题,通过加强教学指导团队建设

期刊

顶岗实习教学实践师范生就业

水果包装经营发展的新思路

水果礼盒是指用于包装水果的礼品盒子。在礼盒设计上需要掌握好表面硬度与内部空间大小的排列,在礼盒制作上注意根据水果的不同特性进行礼盒包装材料的选择。对比其他礼品,除

期刊

礼品包装盒水果包装盒包装容器

土地征用的农户收入效应——基于倾向得分匹配(PSM)的反事实估计

我国正处在经济社会发展转型期和城镇化高速推进期,土地征用和失地农户将是长期存在的社会现象,但土地征用是否会具有收入效应仍然莫衷一是,缺乏准确估计。本文基于2011年成

期刊

土地征用失地农户农业收入非农收入PSM模型

融媒体视域下新闻与传播专业影像课程的实践与革新

随着科技水平的日新月异,媒体技术改变着传播路径、传播内容,同时,也引导着传、授双方的传授方式.我们也经历了从印刷媒介到电子媒介再到网络媒介的融媒体.融媒体时代新闻与

期刊

融媒体影像课程实践

我国高校大学生有氧耐力评价指标筛选研究

目的：筛选出有效评价高校大学有氧耐力的指标．方法：选取289名20．04±1．07岁普通大学生，采用跑台和遥测肺功仪进行最大吸氧量测试，并进行了不同高度的台阶试验测试和不同距离耐力

期刊

有氧耐力大学生1500米最大吸氧量

交互式电子白板技术与数学课程整合的实践与反思

我国著名科学家钱学森对未来教育作了如此论述：“未来教育=人脑＋电脑＋网络”。随着多媒体教学的不断发展，交互式电子白板以其独有的优势开始成为课堂教学中深受师生们喜爱的媒体

期刊

新课改交互式电子白板技术数学学科整合

打造南北共建示范工业园

江苏省委十三届六次全会首次提出“加快省内全域一体化”,明确要求“更好地推动苏南苏中苏北南北联动、跨江融合”。作为全省南北共建园区的先行者,苏州宿迁工业园区在历年全

期刊

工业园区共建园区梦工厂长电科技宿迁市公共预算收入

基于规则与统计相结合的中文文本自动查错模型与算法

其他学术论文