基于规则与统计相结合的中文文本自动查错模型与算法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:xiaoyawxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念.提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43%,误报率为30.57%。
其他文献
目的加强对高龄前列腺增生患者心血管疾病的围手术期处理,以降低患者围手术期心血管疾病风险及提高患者术后生活质量。方法回顾性分析我院60岁以上前列腺增生合并心血管疾病
药物在贮存过程中,在外界条件和自身性质的相互作用下,容易发生物理或化学变化。尤其是中药大都含有淀粉、蛋白质、脂肪油、纤维素、鞣质等成分,如果贮存不当,易出现发霉、虫
目的 探讨 14 6例急性胰腺炎 (AP)病人凝血系统的变化及临床意义。方法 用全自动血凝分析仪 ,检测AP组和正常对照组 (NC)的凝血酶原时间 (PT)、凝血酶原时间国际标准化指数
教学实践与师范生就业效果呈正相关,对就业各环节均产生正向效能。以河北师范大学学生参加顶岗实习支教教学实践为背景,反思教学实践中存在的问题,通过加强教学指导团队建设
水果礼盒是指用于包装水果的礼品盒子。在礼盒设计上需要掌握好表面硬度与内部空间大小的排列,在礼盒制作上注意根据水果的不同特性进行礼盒包装材料的选择。对比其他礼品,除
我国正处在经济社会发展转型期和城镇化高速推进期,土地征用和失地农户将是长期存在的社会现象,但土地征用是否会具有收入效应仍然莫衷一是,缺乏准确估计。本文基于2011年成
随着科技水平的日新月异,媒体技术改变着传播路径、传播内容,同时,也引导着传、授双方的传授方式.我们也经历了从印刷媒介到电子媒介再到网络媒介的融媒体.融媒体时代新闻与
目的:筛选出有效评价高校大学有氧耐力的指标.方法:选取289名20.04±1.07岁普通大学生,采用跑台和遥测肺功仪进行最大吸氧量测试,并进行了不同高度的台阶试验测试和不同距离耐力
我国著名科学家钱学森对未来教育作了如此论述:“未来教育=人脑+电脑+网络”。随着多媒体教学的不断发展,交互式电子白板以其独有的优势开始成为课堂教学中深受师生们喜爱的媒体
江苏省委十三届六次全会首次提出“加快省内全域一体化”,明确要求“更好地推动苏南苏中苏北南北联动、跨江融合”。作为全省南北共建园区的先行者,苏州宿迁工业园区在历年全