论文部分内容阅读
近年来,利用词频统计分析方法统计文献核心内容的关键词或主题词在某一研究领域文献中出现的频次高低,来预测该领域研究热点和发展动向的研究及应用则越来越多。例如,教育技术领域研究热点管窥、基于词频统计的情报学研究分析、统计视角的数据挖掘研究以及本文要详细讨论的适用于汉字输入的词库研究等等。 目前国内外市场上流行着各种各样的用于汉字输入的拼音输入法和笔画输入法,但都还没有达到理想的输入速度。如果能为汉字输入法提供优秀的词库,并能够按照用户的最常用的习惯来快速输出用户所需要的词语,将必然会提高汉字输入时的效率,达到快速、简便输入的目的。因此,非常有必要继续对汉字输入的词频统计系统进行开发与改进,以此提供一个高效优秀的词库,来提高输入法的输入效率。 本文的重点将置力于研究一种适用于最广大普通用户习惯的词库,包括词库中字词的排序和输出。从过去用户对词语的使用情况出发,以词频为桥梁,以独创算法为工具,完善了适合广大普通用户的汉字输入法词库。本文首先介绍了词频统计的大背景和发展以及研究现状,引出了此文的研究目的。然后,重点介绍了基于汉字输入的词频统计研究的原理与基本思想,详细分析了“标准”词库的选择问题、权值的确定依据,其它词库的选择问题、其它词库的处理流程(包括去重复、词库分解、词库合并等)以及最终词库的生成原理。接着详细介绍了本研究的算法分析,提出一种具有独创的分类排序统计算法。其新颖之处在于,它不仅能对词库进行快速的统计排序,还能使排序结果符合词语实际的使用规律。之后又介绍了词频统计管理软件的框架设计及其具体实现,还对实验结果进行了性能对比分析。最后指出了该设计存在的一些问题和改进方向。