基于汉字输入的词频统计方法研究

来源 :汕头大学 | 被引量 : 0次 | 上传用户:Akobe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,利用词频统计分析方法统计文献核心内容的关键词或主题词在某一研究领域文献中出现的频次高低,来预测该领域研究热点和发展动向的研究及应用则越来越多。例如,教育技术领域研究热点管窥、基于词频统计的情报学研究分析、统计视角的数据挖掘研究以及本文要详细讨论的适用于汉字输入的词库研究等等。  目前国内外市场上流行着各种各样的用于汉字输入的拼音输入法和笔画输入法,但都还没有达到理想的输入速度。如果能为汉字输入法提供优秀的词库,并能够按照用户的最常用的习惯来快速输出用户所需要的词语,将必然会提高汉字输入时的效率,达到快速、简便输入的目的。因此,非常有必要继续对汉字输入的词频统计系统进行开发与改进,以此提供一个高效优秀的词库,来提高输入法的输入效率。  本文的重点将置力于研究一种适用于最广大普通用户习惯的词库,包括词库中字词的排序和输出。从过去用户对词语的使用情况出发,以词频为桥梁,以独创算法为工具,完善了适合广大普通用户的汉字输入法词库。本文首先介绍了词频统计的大背景和发展以及研究现状,引出了此文的研究目的。然后,重点介绍了基于汉字输入的词频统计研究的原理与基本思想,详细分析了“标准”词库的选择问题、权值的确定依据,其它词库的选择问题、其它词库的处理流程(包括去重复、词库分解、词库合并等)以及最终词库的生成原理。接着详细介绍了本研究的算法分析,提出一种具有独创的分类排序统计算法。其新颖之处在于,它不仅能对词库进行快速的统计排序,还能使排序结果符合词语实际的使用规律。之后又介绍了词频统计管理软件的框架设计及其具体实现,还对实验结果进行了性能对比分析。最后指出了该设计存在的一些问题和改进方向。
其他文献
为了更快更好地推出新的语音业务,进一步降低运营风险,中国移动计划在全国范围内建设独立的语音增值业务平台,并向业务/内容提供商开放,从而引入更多新业务的竞争,以推动智能业务向
信用是MAS的协作和合作的基石。多Agent之间的信任是MAS合作的前提,也是促进多Agent合作的一个关键因素。纵观现有的各类MAS信用模型,一直存在宏观和微观脱节的问题。在研发“
准确判断温度及温度分布情况在很多领域都具有重要的意义和作用,它广泛应用在航空航天、军事和工业生产领域中。研发专用的示温漆图像识别系统,克服人工分析的弊端,使分析过程数
近几年,代数攻击成为一种新的密码分析技术,很多密码算法都无法抵抗这种攻击方法,像分组密码、流密码、公钥密码甚至是 hash函数都受到了威胁。随着代数攻击的出现,代数免疫度成
CORBA(CommonObiectRequestBrokerArchitecture)为企业提供了独立于语言和网络协议的互操作性标准框架,简化了普通分布式应用的开发。随着CORBA的逐渐成熟,以及越来越多的CORBA
网络舆情作为社会舆论的重要表现形式,伴随着互联网的普及而迅猛发展,进而影响着现实社会。面对我国相当数量的网络群体,部分别有用心的人或团体,容易借助网络舆情突发性、随
在信息时代,为了快速响应市场需求,提高企业的市场竞争力,企业必须加强面向过程的管理。作为实现现代企业过程集成、过程自动化和企业经营过程重组的关键技术,工作流技术越来
  本文在“三维场景真实感技术研究”课题的支持下,并结合“交互式三维建模技术及物理仿真研究”这个横向课题,对非真实感绘制的相关技术进行了研究,并分析和比较了其与真实感
几十年计算机软硬件技术的发展为人们提供了丰富的软硬件产品,包括3D相关软硬件等。尤其是在工业设计领域,大量地应用3D软件产品。当然,探索工业产品创意设计软件的开发,一直是产
随着Internet的日益普及以及用户对文件共享需求的日益增加,为了保证网络用户之间文件共享的高效性和可靠性,以P2P技术为基础,通过对典型的P2P文件共享系统Gnutella实现方案的分