论文部分内容阅读
随着计算机技术和因特网的快速发展,Web资源已经成为人们获取知识与信息的重要来源。Web蕴含了大量的文本信息,如何将Web资源的文本数据提取出来,组织成有确定模式结构的、有明确语义信息的、支持高级数据应用的有用的信息,将其载入到Web文本数据仓库中去,成为面向Web文本的数据清洗技术研究的重点。本论文的研究内容是面向Web文本的数据清洗技术的研究与系统的实现。通过开发Web文本数据清洗系统,重点研究和讨论了所涉及的Web文本清洗的关键技术。介绍了基于主题方法的Web文本数据仓库构建技术,并使用该技术设计了Web文本数据仓库。根据HTML的结构特点,提出将其映射为树型结构,通过HTML的解析获取Web文本的主要内容。考虑到中文数据的特点,采用了基于字典的统计分词算法实现文本分词;利用分词的结果采用基于词共现模型的方法实现关键词的提取;使用基于统计的摘要算法,采用直接从原文中选取子句生成摘要的方法实现自动摘要的提取。提出了一种基于SVM的多类分类方法,根据多个分类器对测试文本分类。采用基于向量空间模型的TF-IDF方法实现了相似文本清洗功能。针对以上研究成果,本文描述了Web文本数据清洗系统的设计和实现细节。