面向Web文本的数据清洗关键技术的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:cau_hechun1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和因特网的快速发展,Web资源已经成为人们获取知识与信息的重要来源。Web蕴含了大量的文本信息,如何将Web资源的文本数据提取出来,组织成有确定模式结构的、有明确语义信息的、支持高级数据应用的有用的信息,将其载入到Web文本数据仓库中去,成为面向Web文本的数据清洗技术研究的重点。本论文的研究内容是面向Web文本的数据清洗技术的研究与系统的实现。通过开发Web文本数据清洗系统,重点研究和讨论了所涉及的Web文本清洗的关键技术。介绍了基于主题方法的Web文本数据仓库构建技术,并使用该技术设计了Web文本数据仓库。根据HTML的结构特点,提出将其映射为树型结构,通过HTML的解析获取Web文本的主要内容。考虑到中文数据的特点,采用了基于字典的统计分词算法实现文本分词;利用分词的结果采用基于词共现模型的方法实现关键词的提取;使用基于统计的摘要算法,采用直接从原文中选取子句生成摘要的方法实现自动摘要的提取。提出了一种基于SVM的多类分类方法,根据多个分类器对测试文本分类。采用基于向量空间模型的TF-IDF方法实现了相似文本清洗功能。针对以上研究成果,本文描述了Web文本数据清洗系统的设计和实现细节。
其他文献
矿渣粉具有很好的活性,掺入混凝土中能够改善混凝土结构,减少水泥用量,降低水化热,抑制骨料碱活性反应,是一种经济、环保的混凝土掺合料。掺入适量矿渣粉能够配制满足设计、施工要
纳米金棒、上转换发光纳米材料和相干非线性拉曼散射成像等技术凭着他们独特的光学性质和优势在生物光子学领域尤其是光学生物成像分支有着广泛的应用研究,它们是当前国际学
零件建模是机械设计必要环节,而复杂叉架类、箱体类零件是机械零件中特征繁多、结构复杂、含有曲面和不对称结构的两类零件,建模难度大,准确度和效率低。以Solidworks为建模
在电控发动机维修教学过程中,为了很好地结合实物进行讲授,对几个型号的本田电控汽油发动机各控制装置进行了推理分析,并对分析结果进行拆解验证。结果表明:通过运用相关控制原理
两会如期举行,来自各行各业的人大代表们再一次齐聚首都,共商发展大计,共献良策。在往年两会中,制造业企业家们关注的焦点多在互联网、人工智能与大数据等领域。今年,人工智
期刊
和田喀拉格尔水电站增效扩容改造是新疆立式水轮发电机组整体更换、水下二期混凝土全部拆除的第一例。原水轮发电机组拆除、新建机组与未改造机组及厂房整体之间的布置成为工