论文部分内容阅读
文本自动分类是一种有效的信息处理方法,广泛应用于信息检索、信息过滤、信息管理、数据组织等领域。随着计算机和网络通信技术的发展,Internet迅速成为海量的、动态的全球信息服务中心,如何在浩若烟海而又纷繁芜杂的Web文档中掌握最有效的信息成为信息处理技术遇到的新的挑战。Web文本自动分类技术是目前Web数据挖掘的研究热点之一,它能够有效地组织和管理Web资源,提高信息检索的效率。网页自动分类技术与主题搜索、个性化信息检索、信息过滤、信息主动推送服务等技术相结合,可以有效地提高了信息服务的质量。 传统的Web文本分类是根据网页所涉及的主题来进行分类,如将网页分为政治类、军事类、经济类等等,而根据网页中作者对所描述内容的看法、观点等主观感情色彩进行分类的研究较少,我们称后者为情感分类。网页内容的褒贬性就是明显反映作者观点、态度的感情色彩之一,网页褒贬倾向性分类是未来多角度、立体性、个性化文本分类的研究内容之一。 本文探讨了网页褒贬色彩的客观性和褒贬倾向性分类的可行性,提出了名人网页褒贬感情色彩的综合评价方法。作者通过构建褒贬义词典和褒贬评价模板,提取出网页文本中具有情感取向的褒义词、贬义词及语法结构等褒贬特征,结合情感计算和层次分析法的相关理论,建立褒贬评价模型,实现对名人网页褒贬感情色彩的综合度量。同时,针对褒贬倾向的局限性,文中还提出了一种领域褒贬词典的构建方法,并探讨了使用模板自动更新褒贬词典的可行性方案。 在上述研究的基础上,结合自动分类技术,本文进一步探讨了名人网页褒贬倾向性分类的工作原理和实现方法,提出了LSI和KNN相结合的褒贬分类模型。根据网页的褒贬评价结果,提出了一种新的文本相似度计算方法,并给出了有关特征提取和分类过程的具体算法。最后,在名人网页数据集上,对上述理论进行了实验验证,取得了较好的成效。