中文网页褒贬倾向性分类研究

被引量 : 0次 | 上传用户:jg1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类是一种有效的信息处理方法,广泛应用于信息检索、信息过滤、信息管理、数据组织等领域。随着计算机和网络通信技术的发展,Internet迅速成为海量的、动态的全球信息服务中心,如何在浩若烟海而又纷繁芜杂的Web文档中掌握最有效的信息成为信息处理技术遇到的新的挑战。Web文本自动分类技术是目前Web数据挖掘的研究热点之一,它能够有效地组织和管理Web资源,提高信息检索的效率。网页自动分类技术与主题搜索、个性化信息检索、信息过滤、信息主动推送服务等技术相结合,可以有效地提高了信息服务的质量。 传统的Web文本分类是根据网页所涉及的主题来进行分类,如将网页分为政治类、军事类、经济类等等,而根据网页中作者对所描述内容的看法、观点等主观感情色彩进行分类的研究较少,我们称后者为情感分类。网页内容的褒贬性就是明显反映作者观点、态度的感情色彩之一,网页褒贬倾向性分类是未来多角度、立体性、个性化文本分类的研究内容之一。 本文探讨了网页褒贬色彩的客观性和褒贬倾向性分类的可行性,提出了名人网页褒贬感情色彩的综合评价方法。作者通过构建褒贬义词典和褒贬评价模板,提取出网页文本中具有情感取向的褒义词、贬义词及语法结构等褒贬特征,结合情感计算和层次分析法的相关理论,建立褒贬评价模型,实现对名人网页褒贬感情色彩的综合度量。同时,针对褒贬倾向的局限性,文中还提出了一种领域褒贬词典的构建方法,并探讨了使用模板自动更新褒贬词典的可行性方案。 在上述研究的基础上,结合自动分类技术,本文进一步探讨了名人网页褒贬倾向性分类的工作原理和实现方法,提出了LSI和KNN相结合的褒贬分类模型。根据网页的褒贬评价结果,提出了一种新的文本相似度计算方法,并给出了有关特征提取和分类过程的具体算法。最后,在名人网页数据集上,对上述理论进行了实验验证,取得了较好的成效。
其他文献
祖先留下了光辉灿烂的历史文化遗产,在市场经济条件下,后人对遗产资源如何保护、开发和利用的问题值得深思。我们应该对遗产资源有新的开发,并充分地利用资源优势,发展文化旅
信用卡诈骗罪是伴随着现代科技的发展而产生的,它具有较高智能性、较强隐蔽性和较大危害性的特点。由于信用卡具有全球性支付手段的特性,信用卡犯罪也是一种全球性的犯罪现象
随着我国浅表有色金属矿床即将消耗殆尽,深井开采在我国今后的矿山开采所占比例将逐步加大,其岩石力学和深井灾害的研究对深井矿山的建设具有重要意义。介绍深井开采的岩石力学
测定不同产地、品种金银花中绿原酸和木犀草苷的含量。按照2010年版《中国药典》金银花项下规定的HPLC法分别测定各样品中绿原酸和木犀草苷的含量。结果表明13个不同产地来源
以黄豆和紫薯为主要原料,通过传统豆腐工艺加工制作新型豆腐。通过单因素与多因素正交试验,确定紫薯豆腐的最佳配方工艺条件。结果表明:温度对产品感官品质的影响最大,其次是
通过对《伤寒论》中针药并用条文的分析,进一步确立针灸在临床中的地位,明确仲景在治疗疾病时,药物与针灸并用的方法。通过对《伤寒论》版本的梳理与考证,将所收录原文的条目
本文以雷竹笋为原料,对雷竹笋加工后的下脚料进行研究,探讨制备膳食纤维的工艺技术路线,并对产品膳食纤维含量及主要功能性质进行了分析,这对雷竹笋实现综合利用,充分发挥其经济价
肥胖症俗称富贵病,随着人们的生活水平不断的改善,肥胖已经越来越受到关注,可以预言肥胖将成为21世纪影响影响身体健康的主要原因之一。肥胖不但影响体态和活动,而且容易引发高脂
任务型教学法是基于建构主义理论的一种教学模式。该文针对中职农校生物化学教学中存在的问题,探讨了任务型教学法在生物化学教学中的任务设计原则和实施模式的构建。通过在
<正>多孔阳极氧化铝模板制备工艺的研究以硫酸为电解液,采用二次阳极氧化工艺制备高度有序的多孔阳极氧化铝模板。研究了电解液浓度、阳极氧化电压和制备温度对多孔阳极氧化