面向文本分类的半监督主题模型研究

来源 :山东工商学院 | 被引量 : 0次 | 上传用户:fjfhmtv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在标注样本足够多且标注正确的数据集上,监督式分类算法通常可以取得比较好的分类效果。然而,在实际应用中带有标签样本通常很少,训练数据的采集困难,标注代价高昂。针对目标领域只有少量标注数据,辅助源领域包含大量的未标注数据的场景,面向这种交叉领域的半监督学习可以起到克服标注瓶颈问题,但是目标领域和辅助源领域的数据不满足独立同分布假设,会导致生成的分类模型偏离目标领域的主题,从而降低半监督分类器的精度。本文针对仅有少量标注样本和大量未标注样本共存的场景,结合主题模型和半监督学习方法,开展面向文本分类的半监督主题模型方法研究,鉴于上述所提到的一些问题,主要研究内容如下:(1)结合有监督主题模型SLDA和半监督学习方法,提出了一种半监督主题模型s-SLDA(semi-Supervised Latent Dirchlet Allocation),该模型利用目标域少量标注文档和源域的未标注文档共同训练。s-SLDA的概率图模型除了原来SLDA的参数θm、φ和δ,引入新参数θd、ψ和μ,旨在建立源域的文档-主题分布、主题-词分布和主题-伪类分布。(2)提出一种s-SLDA-Gibbs隐含主题采样方法,该方法对目标域和源域中的文档分别根据不同的约束进行隐含主题采样,即对目标域中的标注文档根据标注类别约束进行主题采样,而对源领域的未标注文档,根据伪类标签约束进行主题采样,计算得到s-SLDA主题模型的参数θm、φ、δ、θd、ψ和μ。(3)基于s-SLDA主题模型,提出了一种新的半监督文本分类方法s-SLDA-TC(s-SLDA Text Categorization),并在20newsgroup英文数据集和Sogou中文数据集上与其它方法进行对比实验,验证面向交叉领域的s-SLDA主题模型的有效性,实验结果表明s-SLDA-TC方法能够有效利用辅助的源域信息,提高半监督文本分类的性能。
其他文献
在批判资本主义制度与思想体系的过程中,马克思与恩格斯提出了社会主义脉络下的平等观念,认为平等具有社会历史性与阶级性的特征,与绝对平均主义相区别,也不同于资本主义“物化”的平等观。中国在2020年消除绝对贫困、全面建成小康社会的目标任务,正蕴含和体现了马克思主义平等观的价值思想,是实现社会主义平等与共同富裕的重要一步。尽管时代背景发生变化,但马克思主义平等观在理论与实践维度上仍具有双重意义,不仅为脱
从新课程改革开始,国家就提倡培养学生科学素养为基本要求,科学素养要求学生不仅要了解科学知识,了解科学的研究过程和方法,更要了解科学技术对社会对个人产生的影响;对于化学来说,科学知识技术对个人的影响就是化学观念,观念为本的教学重视学科思想的形成,重视知识对人所产生的影响,思想是行动的先导,学科思想让学习者成为一个富有想象力,创造力的人。论文选择“促进初中化学基本观念的单元设计实践研究--以微粒观为例
核心素养是时代发展的必然产物,世界各国教育改革都强调要着重培养学生的核心素养。化学是自然科学领域的一门重要基础学科,化学学科核心素养是核心素养的重要组成部分,发展学科核心素养要落实到课堂教学中。为更好发展学生的学科核心素养,众多学者对不同的教学模式进行积极探索,近十年来,论证式教学作为探究式教学的一种,受到国内学者的广泛关注,成为教育研究热点之一。当前的探究式教学形式化,忽视对探究过程及结果的解释
当前,数据已成为数字经济中最重要的资源与生产要素,是驱动新时代经济发展的核动力。数据交易最重要的价值不在于概念,而是数据在数据交易中体现的资源属性,促进数据交易产生经济实效!如何提高数据交易效率实现数据价值,在数据交易中实现数字经济发展与数据保护之间、数据交易活动中多元利益主体之间的平衡,为数字经济健康持续发展营造良好的环境?经济法学应当从此前促进数字经济发展的法治保障研究,开始关注数据交易利益平
文本表示作为文本挖掘的前提将直接影响分类、聚类、检索和自动摘要等文本挖掘的结果和效率。目前文本表示主要存在的问题包括“维数灾难”、“稀疏性”和“语义丢失”等,其中文本的语义表示是目前学术界公认的研究难点。针对文本语义表示困难问题,融合有监督学习、迁移学习、主题模型和词嵌入等方法,展开深入研究,重点包括以下内容:(1)提出了融合有监督主题模型(SLDA)的语义词嵌入表示方法wt2svec模型。该方法
中国传统社会,女子出嫁从夫,婚后家庭财产由丈夫掌控,女子所拥有的财产,大概只有从母家所携之嫁奁,因此嫁奁的归属问题对女子具有重要意义。本文以清末时期、民国前期、民国后期三个时段为分界点;以婚姻存续期间、离婚时及改嫁时三种婚姻状态下的嫁奁权属制度为研究对象,通过各个时期静态的律例规定与动态的民事司法审判相结合来研究清末时期、民国前期及民国后期嫁奁权属制度的变化,深入分析变化原因及影响。本文主要内容如
成年人意定监护制度是指意思能力健全的成年人作为委托人得以依照其自由意愿选择监护人,并在合同中将监护事务的全部或者部分授权给受托人;在该成年人行为能力欠缺后,受托人依约履行监护职责的法律制度。该制度能够充分保护丧失或者部分丧失民事行为能力的成年人,包括老年人、残疾人、吸毒者、酗酒者等。我国属于人口大国,人口老龄化问题相较于其他国家更为突显。二十世纪八十年代计划生育国策致使我国出现了独特的社会问题,即
土家族是我国内陆山区少数民族之一,历史悠久。摆手舞来自民间,有着很悠久的历史,是土家族流传至今的民族体育舞蹈,是我国非物质文化遗产之一。摆手舞在沿河县几乎是家喻户晓,加之政府部门的重视与大力支持,近年来,摆手舞在中小学的普及和发展愈发成为一种趋势。本研究采用文献资料、实地考察、问卷调查和数理统计等研究方法,以沿河土家族自治县第四中学开展摆手舞为个案,对其课内教学与课外开展进行调查,对存在问题与原因
在中国法律史研究中,大多数学者长期以来将目光锁定在历代国家制定法的相关研究中,对于少数民族习惯法、少数民族法律制度尤其是土司地区的少数民族法律制度的关注不足。清初,中央政权对西南少数民族地区的“改土归流”使得被改流地区的传统法律制度产生了历史性变革,特别是其行政管理法律制度、经济民事法律制度和司法审判程序等方面都发生了巨大变化。本文就是以清朝黔桂西部临界地区中变化最典型的泗城土府的“改土归流”为切
民国作为中国社会急剧转型与变革的历史时期,安顺女性主动或被动地参与到司法诉讼活动中,这既是一种法律现象,也是一种社会现象。本文以民国时期安顺地方法院女性伤害讼案为中心,从法律文本与诉讼实践的互动角度出发,通过梳理和分析,结合社会历史背景,研究民国安顺女性伤害案的案由、诉讼过程、诉讼策略和审判结果等方面,还原民国安顺女性司法诉讼实践的轮廓,透视其深层的妇女地位和女性法律意识问题。本文首先对安顺政区的