自聚合短文本的主题模型优化问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:liongliong500
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的蓬勃发展带来了海量的文本内容,分析和归纳这些文本内容是常见的任务。其中,主题模型是一种分析文本内容的常用方法。这类方法通过构造一个关于文本、主题和词语作为随机变量的联合概率分布,并估计概率分布中参数,最终得到文本和主题以及主题和词语之间的概率关系。主题模型得到的联合概率分布,被广泛用于如搜索引擎、知识图谱、广告推送、舆情监控等应用领域。近些年来,微博、脸书等社交媒体的广泛使用,让短文本成为一种常见的文本类型。短文本比常规文本更短,平均长度只有不足二十个词。用于常规文本的主题模型并不能很有效地处理短文本,因为要估计联合概率分布的参数需要依赖文本中词语的共现信息,但短文本中词语的共现信息非常稀疏,导致主题模型效果不佳。已有的研究工作通过构建全局词语共现网络、自聚合等方法来增加短文本的词语共现信息,试图解决词语共现稀疏的问题。这些方法中只有自聚合方法是唯一能够增加充足共现信息的方法。此类方法通过在联合概率分布的短文本和主题随机变量之间增加一个长文本隐变量,让短文本根据多项分布聚合长文本以增加充足的词语共现信息。但此类方法容易把语义上不相关的短文本聚合在一起,让增加的词语共现信息不符合语义。因此,本文借鉴自聚合思想提出了一系列方法,在增加充足共现信息的情况下,逐步减少其中不符合语义的共现信息,最终用充足且符合语义的共现信息改善短文本词语共现稀疏的问题。1.已有的自聚合模型需要用户定义长文本的数量。我们通过实验发现,长文本的数量应该与短文本的规模相对应,设置不当会极大影响模型的性能,数量过小会使长文本过长,产生大量不符合语义的词语共现信息,过大则会使长文本过短,导致共现信息不足。因此,我们构造了一个狄利克雷过程,通过这个随机过程可以采样长文本的数量,从而让长文本数量随短文本集而改变。此外,本文还研究了社交媒体如Twitter短文本在语义上的关联性,通过短文本附属的标签辅助,我们将短文本按照标签进行聚合并分析短文本间的内在规律,首次发现在标签与同标签短文本的数量之间呈现幂律分布的概率关系。受该规律启发,本文提出了一种基于狄利克雷过程和幂律分布的模型(PYSTM)。模型在狄利克雷过程的基础上,用幂律分布对长文本变量进行采样,使短文本的聚合过程更符合短文本集语义上的内在规律,从而可以有效避免语义上不相关联的短文本聚合在一起。最后我们用中餐馆过程实现上述的联合概率分布。本文使用真实数据集,通过实验证明了 PYSTM方法较其它最新的方法效果都要好,在保证充分增加共现信息的情况下,可以有效减少其中不符合语义的共现信息。2.模型PYSTM根据幂率分布聚合短文本,但是在短文本集中,并不是每一个短文本都遵循幂率分布的规律。因此,依照幂律分布构造的联合概率分布依然可能将语义上不相关联的短文本聚合在一起。为了进一步提高联合概率分布的合理性,本文提出了一个基于嵌入式狄利克雷过程引入文本嵌入的模型(DESTM),根据文本嵌入信息代替幂律分布聚合短文,可以更好的匹配目标短文本集的内在规律。为了能够得到任何一个短文本集中短文本语义的内在规律,DESTM模型依照词语共现和词语上下文语义将每个短文本转化成嵌入信息,短文本内容上的相似性就可以用嵌入信息之间的向量距离来表示。不过,因为短文本的共现信息是稀疏的,这样计算得到的文本嵌入会包含错误信息,直接使用文本嵌入也会给模型带来噪声。为解决引入噪声的问题,DESTM模型把文本嵌入分解成两种语义信息:全局语义信息和局部语义信息。全局语义信息是一个概率分布,用来表示所有短文本语义相似度的整体状况。局部语义信息是短文本之间的向量距离,用来表示任意两个短文本之间的相似度。共现信息的稀疏性通常对全局语义信息影响很小。但是对于局部语义信息,会让短文本之间的相似度明显变低。因此,模型设置了一个阈值并只采用高于阈值的向量距离。最后,为了引入两种信息,DESTM模型用嵌入式狄利克雷过程构造了联合概率分布,并用嵌入式中餐馆过程实现。实验表明了 DESTM算法比其他最新的算法都要好,增加的词语共现信息比PYSTM方法更符合语义关系。3.虽然模型DESTM引入了文本嵌入,但是短文本中词语共现信息的稀疏也令文本嵌入信息包含了噪声,为了避免噪声的影响,DESTM模型抛弃了一部分文本嵌入信息,使得文本嵌入信息不再充分,最终必然产生不符合语义的词语共现。因此,为了提供更充分的嵌入信息,让增加的词语共现更符合语义,本文提出了一个基于局部和全局嵌入信息的混合模型(WDETM)。文本嵌入作为局部嵌入信息,可以让上下文语义相近的短文本聚合在一起。词嵌入信息作为全局嵌入信息,可以让短文本以增加更符合语义的词共现的方式聚合。这两种嵌入信息在排除噪声后都不充分,因此WDETM模型在联合概率分布中增加了一个选择器隐变量,让每个短文本都能根据选择器以概率混合两种聚合方式,有效减少不充足的嵌入信息对模型的影响。同时,为了减少不符合语义的词共现对主题一致性的影响,模型WDETM在由联合概率分布采样词语的过程中也引入词嵌入,让语义相近的词语以更大概率对应同一种主题。但在这个过程中,为了词嵌入中的噪声,WDETM模型设置了一个阈值,在计算词语之间的向量距离后只保留距离超过阈值的距离。之后,模型利用了波利亚缸方法构造了引入词嵌入的概率分布。实验证明了模型WDETM 比其他最新方法要好,相比DESTM方法,WDETM方法在聚合短文本的过程中,增加的不符合语义的共现信息更少。
其他文献
本文研究处于中国制度环境下的独立董事功能的发挥和内在机制,及其独立董事对上市公司的贡献。传统观点认为,独立董事制度通过监督和咨询的双重功能提升公司价值。2001年中国证监会引入独立董事制度,要求独立董事对上市公司重大事项发表独立意见,希望借此规范公司治理、保护中小股东的权益。然而,独立董事制度在中国发展的20年中,社会上对独立董事的评价褒贬不一。独立董事制度发展于西方成熟市场(比如美国),而中国是
冻结步态是一种偶发性下肢运动障碍症状,开展准确及时的参数化监测对帕金森病等相关疾病的临床诊断、病情评估和康复治疗方案的制定具有重要作用。由于冻结步态的偶发性,在实验室环境下难以捕捉,目前依赖于量表的主观临床评估方法无法准确把握冻结步态的严重程度及时机,影响疾病诊疗,甚至可能导致漏诊或误诊。因此需要发展一种能够融入生活的冻结步态客观监测方法。惯性测量单元(Inertial Measurement U
随着无线通信、大数据等技术的发展,物联网设备的数量及其计算处理需求急剧增加,传统的以云端集群为核心的集中式处理模式在传输、计算、安全、能耗等方面凸显弊端。针对这些现实困境,边缘计算应运而生。它将计算资源靠近数据源与用户,就近提供低延迟、高安全、低成本的云边协同计算服务。相较于云计算,边缘计算优势明显,它具有更短的系统服务时延、更强的近用户端处理能力、更低的网络传输负载、更安全可靠的分散式服务架构。
图像/视频蕴含了丰富语义,是人类获取信息的主要来源之一。图像视频数据的迅速增长对信号压缩提出了更高要求,也使依靠有限人力理解海量图像成为一项挑战。计算机视觉技术的进步推动了机器分析的产业化,但机器视觉尚不具备完全取代人观察、决策的能力,人机共判场景将长期存在。在实际应用中,图像/视频多以压缩后的形式服务于存储、传输和分析,因此,图像/视频编码需要兼顾人眼视觉和机器视觉。传统图像编码致力于在有限码率
本论文深入研究C1-光滑单调非自治系统的动力学。在微分方程模型中,系统的演化经常受到周期或近周期的受迫效应影响,这些依赖于时间的受迫驱动通常被非自治系统所刻画。当系统被周期外频驱动时,方程对应的Poincaré映射生成离散动力系统;而当系统被近周期(比如几乎周期)外频驱动时,方程生成斜积系统。本文的第一部分聚焦C1-光滑强单调离散系统的动力学。我们证明了该系统的动力二分性:即,任何预紧轨道,或者渐
图像是计算机视觉系统感知外部世界的重要信息来源,其质量的高低对后续计算机视觉任务的精度有着重要影响。然而,在阴天、夜晚等无法规避的低光照场景中捕获的图像,往往存在亮度和对比度低、纹理细节丢失以及噪声强烈等低质量问题。为提升低光照图像质量,现有研究基于图像传统先验或深度神经网络建立了低光图像增强模型,并取得了极大成功。然而,现有低光图像增强模型仍存在以下问题:1)忽略图像的纹理细节恢复,导致增强后图
随着5G时代的到来,信息技术更加全球化、多媒体化,移动数据也呈现爆炸式增长。在此背景之下,用于保存和处理信息的器件——存储器,也面临着更大的挑战。目前,传统的半导体存储器已经逐步逼近发展极限,亟需研究和开发出存储密度更大、响应速度更快、存储寿命更长、可靠性更好、成本低廉和易于加工的存储技术和存储材料。另一方面,当电子器件或半导体器件的密度过高时会在局部产生热点,造成器件的毁坏和能源的浪费。因此,在
在本文中,首先研究了带随机因子影响的保险公司资金的最优投资和风险控制问题。在该模型中保险公司可以将其财富分配给风险资产和无风险债券,其中风险资产价格的波动率和利率都依赖于环境的随机因子。保险公司的风险过程由一般的跳-扩散风险过程建模,并且风险过程的跳描述为具有状态依赖跳测度的泊松随机测度。保险公司的目标是通过选择最优的资产投资策略和风险控制策略,从而最大化其终端时间财富的期望效用。论文的第一部分主
界面调控因为在生产生活中有着非常重要的应用价值,越来越受到研究人员的重视,例如结构色可以用于识别码、装饰美化、防伪等领域,超疏水低粘附的表面可以用于防污、抗冰、自清洁等领域,基于表面张力梯度的自驱动可以用于机器人、发电等领域。这些独特的界面现象本质上都是微纳结构对界面物理性质的调控而产生的,因此对微纳结构的可控加工进一步成为研究的热点。目前,虽然各种各样微纳结构已经成功地通过多种微纳加工技术被制备
纳米材料的发明、器件结构的微型化和微纳米加工工艺的发展,使高分辨率、精确而且便捷的测量方法成为必要。作为具有纳米分辨率的扫描探针技术,原子力显微术由于样品制备简单、工作环境多样、无损检测等优点而得到广泛使用。多种基于原子力显微术的工作模式得到发展,并应用于测量包括电导率、磁导率、力学强度等的样品局域特性。其中力学特性的精确表征是纳米尺度材料和器件研究的重要需求,以接触共振原子力显微术为代表的纳米力