论文部分内容阅读
随着互联网技术的发展,社会媒体在信息传播中扮演着重要的角色,社会媒体平台每天产生海量化的数据,蕴含着各个领域与行业多种信息。从海量社会媒体数据中抽取出特定领域的数据,是用已有的专家知识作为先验知识,利用多种数据处理模型对数据进行分类、过滤筛选的过程。可应用于社会舆论集散、新闻信息传播、企业品牌推广、商业营销拓展等,具有重要的社会价值和商业价值。本文研究社会媒体中少数民族主题的数据抽取,如何解决非结构、多主题的社会媒体数据的分类困难,如何解决少数民族主题数据的稀疏、缺失和识别困难,以及如何利用已知有限的专家知识实现更准确、高效的数据抽取,成为本文需要解决的主要问题。为此,本文引入知识图谱(Knowledge Graph,KG)和LDA模型(Latent Dirichlet Allocation),从社会媒体平台获取新闻数据与用户数据,以少数民族领域的专家知识作为先验知识,进行社会媒体数据的主题分类与内容筛选,从中抽取得到少数民族主题的数据。本文研究工作主要包含以下几个方面:1、利用已有的少数民族专家知识,从中读取实体词汇作为节点,词汇对应的属性作为节点与领域名的关系,并获取实体属性关系外已存在的实体关系,得到结构化三元组,初步实现少数民族的新闻知识图谱的构建。2、利用TransE(Translating Embedding)表示学习模型,将构建的少数民族新闻知识图谱的三元组进行向量表示,对实体间关系的缺失通过计算向量间的距离进行关系预测,实现新闻知识图谱三元组的补全。3、基于补全后少数民族新闻知识图谱和LDA模型,本文通过对数据进行主题分类及实体词汇匹配,对社会媒体数据进行过滤筛选,从中抽取得到少数民族主题相关的新闻数据。本文利用FreeBase数据集、“今日头条”新闻数据和“新浪微博”用户公开数据,对本文所提出的方法进行了实验验证和性能测试。实验结果表明,在效率得以保证的情况下,利用LDA模型的主题分类及补全的领域知识图谱进行数据抽取,能更有效地提高从海量社会媒体中抽取少数民族主题数据的准确率和覆盖率。