基于知识图谱的社会媒体中少数民族主题数据抽取方法

来源 :云南大学 | 被引量 : 0次 | 上传用户:yttgfnm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,社会媒体在信息传播中扮演着重要的角色,社会媒体平台每天产生海量化的数据,蕴含着各个领域与行业多种信息。从海量社会媒体数据中抽取出特定领域的数据,是用已有的专家知识作为先验知识,利用多种数据处理模型对数据进行分类、过滤筛选的过程。可应用于社会舆论集散、新闻信息传播、企业品牌推广、商业营销拓展等,具有重要的社会价值和商业价值。本文研究社会媒体中少数民族主题的数据抽取,如何解决非结构、多主题的社会媒体数据的分类困难,如何解决少数民族主题数据的稀疏、缺失和识别困难,以及如何利用已知有限的专家知识实现更准确、高效的数据抽取,成为本文需要解决的主要问题。为此,本文引入知识图谱(Knowledge Graph,KG)和LDA模型(Latent Dirichlet Allocation),从社会媒体平台获取新闻数据与用户数据,以少数民族领域的专家知识作为先验知识,进行社会媒体数据的主题分类与内容筛选,从中抽取得到少数民族主题的数据。本文研究工作主要包含以下几个方面:1、利用已有的少数民族专家知识,从中读取实体词汇作为节点,词汇对应的属性作为节点与领域名的关系,并获取实体属性关系外已存在的实体关系,得到结构化三元组,初步实现少数民族的新闻知识图谱的构建。2、利用TransE(Translating Embedding)表示学习模型,将构建的少数民族新闻知识图谱的三元组进行向量表示,对实体间关系的缺失通过计算向量间的距离进行关系预测,实现新闻知识图谱三元组的补全。3、基于补全后少数民族新闻知识图谱和LDA模型,本文通过对数据进行主题分类及实体词汇匹配,对社会媒体数据进行过滤筛选,从中抽取得到少数民族主题相关的新闻数据。本文利用FreeBase数据集、“今日头条”新闻数据和“新浪微博”用户公开数据,对本文所提出的方法进行了实验验证和性能测试。实验结果表明,在效率得以保证的情况下,利用LDA模型的主题分类及补全的领域知识图谱进行数据抽取,能更有效地提高从海量社会媒体中抽取少数民族主题数据的准确率和覆盖率。
其他文献
随着国家对基础建设投入的不断加大,山区高速公路工程施工和建设的进度、质量、安全等越来越受到各方的重视和关注。
首先运用SBM-Undesirable模型测算了2008年-2017年中国28个省份不同规模奶牛养殖场环境效率,并运用Tobit模型分析乳制品进口对不同规模奶牛养殖环境效率的影响。结果表明大规
习总书记在视察我省农业农村工作时提出:河南作为农业大省,农业,特别是粮食生产对全国影响举足轻重。要发挥好粮食生产这个优势,立足打造全国重要的粮食生产核心区。这是对我
文章主要考察FeOx/Al2O3、ZnOx、CeO2等不同的载体的金催化剂的制备及其对CO的催化性能研究。结果表明,不同金负载量的上述不同载体催化剂在常温下对CO都有一定的效果,其中以
目的研究老年糖尿病肾病患者的心理护理。方法选取2008-06—2012—06在我院接受治疗的病历较为完整的老年糖尿病肾痛患者266例,对其主要的心理表现进行调查。结果老年糖尿病肾
通过对某车站基坑进行施工监测,保证了基坑支护工程的安全、基坑开挖施工安全和周边环境的安全,同时通过监测信息的反馈,指导了施工、改进了施工工艺。文章对该施工监测情况