【摘 要】
:
随着全文数据库向用户免费开放、自然语言处理与机器学习技术的快速发展,基于全文内容的文献计量与评价研究逐渐兴起,如知识实体抽取与评价研究等。算法是一种典型的知识实体,在当前大数据环境下,数据的处理与分析等关键步骤都离不开算法的应用。研究算法实体在特定领域学术论文中的提及,并在此基础上分析其影响力,能够揭示算法实体在学术论文中的分布,发现高影响力算法,从而为相关研究者了解和选择算法提供参考。为此,本文
论文部分内容阅读
随着全文数据库向用户免费开放、自然语言处理与机器学习技术的快速发展,基于全文内容的文献计量与评价研究逐渐兴起,如知识实体抽取与评价研究等。算法是一种典型的知识实体,在当前大数据环境下,数据的处理与分析等关键步骤都离不开算法的应用。研究算法实体在特定领域学术论文中的提及,并在此基础上分析其影响力,能够揭示算法实体在学术论文中的分布,发现高影响力算法,从而为相关研究者了解和选择算法提供参考。为此,本文依据自然语言处理相关方法与技术,从全文数据中抽取出算法实体,分析其提及频次、提及位置以及提及时间,并在此基础上研究其学术影响力。在算法实体抽取方面,本研究将其看作一种特殊的命名实体识别任务。首先,通过人工识别的方法,从全部4,641篇国际计算语言学年会(ACL)论文中抽取出977种算法实体并构建算法实体词列表;其次,通过算法词匹配的方法从原始数据集中抽取出算法实体所在的句子,并以此为标注语料,训练算法实体自动抽取模型,从全部全文数据中剔除标注语料,在剩余语料上抽取出51,884个实体词,将频次为1的结果剔除后再进行人工筛选最终得到221种新算法实体;最后,将自动抽取结果与人工抽取结果进行整合得到全部算法实体共1,198种,用于后续算法提及频次、位置以及时间的分析。在提及频次分析方面,本研究将算法实体的提及频次细分为与提及论文数与总提及次数两个指标,首先获取算法实体所在的文章编号,根据文章编号的唯一性统计各算法实体的提及论文数与提及总次数,并在此基础上进行算法影响力的分析。在提及位置分析方面,本研究将算法实体的提及位置定义为算法实体所处的章节类型。首先从原数据集获取章节类型信息,得到各算法实体所对应的提及位置,接着以提及论文数为分析指标,分析各章节类型中的算法实体分布,并进一步考察不同算法实体在方法、实验等重点章节中的分布,最后在重点章节的频次统计结果基础上对各算法实体的影响力进行分析。在提及时间分析方面,本研究将算法实体所在文章的发表年份定义为算法实体的提及时间。首先提取出算法实体及其对应的文章编号,得到各算法实体所对应的提及时间;然后以提及论文数为分析指标,考察特定时间内算法整体提及情况的变化趋势,并以高频算法为例,分析不同算法的变化趋势,最后结合提及论文数与提及时间对各算法实体进行影响力的分析。本研究旨在揭示算法实体在学术论文全文中的提及情况,并基于多个维度对其影响力进行分析,所得结果可为相关科研工作选择与使用相关算法时,提供一定的参考。
其他文献
混合云作为云计算近年来发展的主要形式之一,具有数据交互性强、资源自动化等优势,通过私有云和公有云的部署,便于处理不同类型的计算工作,满足了不同的数据处理需求。但混合云在为用户提供便利服务的同时,也面临着新的安全问题,例如数据安全管理、隐私保护、访问控制等。由于混合云复杂的组成和部署特征,数据一般以密文的形式进行运算,访问控制相关技术的研究需要针对密文和复杂访问控制要素等多方面。面向混合云环境下用户
随着图书资源的不断丰富,读者获取感兴趣图书的难度不断增大,图书推荐技术随之产生。利用用户信息、图书信息以及用户购买或是借阅的记录来预测用户可能感兴趣的图书,主动地为用户推荐图书,使得用户可以快速、准确地获得相关图书,并节约大量时间。此外,优质的图书推荐方法也能够帮助图书销售平台提升其精准化推荐的能力,从而增强自己的核心竞争优势。图书推荐主要包括以下三种方法,分别是基于内容的、基于协同过滤的和基于关
科技文本内容的分析和利用一直是情报学科研究的关键问题。当前,科学技术进入快速发展阶段,各领域积累了大量科技文献,传统以文献为粒度的文本挖掘方式不利于用户获取和利用科技文献中的知识内容。为更深入有效地利用科技文本,就必须突破这种以单篇文本为粒度的挖掘方案,从更细粒度的角度深入到对科技文本潜在知识内容的挖掘。科技文本的挖掘和利用对整个科学的发展起着重要的作用,特别是人们所重点关注的科技文本中的研究问题
碳酸锶(SrCO3)和季铵盐类降速剂是目前丁羟基固体推进剂常用的降速剂,为了解决SrCO3和季铵盐(SIOC-TES)(以下统简称为季铵盐)在推进剂体系中分散性较差的问题,使其能发挥“协同效应”,更大幅度地降低丁羟基固体推进剂燃速。本文以微米级SrCO3和新型季铵盐为原料,制备出了纳米SrCO3/季铵盐复合粒子,并研究了其对丁羟基固体推进剂性能的影响,主要研究内容如下:(1)采用机械球磨法制备纳米
中国正处于社会转型的攻坚期,随着以互联网为载体的新兴媒介的迅速发展,大学生对于政治的诉求也不断增加,对政治系统有了更高和更深层次的期待。世界价值观调查数据显示,近年来我国大学生对于政治系统的认可度呈现明显的下滑趋势。大学生群体担负着国家的未来,他们对政治系统运行的认可度与信任感关系着政治权威的合法性和政治环境的稳定性。因此,作者选取现如今受众最为广泛的大众传媒形式之一——微信公众平台为例,通过深入
目的 探讨膝关节置换术后应用加压冷疗与奥塔戈运动干预对患者炎性因子水平、关节肿胀、平衡能力及膝关节功能恢复的影响及作用,旨在为膝关节置换术后康复提供更多思路。方法 选取2018年6月至2019年12月行膝关节置换术患者70例进行研究,按数字表法随机分为2组,对照组(n=35)采取加压冷疗和常规康复运动,患者回病房后则可开始加压冷疗,250 ml 0.9%氯化钠注射液冻成冰袋,首次冰敷时间30 mi
新中国成立后,从爱国卫生运动到健康中国行动,农村地区的健康发展一直受国家高度重视,但在精力投入、资源倾斜上不如城市地区。自2009年以来,“家电下乡”、“手机下乡”、“新农合医疗保障制度”、“乡村振兴”等政策陆续颁布,国家逐渐为农村地区的健康事业发展注入更多力量。2018年在“互联网+医疗健康”政策的推动下,新媒体环境下的健康传播呈现出新的发展动态。然而由于村民受教育水平低,媒介素养不足等问题,农
在食品、医疗卫生和药学等领域,葡萄糖是一种非常重要的物质。用于葡萄糖浓度检测的葡萄糖传感器经历了四代的发展,目前发展的第四代无酶电流型葡萄糖传感器是基于葡萄糖分子在电极表面直接催化氧化进行检测,其特点是不易受到环境因素的影响,具有较强的稳定性。随着纳米科技的发展,具有纳米结构的无酶葡萄糖传感器性能得到了很大的提升,含有活性元素、不同类型的纳米结构的制备成为了无酶葡萄糖传感器的研究重点。本文以不同N
区块链通过加密技术建立信任关系,重构信息价值体系,从根本上促进了互联网的改变,让互联网从信息传递向价值传递进化。区块链技术不断创新,从单纯货币交易的1.0体系发展到智能应用拓展的3.0体系,不再局限于单一金融领域,已延伸至生活方方面面,同时也在从单一的数字资产向多样化信息进化。区块链通过高安全性的分布式共识保证了去中心化特性,但仍存在事务处理吞吐率低、时间延迟大等性能瓶颈。不同区块链系统在数据组织