论文部分内容阅读
计算机是一门年轻的学科,主要基于信息和计算的理论系统地实现信息处理和计算应用。历经几十年的迅猛发展,如今的计算机科学已经出现多个学术分支,主要分为理论计算机科学和应用计算机科学两方面。理论计算机科学包括计算理论、信息与编码理论、算法、程序设计语言理论、形式化方法、数据库和信息检索,以及并发、并行和分布式系统等领域。应用计算机科学包括人工智能、计算机体系结构与工程、计算及图形与视觉、计算机安全和密码学、计算科学、信息科学、软件工程等领域。计算机学科与其他学科交叉发展,已经成为诸多学科研究的重要技术支持。因此,对计算机领域的发展现状和学术热点问题的研究变得极为重要,不仅关系到计算机科学本身的学术研究趋势,更与其他学科的发展密不可分。DBLP(Digital Bibliography & Library Project,数字书目索引与图书馆项目)是一个提供计算机领域科学文献的搜索服务的在线平台,由德国特里尔大学负责发开和维护,收录了计算机领域重要期刊和学术会议的海量论文。本文选取DBLP中收录的计算机领域会议论文作为研究对象,从引文分析和主题分析两个方面对会议论文进行分析,以期得到计算机领域各个分支的发展历程、学术现状和主题趋势。本文对DBLP会议论文的引文分析从会议和著者两个角度,对收录的论文进行定性和定量分析。按照会议名称和类别不同,选取的指标包括会议发文量、被引量、篇均被引次数、会议的H指标等。按照著者划分,选取的指标包括著者发文量、被引量、篇均被引次数、H指标和G指标等。希望通过对计算机领域会议论文的多角度分析,了解该学科主要的研究方向,以及各领域重要的会议论文、科研机构和学者分布情况。本文的主题分析主要包括词频分析和主题模型分析两大部分。DBLP收录的计算机领域会议论文数量众多,因此本文所做词频分析和主题模型分析都是基于会议论文的摘要,摘要即是论文的主要内容和核心理念,对摘要的分析大大减少了本文的工作量。词频分析主要就每年发表会议论文的摘要做词频统计,按照词语出现次数从高到低排序,获取当年会议热点。基于LDA的主题模型分析则是利用上下文潜在语义对摘要进行分析,不同于词频分析的机械化,主题模型分析可以对摘要主题进行语义规范,每篇论文摘要可以生成一个或多个主题,实现对用主题间的相互关系代替整篇论文。通过对DBLP会议论文的引文分析和主题分析发现,计算机领域的学术热点分为传统的理论、基础应用和前沿话题。编程语言和软件工程、计算机操作系统、算法理论等传统的研究领域仍然是学者们研究的重点,这些分支作为计算机应用的基础在科研人员孜孜不倦中得到完善和升级。在计算机领域前沿发展中,人工智能、机器学习和模式识别、数据挖掘等已得到广泛的研究与应用。互联网的发展也给计算机网络.、信息安全和信息检索等带来巨大的驱动。