基于核心概念的政策文本分析方法研究--以2014--2017年国家和部分省市科技成果转化政策为例

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:simon_186
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
政策文本条文繁杂,更新速度快,具有多歧性,其分析的需求越来越大;传统的分析手段效率低,分析内容有限,在数据时代的分析方法亟待创新;同时国家也在大力推进科技成果转化事业,相关政策需要进行深入挖掘和解读。  在这种背景下,本文以政策本文作为研究对象,建立了一种基于机器学习算法的政策文本研究分析的模型和框架,本研究将文本挖掘这一自然语言处理领域的手段运用到政策文本研究中,把政策文献中非量化的、非结构化的信息最终转化为特定的形式,构建政策信息的分析模型,最后应用到区域政策比较实证中。  模型构建部分包括两个主要的模型——核心概念抽取模型和政策文本比较分析模型。在核心概念抽取CCE模型中,为了解决政策文本研究领域尚未建立其关键词表的问题,尝试利用语法分析特征,挖掘领域关键词汇构成模式,构建政策文本核心概念的抽取模型,采用基于混合指标的政策领域关键词汇抽取和专家筛选方法对关键词进行识别。在政策文本亮点比较分析PTCA模型中,主要运用文本挖掘相关技术如基于词向量的Word2vec、LDA主题模型和基于MMR的自动摘要来进行有价值信息的归纳,对文本集合提供内容抽取式摘要、语义抽取和语义表示功能等。  最后在科技成果转化政策上对本方法进行实证比较研究,从五个基本方面对区域间的政策文本进行词汇频次分析、关联词汇分析、词汇分散度分析、文本聚类分析和热点变迁分析,从而发现“政策文本亮点”体现在政策丰富度、政策清晰度和政策相似度三个基本维度上的关联和差异。结果表明,该方法可以从政策文本中发掘出潜在的信息,为政策内容分析和决策支持提供数据基础与效率支撑,可以快速、直观的展示科技成果转化政策中核心聚焦点,帮助研究人员解读和理解政策并提供有价值的政策建议。
其他文献
著作权问题是困扰数字图书馆发展的瓶颈问题之一,而数字图书馆信息资源的“海量”特征,使得数字图书馆信息资源开发与利用中的著作权问题变得更加严峻。解决数字图书馆信息资
摘要:在初中数学教学中,因式分解是一个重点也是一个难点。本文主要讲解了因式分解中的提取公因式问题,旨在为学生掌握因式分解提供帮助。  关键词:初中数学;因式分解;提取公因式  中图分类号:G633.6 文献标识码:A 文章编号:1992-7711(2014)03-0104  对于多项式的因式分解,最常用的方法有提公因式法、公式法以及简单的十字相乘法。其中最基础、最常用的方法是提公因式法。那么,我们
[目的/意义]从术语释义角度出发,探讨叙词表编制过程中词间关系的构建方法.[方法/过程]叙词表的词间关系主要有等同关系、等级关系和相关关系三种 从术语释义角度出发,对术语
随着知识经济的到来,知识已经作为一种生产要素渗入到各个传统行业中来,并且以一种前所未有的速度改变着社会的每一个组织。以知识为依托的知识型高校图书馆是知识传播的最重要的场所,正在不断完善和发展。作为知识管理的一个重要成果——知识型高校图书馆日益发展起来,并将通过合作与交流向全社会提供信息和资源。目前,国内外对高校图书馆知识管理理论的研究成果还很少,其理论体系还不完善,因此,深入研究合肥地区高校图书馆
开放式创新是一个具有重要理论与现实意义的研究领域。在我国提出加强国家创新体系建设的大背景下,开放式创新活动受到了更加广泛的关注。开放式创新的思维和管理模式直接影响
根据我国高技术产品进出口统计数据显示,近年来我国高技术产品出口增长迅速,对商品出口的贡献越来越大,对我国外贸竞争力的影响也更加明显。随着我国高技术产品贸易地位的提升,相