论文部分内容阅读
政策文本条文繁杂,更新速度快,具有多歧性,其分析的需求越来越大;传统的分析手段效率低,分析内容有限,在数据时代的分析方法亟待创新;同时国家也在大力推进科技成果转化事业,相关政策需要进行深入挖掘和解读。 在这种背景下,本文以政策本文作为研究对象,建立了一种基于机器学习算法的政策文本研究分析的模型和框架,本研究将文本挖掘这一自然语言处理领域的手段运用到政策文本研究中,把政策文献中非量化的、非结构化的信息最终转化为特定的形式,构建政策信息的分析模型,最后应用到区域政策比较实证中。 模型构建部分包括两个主要的模型——核心概念抽取模型和政策文本比较分析模型。在核心概念抽取CCE模型中,为了解决政策文本研究领域尚未建立其关键词表的问题,尝试利用语法分析特征,挖掘领域关键词汇构成模式,构建政策文本核心概念的抽取模型,采用基于混合指标的政策领域关键词汇抽取和专家筛选方法对关键词进行识别。在政策文本亮点比较分析PTCA模型中,主要运用文本挖掘相关技术如基于词向量的Word2vec、LDA主题模型和基于MMR的自动摘要来进行有价值信息的归纳,对文本集合提供内容抽取式摘要、语义抽取和语义表示功能等。 最后在科技成果转化政策上对本方法进行实证比较研究,从五个基本方面对区域间的政策文本进行词汇频次分析、关联词汇分析、词汇分散度分析、文本聚类分析和热点变迁分析,从而发现“政策文本亮点”体现在政策丰富度、政策清晰度和政策相似度三个基本维度上的关联和差异。结果表明,该方法可以从政策文本中发掘出潜在的信息,为政策内容分析和决策支持提供数据基础与效率支撑,可以快速、直观的展示科技成果转化政策中核心聚焦点,帮助研究人员解读和理解政策并提供有价值的政策建议。