论文部分内容阅读
专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号(IPC)。然而目前的专利分类仍然采用手工操作,显然手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。专利自动分类是指在给定的分类体系下,根据专利文本的内容(标题、摘要)自动确定专利文本所属类别的过程。由于专利信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络(RBFNN)算法实现专利的自动分类。在此系统中,主要包括特征向量构建和分类模型构建两部分内容。在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统(ICTCLAS)对专利文本进行分词,在此基础上,本文将IPC类别描述本身信息中的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益IG和互信息MI对专利文本特征进行降维处理。最后,采用经典的权重计算公式(TF×IDF)计算特征词在向量空间模型(VSM)中的权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法(PTF×IDF算法)。在分类模型构建过程中,采用径向基函数神经网络(RBFNN)分类方法完成专利文本的训练和分类。在分类过程中,首先通过K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用RBFNN分类器在专利文本自动分类中具有较理想的性能,测试平均F1值在70%以上。