基于神经网络的文本挖掘在专利自动分类中的研究与应用

来源 :山东理工大学 | 被引量 : 0次 | 上传用户:eric7272
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号(IPC)。然而目前的专利分类仍然采用手工操作,显然手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。专利自动分类是指在给定的分类体系下,根据专利文本的内容(标题、摘要)自动确定专利文本所属类别的过程。由于专利信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络(RBFNN)算法实现专利的自动分类。在此系统中,主要包括特征向量构建和分类模型构建两部分内容。在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统(ICTCLAS)对专利文本进行分词,在此基础上,本文将IPC类别描述本身信息中的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益IG和互信息MI对专利文本特征进行降维处理。最后,采用经典的权重计算公式(TF×IDF)计算特征词在向量空间模型(VSM)中的权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法(PTF×IDF算法)。在分类模型构建过程中,采用径向基函数神经网络(RBFNN)分类方法完成专利文本的训练和分类。在分类过程中,首先通过K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用RBFNN分类器在专利文本自动分类中具有较理想的性能,测试平均F1值在70%以上。
其他文献
1874年5月,年过六旬高龄的左宗棠仍被朝廷任命为钦差大臣,督办新疆军务。出征新疆途经兰州城时,适逢天泻暴雨,路途险恶,只得暂时扎营。帐中劳顿之余,左宗棠闲来技痒,乃命亲信
期刊
一、背景介绍rn根据新型冠状病毒肺炎疫情的防控情况,为确保广大师生的身体健康和生命安全,严防疫情输入校园,广东省教育厅2020年2月25日印发了关于线上教学安排的通知,要求
期刊
猴三来之前,我不清楚他在哪个单位。猴三他哥找我,了解我们单位情况。我说,不咋样,太小,不如去大厂,正规,有气氛,如果混日子还行,工作没什么压力。那时,我是单位的文字编辑,
期刊
有那么几年,张三是很有些骄傲的.那时候,正有一部电影流行,里面的张三是个打鬼子的英雄,那电影名叫《扑不灭的火焰》.小孩子们记不住那有文化的名字,就叫成了“张三张二”,因
期刊
高和武后来才知道她叫阮南玉。阮南玉右手提一支冲锋枪,猫着身子,兔子似的往桃花山东侧的大山方向逃跑。高和武右手持着手枪,一路追赶。一直把阮南玉追赶到了悬崖边上。她已
期刊
民间语文资料:记录086号转插21岁生日过后,我便出发去宝坻县高庄公社丁庄生产队插队。穿衣镜前的我又黑又壮,脸色暗淡,虽然穿着我最好的一件绿格子衬衫,但看起来还是像个村妞
期刊