论文部分内容阅读
时间序列存在于社会的各个领域,对于时间序列数据挖掘的研究目前主要集中在相似性搜索和模式挖掘上。在相似性搜索研究中存在的主要问题是时间序列数据量过大,一个有效的解决办法是对时间序列进行重新描述,减小数据量。在模式挖掘方面,趋势预测是一个比较新的思路,它从时间序列数据中抽取决定时间序列的行为发展趋势的静态属性,组成静态数据库,然后将泛化性能较强的分类技术应用于静态数据库中挖掘分类规则,对行为发展趋势做出预测。相似性研究中有效的数据描述是提高相似性搜索效率的关键,本文第二章提出了一种结构自适应的时间序列分段线性化表示方法,该方法可以自动地产生线性化的段数K。大大压缩了相似性的计算量。同时在分段线性化表示的基础上提出了一种相似性计算方法,该方法对于时间序列的多种变形都不敏感。本文拟从时间序列数据库中挖掘到表征时间序列发展趋势的分类规则,首先必须对时间序列进行静态模式的抽取,得到分类属性。本文就此在第三章深入阐述了静态模式的抽取方法。以股票为主要的时间序列研究对象,抽取的静态模式往往含有较多的干扰,因此需要分类工具必须有较强的泛化性能,为了解决这一问题在第四章采用正则最小二乘学习算法训练的前馈神经网络,对时间序列的静态模式进行分类。该方法将正则化和网络裁剪相结合,既提高了泛化性能又精简了网络结构,降低了不相关属性对分类的影响。属性约简和规则抽取是粗集理论在数据挖掘中的一个重要应用。由于神经网络固有的不能得到显式知识的缺陷,第五章将粗集理论应用于神经网络得到的知识中,从中抽取分类规则将是一种极为有效的解决方法。K-最近邻分类算法(K-NN),在许多领域都有成功的应用,对训练样本进行浓缩是提高算法计算效率的有效方法。本文在第六章采用简化的CURE聚类算法首先对训练样本中的每一类样本集进行聚类,用聚类后形成的子类代表点代替属于该子类的所有样本集,再采用一般的K-NN法, 这样大大减小了训练样本的数量,提高了计算速度。该法可以有效的排除孤立点(噪声),从而也大大提高了算法的分类精度。数据分布随时间而变化的数据(这里称为时变数据)也是客观存在的,现有的数据挖掘方法对时变数据很难处理。本文第七章提出了一种带移动窗的神经网络数据分类算法,网络中存储的分类知识能够随时更新,较好地处理了这类问题。第八章总结了全文研究内容,并对今后的研究前景进行了展望。