数据挖掘中聚类问题的拓扑描述

来源 :2005第一届中国分类技术与应用研讨会(CSCA) | 被引量 : 0次 | 上传用户:xp1308729
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的常用方法之一.从聚类的角度看,其他数据挖掘方法不过是对聚类的一种特例采用不同的建模方法进行研究而已.聚类分析通常采用距离量度来描述相似性,但拓扑关系比距离具有更强的普适性和灵活性.从拓扑的角度出发,对聚类问题进行描述,说明了聚类过程实际上等价于拓扑空间求基的过程,并严格论证了以基于距离矩阵的传递闭包为代表的聚类方法结果的实质就是拓扑空间的最粗的基,并通过具体数据挖掘实例验证了它的正确性.从而揭示了聚类问题与数学上的拓扑空间之间的联系,为聚类方法研究提供了联系其他领域的新思路。
其他文献
软件模式描述了被实践证明为有效的、对于不断重复的软件问题的解.在实践过程中通常需要综合使用来自于不同体系、相互关联的软件模式.所以有必要使用合理的方法组织、分类软件模式和它们之间的关系.但是,由于软件模式数量大、特征多样、描述格式不统一等原因,现有的相关研究在分类内容的系统性、分类方法的合理性等方面还存在不足之处.提出一种基于特征分析的可扩展的软件模式及其关系的分类法框架.描述了面向软件模式的功能
为了克服在苹果颜色分级中存在的速度慢、误差大等缺点,基于再现群智能的粒子群优化算法和神经计算技术,提出了一种新颖、快速的智能分级方法,即首先通过计算机视觉技术获取苹果表面颜色的色度,并提取其特征;然后采用改进的粒子群优化算法训练神经网络结构;最后用训练好的神经网络进行苹果颜色分级.实际应用表明,该方法切实可行且效果显著,不仅分级速度快,而且分级正确率高达96﹪以上。
数据挖掘的一个重要方法是采用机器学习技术产生分类器.将分类器集成到一起将会大大降低分类错误率.传统的助推方法是适合任何分类器的,而针对决策树的助推方法将进一步提高数据挖掘的分类精度.基于属性权和属性权信息增益的助推决策树算法,在提高预测精度的同时得到了可理解的规则.针对某市劳动局养老保险数据库进行了实验分析,实验结果验证了这一方法的有效性。
基于特定领域的网站主题识别与分类是领域资源共享的重要研究内容.与网页分类相比,网站的特征描述和分类更加困难.同一主题的网站,其内容组织结构存在相似,可以通过链接文本信息来反映网站的这种结构.因此,在向量空间模型的基础上,从网站内部抽取网站结构和内容的文本特征词,通过混合向量空间模型来描述网站的主题特征.同时基于这种模型,采用类中心向量法进行了制造主题网站的识别实验.实验结果表明这种模型适合于网站主
信任是多方面的,在不同的应用场景中,同一节点在不同领域具有不同的可信度.据此,提出了一种新的基于文档聚类的peer-to-peer环境下的多粒度信任模型,克服了现有模型不能很好地解决同一peer节点在不同领域、不同方面的可信度计算问题,同时对模型的迭代收敛问题做了深入的探讨.分析及仿真表明,该模型较已有模型在可信度计算的粒度、迭代的收敛性等方面有较大的提高。
在串联质谱鉴定中,高通量的数据库搜索和相似性比对会产生大量的鉴定结果.如何对这些结果进行定量的有效性评估是目前蛋白质组学研究的一个关键问题.从模式分类的角度看,该问题可以理解为根据比对打分特征对鉴定结果进行真阳性和假阳性两类的分类问题,在解决该问题的特征选择环节上提出了一系列新的反映串联质谱中离子碎裂规律的分类特征,然后使用支持向量机(SVM)对肽鉴定结果进行定量评估.对新增加的特征做了分类能力评
核方法是近年来机器学习领域研究的热点之一,典型的基于核的学习算法包括支持向量机(SVMs)、核主分量分析(KPCA)和核Fisher判别.把核方法引入传统的双向联想记忆模型(BAM),得到核双向联想记忆框架(KBAM).KBAM囊括了一类已有的BAM模型,并且通过引入不同的核函数,可以得到新的BAM模型.在此基础上提出了一种基于KBAM的鲁棒人脸识别算法(Amface).在部分FERET人脸图像库
互联网股市信息强度的显著增加常常和股价的显著变化相关联.当某公司的这个强度增加较小时,相应股价也较平静.当该公司的这个强度增长较剧烈时,相应股价常常也波动较大.通过引进一个自适应的标准差,提出了一种基于统计的确定互联网股市信息强度显著增长的方法,并且定义了相应股价显著变化的标准,从而完成了对互联网股市信息强度增长和股价波动的"显著"和"非显著"的分类.实证分析表明,这种分类方法有助于建立互联网股市
数据库系统中的隐通道是指用户使用数据字典等系统共享资源来发送信息.通过将隐马尔可夫模型引入到隐通道的检测中,可以判断观察到的用户行为是正常行为还是异常行为,并进而识别隐通道的使用.建立了一个正常数据库系统运行过程的隐马尔可夫模型,并在此基础上提出了一个隐通道的检测算法.通过对共享资源矩阵法进行改进发现隐通道的发送者和接收者,并测量隐通道的带宽.实验结果表明该方法可以准确的检测出隐通道的使用并近似的
提出一种基于粗糙集的模糊神经网络(RFNN)流量预测算法.传统的流量控制技术,总是以网络资源当前使用情况对包进行处理,没有考虑流量预测问题,易造成流量控制滞后的情况.将基于粗糙集的模糊神经网络引入流量控制,利用其处理不确定性问题和自学习能力,进行流量预测,较好地解决这一问题.最后通过仿真,比较和分析了该方法与其他同类算法的性能,证明了此方法的有效性.