【摘 要】
:
聚类是一种很热门的数据分析和数据挖掘技术。聚类是一个将数据集划分为若干个子集的过程,使得每个簇内部的样本之间的相似性比与其它簇中样本之间的相似性更强。针对在处理大
论文部分内容阅读
聚类是一种很热门的数据分析和数据挖掘技术。聚类是一个将数据集划分为若干个子集的过程,使得每个簇内部的样本之间的相似性比与其它簇中样本之间的相似性更强。针对在处理大规模数据过程中,现有大量聚类算法存在的反复迭代收敛慢和需预先对数据集有深入感知的问题,论文结合国家自然科学基金项目“知识超网络环境中快慢结合的知识可拓优化与共享理论研究”(项目编号:71071144)和浙江省自然科学基金重点项目“面向复杂产品设计的可拓自适应知识服务研究”(项目编号:Z6110334),将空间点聚类问题转化为网络划分问题,研究提出了一类基于无向有权网络的聚类算法(Clustering Algorithm based onUndirected Weighted Network, CA-UWN)。论文的主要研究工作有:(1)界定了聚类与复杂网络的相关概念,对主要聚类方法、基于复杂网络的聚类等论文紧密相关的领域进行了文献综述分析。(2)提出了一类基于无向有权网络的聚类算法,该算法将空间点聚类问题转化为网络划分问题。阐述了该算法的核心思想与思路,其主要过程包括网络构建和网络划分两个步骤。网络构建是在计算空间点对象的相似度基础之上,根据对象间的相似度构建无向有权网络;网络划分是根据无向有权网络中节点强度和边的权重自适应地对网络进行划分,提出了基于邻接节点划分和扩张划分两种具体的划分方法,讨论了算法中参数的含义与取法。(3)对提出的基于无向有权网络的聚类算法进行了检验评估。利用UCI数据库中的Iris和Glass数据集,采用Rand指数和Jaccard系数,验证了算法中参数的合适取法,并对算法的有效性进行了评估,评估结果表明算法在了解数据集相似度分布的基础上,通过有限的迭代次数下,能取得良好的聚类效果。
其他文献
本文通过对意象性绘画的阐述,分析现代风景绘画中的意象语言特点。研究中西方风景画家个案,比较其风格差异,讨论艺术语言与自然之间的关联。另一方面,画家个人的情感方式对画面语
语料库语言学领域的两种研究范式之争由来已久。"语料库驱动"的研究范式以"激进的经验主义"为哲学基础,以Firth的语境论为语言学基础;而"基于语料库"的研究范式以"温和的经验
宁波市江东区以“关爱人、服务人、教育人、凝聚人”为核心的建设“人文社区”的设想,是实践“以人为本”、“科学发展观”和“构建社会主义和谐社会”等新思想、新理念的最好
在东汉文学作品中涉及到自然灾害现象的篇章约160余篇,体裁上包括了诗歌、民谣、赋、诏令、奏议等文体,内容上包含了灾害场景描写、灾害观、作家情感等方面。对东汉灾害文学
渗漏是建筑屋面工程频繁被投诉的问题,其中会设计地下室、厨房、卫生间、外墙等区域,除了会影响建筑工程质量,最重要会影响建筑勿使用寿命和人们正常生活。对此,本文则从设计
煤炭能源在我国能源消费结构中一直处于重要地位,即使在整体经济环境下滑的状况下,煤炭资源的消费量在能源消费总量中也处于领先地位,远多于其他能源消费量。但煤炭产业发展中存在众多利益相关者,各利益相关主体的利益诉求也不尽相同,在产业发展过程中会为了各自的利益而忽略整体利益,从而降低煤炭产业的效益。由于煤炭产业的发展不仅影响煤炭下游煤炭消费企业的发展,还会影响煤炭企业周边地区居民的生存环境与生活质量。所以
通过对中国知网数据库2004-2013年所收录的关于学龄前儿童"入学准备"研究的期刊论文的年度发文量、研究主题、研究视角与研究方法、作者情况等维度进行文献计量分析发现:研究
对于尤文图斯的球迷而言,2005年是最疯狂的一年,不仅获得了联赛冠军,在竞争愈加激烈的本赛季意甲上半程,尤文图斯更是以创纪录的战绩笑傲群雄。尤文风暴从2005年的年初一直吹
随着中国市场竞争力的提升,对企业的要求提高,企业对内部的管理也要进行改革。目前我国的国有企业人力资源管理制度还不够完善,国有企业在人力资源管理方面还存在诸多问题,阻碍着
光子晶体光纤,因为它的包层是由空气孔排列构成的,所以经常以多孔光纤或者微结构光纤命名。又因为光子晶体光纤包层的空气孔排列得具有周期性,使得人们对它的研究积极性越来越高