【摘 要】
:
随着交通、GPS监控等方面数据量的海量增长,伴随出现交通实时路况延时性、交通预测不准确等现象,对流式数据的实时处理提出更高的要求,挖掘交通热点区域成为交通领域研究热点
论文部分内容阅读
随着交通、GPS监控等方面数据量的海量增长,伴随出现交通实时路况延时性、交通预测不准确等现象,对流式数据的实时处理提出更高的要求,挖掘交通热点区域成为交通领域研究热点;尽管目前对交通领域流式数据聚类的研究已取得显著成就,但仍存在聚类时效性、伸缩性差,不可实现任意形状类簇等缺点。因此,为高精度实时的挖掘交通热点区域,减少城市交通拥堵和方便资源调度,提出两阶段快速流式数据聚类框架并在Storm集群下实现并行化。本文提出的两阶段快速流式数据聚类框架(Canopy-Kmeans,简称CK)针对流式数据,在线阶段选择改进Canopy算法粗聚类产生宏簇并缓存概要信息;离线阶段使用Kmeans算法细聚类;引入滑动时间窗口并抽取概要信息以自动确定Kmeans初始输入和微簇时间标志。为增加聚类实时性,将CK算法在Storm集群并行化,提出并行化流式数据聚类算法(Parallel-Canopy-Kmeans,简称PCK)并实现。为验证PCK算法性能,选取测试数据集对PCK、CK、Kmeans进行聚类就准确性、执行时间对比;对PCK自身就扩展性对比。为提高交通热点区域挖掘的可行性,选取北京市某七天的出租车定位数据模拟流式数据,使用PCK算法聚类生成微簇集合并结合热力图和电子地图可视化表达。实验结果表明:生成的交通热力图可直观地发现出租车活动较为频繁的热点区域和线路,且与日常出行经验相符合;生成的微簇集合可实现用户在任意时间窗口范围内交通状况实时查询,提高流式数据的聚类质量的同时保证交通路况预测实时性,为交通活动实时分析、城市车辆实时调度、物流园区车货调度等方面提供有价值的理论参考依据。
其他文献
<正>2010年1~3季度,印机行业主要经济指标同比趋好,但3季度较2季度增速小幅下落;出口乏力,仍为负增长。第一部分:印机行业运营情况1经营运行总趋势主要经济指标与上年同期相比
在大资管时代的背景下,银行、证券、保险等大众熟知的金融机构理财业务日趋成熟,市场份额长期稳定高位。相比之下,第三方理财机构发展却显得缓慢而痛苦。我们就第三方理财所
在初中阶段,化学作为一门重要的自然学科,在新课标的实施下,教师有责任让学生对化学产生兴趣,使学生积极参与到课堂教学中。在以前的化学课堂教学中,都是教师的一言堂,这样就不能满
<正>关注全体学生的成长,促进学生的全面成长,是学校教育应有的宽度。在学生全面成长的基础上,力求学生的特长发展和特质养成,应成为学校教育不断追求的厚度。让每一个学生享
目的探讨三维适形放疗治疗老年颈段及胸上段食管癌的长期疗效及影响预后的因素。方法回顾性分析2007年6月至2012年12月于该院接受三维适形放疗(3D-CRT)的38例老年食管癌患者
<正>社会治理是国家治理的基础,社会治理能力的提升,是国家治理体系和治理能力现代化的重要体现。党的十八届五中全会提出"构建全民共建共享的社会治理格局",这是实现全面建
随着电子商务、移动应用、社交网络的日益活跃,如邮件、个人医疗信息以及微博等半结构化海量数据不断涌现。由于扩展标记描述语言XML具有良好的自述性和动态扩展性,这使其成
第一部分:miR-328在椎间盘退变中的作用及其相关机制研究研究背景椎间盘退变是导致腰腿痛的主要原因之一,它不仅给患者的生活带来问题,而且给公共卫生系统带来极大的负担。据
以化感水稻PI312777(PI)和非化感水稻Lemont(Le)为种植材料,采用水稻/稗草抑草圈种植方法,以水稻根际土壤(内圈)和12 cm有效抑草距离(抑草率>50%)之稗草根际土壤(外圈)为研究
多不饱和脂肪酸(polyunsaturated fatty acid, PUFA)指含有两个或两个以上双键且碳链长为16-22个碳原子的直链脂肪酸,如EPA(eicosapentaenoic acid, 20:5)和DHA(docosapentae