论文部分内容阅读
随着城市中出租车数量不断增多,出租车在人们日常出行方式中所占的比重越来越大。由于GPS卫星定位技术的不断发展与普及,许多出租车都安装了车载GPS系统。装有GPS的出租车在行驶的过程中能够记录车辆的位置、时间、方位和速度等数据,这些数据即为出租车轨迹数据。通过对出租车轨迹数据进行处理分析,挖掘潜在的价值已成为当下一个热门的研究领域。由于出租车数量的不断增长,使得轨迹数据体量不断增加,以往的单机式的计算处理模式已无法胜任。故而采用大数据技术对轨迹数据进行挖掘,Spark平台具备存储和运算大数据的能力。本文基于Spark大数据平台,利用Spark并行化K-Means算法,对出租车轨迹数据进行挖掘,分析成都市居民出行行为特征。文中居民的含义是指成都市中所有基于出租车出行的乘客,而并非传统意义上的居住在某一地方的人。主要工作有下面几点:(1)出租车轨迹数据预处理。由于人为操作不当、机器误差、偶然误差的存在,源轨迹数据需经过预处理后方可应用于轨迹数据挖掘。本文对轨迹数据的预处理主要包括失真数据剔除、多余字段删除、无效时段数据删除以及地图匹配四个方面。(2)居民出行时间规律分析。基于Spark平台,采用相关算法,计算居民日出行总量以及一天中各时段出行量。对比工作日和休息日居民出行量的不同以及不同时间段出行量的差异,并对形成的原因进行分析。(3)居民出行距离规律分析。利用Spark平台,从两个方面分析居民出行的距离规律,一是居民出行不同距离占比分析,二是一天中各小时居民出行的平均距离分析。(4)居民出行热点区域提取与分析。基于Spark平台,利用并行化K-Means算法对居民出行轨迹数据进行空间聚类,提取城市居民出行热点区域,并对热点区域的数量及分布情况进行分析,进而对居民出行行为特征进行分析。