论文部分内容阅读
不同地区的成百上千万用户在不断地消费、生产和传播海量且高度多样化的异构数据,大至涉及全球范围的虚拟社交媒体数据,小至单一城市中的居民出行数据。随着技术的快速发展,人们所生产的数据将持续增长,数据格式愈加的多样化,数据也将愈加的开放和容易获取。分析和洞察用户行为数据,并深入地理解用户行为在时间和空间上的模式和规律,给众多领域如商业、媒体、政务以及学术研究均带来了新的机遇和挑战。用户行为数据的分析存在诸多挑战和困难,首先用户行为数据是多维度且多层次的,其往往涉及多个维度如时间、空间以及其他数值型或文本形式内容等,且因时、因地和因人而异。不同的空间和时间粒度/跨度的分析往往会得到不同的结果。其次,用户行为的规律和模式不是一成不变的,而是会随着时间而动态变化;此外,用户行为在演化过程中不仅仅是独立的,行为之间会存在不同程度上的交互和影响。再次,用户行为数据往往涉及海量用户以及海量行为记录,如何高效地、实时地、稳定地存储、处理以及分析上述数据显得尤为重要。最后,上述复杂的、多维度、多层次动态变化的用户行为,往往难以进行及时实时有效的跟踪、分析和理解。可视分析作为一门跨学科的领域,其采用了交互式可视化,并将用户的专业知识和推理能力与传统的数值化数据挖掘模型分析结合起来,实现复杂海量数据的有效分析,帮助用户发现隐藏在数据中有价值的信息。本学位论文旨在利用数据可视分析方法,以数据挖掘和数据交互式可视化为研究主线,通过研究用户行为数据在时间、空间和时空维度下的特征,围绕用户行为数据建模、可视化、交互式可视分析系统设计和评估等问题展开了相关研究。本文的主要研究内容和贡献概括如下:提出了一新颖的话题竞合模型,其可以定量地描述用户在社交媒体上所发表话题之间的时序竞合交互作用以及话题领袖对这一相互作用的贡献。该模型将话题交互这一过程视为话题的延续性效应、竞合吸引效应和竞合转移效应的结合。在可视化方面,提出了一新颖的时序可视化方法EvoRiver,其可将时变、多维的话题交互数据转换为可交互的可视化形式,帮助分析师研究社交媒体上话题竞合过程中的动态变化。提出了用于定量衡量社交媒体上用户所发表信息在大规模时空维度上传播过程的数学模型(动态SGM),该模型同时考虑了信息在大规模时空维度上传播的重要因素即地理距离、文化相似性和语言相似性,以及时序近因效应,帮助我们更全面了解信息时空传播过程中的复杂动态变化。在可视化方面,提出了一新颖的时空数据可视化方法SocialFlow,用于展示和探索社交媒体上信息时空传播的复杂动态过程。提出了直观的、“就地”无遮挡的嵌入可视化方法,允许空间上下文在被保留的前提下探索城市尺度上的用户时空行为数据模式,本方法无缝地将时序图和地图集成于同一显示空间中,实现时空数据的无遮挡可视探索。此外,我们实施了一系列系统性的工作以研究与该方法息息相关的多种设计问题如时间方向编码;针对上述方法,完成了基于真实社交媒体大数据和城市交通大数据的案例分析,从中挖掘了有关社交媒体上话题竞合动态变化、信息时空传播以及城市居民出行规律等深刻洞察;实施了完善的用户研究和专家调研以评估和验证上述所提出方法的可用性和有效性,并提供了相应的实证研究结果。