论文部分内容阅读
多源异构数据的综合利用作为当前大数据分析的重要研究方向,受到广泛关注.本文针对交通领域两类数据——交通文本数据和交通流数据展开讨论,具有一定的理论价值和现实研究意义.论文主要工作包括构造交通文本的信息抽取模型、交通流时间序列建模和搭建可视化平台,具体工作如下:第一,介绍了条件随机场模型的基本理论,针对实际交通文本数据,完成中文分词处理,利用条件随机场构建交通文本词性标注模型和交通事件要素识别模型,利用所建模型完成信息抽取任务,进一步利用规则模型优化.结果显示:交通文本抽取地点、车辆、交通状况、方向四个要素的F值分别为70.52%、87.50%、91.05%和97.14%,均达到了70%以上,效果良好.第二,讨论了常见一元时间序列交通信息分析和多元时间序列交通建模参数估计理论.在此基础上,引入干扰分析理论,利用贵阳市新注册车辆数据进行模型验证,在引入贵阳限行限号干扰事件情况下,模型效果显著提高,利用多元时间序列进行交通流数据建模亦取得不错的效果.第三,利用R软件实现交通数据可视化.通过对交通状况进行文本分类,了解各类交通事件发生情况.针对较为普遍关注的交通道路拥堵事件,利用地图的形式展现,可以很明确地看到贵阳市中心城区大十字附近拥堵较为严重.综上,本文针对实际交通部门多源异构数据进行统计建模,提出了一种综合建模方案,得到了良好的效果,为相关部门提供了一定的帮助.