不同的研究数据和研究目的对于热点的定义不同, 例如, 犯罪热点[10]、社会热点[11]、疾病发生热点[12-13]和商业热点[14]等. 本文定义的热点是指某个时间段内城市居民出行次数较多、人口密度较高和人流量较大的区域. 热点空间尺度包括城市、商圈、道路和感兴趣点; 时间尺度视分析任务而定, 小到以分钟为单位, 大到以年为单位, 包含各个时间长度; 热点阈值由具体分析任务确定. 本文根据时空数据特性, 将热点分析的可视化方法分为基于统计信息的可视化方法和基于语义信息的可视化方法.
统计信息是衡量数据聚集特性的指标, 可以帮助研究者获得轨迹数据的时空分布特征, 从而选择相应可视化方法进行热点分析. 现有统计方法主要从时间和空间维度上探索数据集聚分布模式, 主要包括扫描统计法、点模式空间统计分析法、时空密度聚类法和高维数据降维法. 可视化方法在现有统计方法的基础上将数据时空属性映射到不同的视觉通道(图标、纹理、颜色和透明度、轮廓、形状、隐喻等)帮助相关研究人员理解统计分析结果、聚类算法的过程和结果, 通过可视化系统帮助研究人员交互式地确定算法模型的参数.
2.1.1 基于扫描统计信息的可视化方法
扫描统计法是指在一定的时空范围内,通过数据的聚集性和随机分布模式的比较, 确定热点的方法. 基于扫描统计法的可视化方法通过使用探索性或描述性的可视化视图对时空数据的特征进行热点分析, 常用的分析视图有柱状图、饼图、折线图等, 多用于分析异常事件多发的热点. 1936 年 , Burton[15] 首次引入空间统计模型 . Openshaw 等[16]最早基于空间统计技术提出地理分析机(geographical analysis machine, GAM)模型, 用于分析热点、观察疾病传播模式, 该模型检查重叠的圆形区域并标注出高度重叠的区域为疾病热点区域, 如图 2 所示. Turnbull 等[17]在空间统计模型基础上, 通过人口多少定义圆形区域的窗口半径进行热点分析.
热度统计是基于点模式分析可视化方法的另一个手段. 首先将城市以时空单元格形式均匀划分, 并根据分析任务确定单元格的属性; 然后利用 Getis-Ord *iG 统计公式 , 计算出单元格的*iG 值 , 并记为对应单元格的热度; 最后将热度大于指定阈值的单元格称为城市时空热点[34]. Nikitopoulos等[35]提出对时空数据进行分布式热点分析的解决方案 BigCAB 算法, 对得到的城市时空热点[36]进行分析. Alfeo 等[37]提出了一种基于 Stigmergy 效应的城市热点检测方法, 用于发现城市交通使用的趋势和异常. Li 等[38]提出了一种 StreamMap 模型, 通过使用自适应核选择和快速点聚类方法从流点数据的周期中得出准确的密度图, 分析人流变化.
2.1.3 基于时空密度聚类的可视化方法
时空聚类是从轨迹数据中检测热点的一种重要方法, 聚类形成的中心被视为潜在的热点. 聚类方法多种多样, 按照聚类对象分为点聚类和轨迹聚类. 不同的聚类标准结合可视化分析视图,可用于检测和分析不同类型的热点. 常用的分析视图有热图和气泡图等. 例如, Jain 等[39]聚类分析了出租车轨迹数据的 OD 信息, 为司机寻找预约需求分布高的潜在热点区域, 推荐距离空车最近的热点位 置 . Gui 等 [40] 提 出 基 于 分 布 式 并 行 算 法 的DBSCAN(denisity-based spatial clustering of appli-cations with noise, DBSCAN)的改进版本, 提取轨迹数据中的密集部分用于检测交通热点. 热点分析应用场景不同, 对应的方法也不同. 胡庆武等[41]采用样方统计的方法对签到数据进行预处理, 提出了一种空间分析热点聚类方法来探索城市的热点和商圈. Zhang 等[42]从轨迹数据中提取重要特征点, 通过基于核密度估计算法对特征点进行聚类, 生成时空聚类, 再对时空密度高的时空簇进行滤波, 检测时空热点. 但是, 在时空数据分布密度不均情况下也存在 2 个问题: 一是需要在没有先验知识的情况下选择参数, 使聚类方法适合于轨迹数据; 二是需要确定聚类算法和聚类中心的数量. 上述问题导致聚类算法针对实际应用场景难以保证准确性. 通过可视化方法引导聚类分析, 帮助展示空间聚类算法的结果和算法过程, 可以提高探索聚类分析的速度和有效性. Ding 等[43]提出了一种视觉分析方法, 交互式地探索轨迹数据的时空聚类. 系统允许用户选择输入的变量或特征(如起点、目的地、距离和持续时间), 并调整聚类参数(如距离、阈值)进行交互式聚类; 然后通过将各个聚类标识符和每个聚类的元素数作为特征加入平行坐标图, 使视图显示聚类结果; 最终将具有大量元素的聚类定为热点, 如图 6a 所示为平行坐标的界面, 图 6b所示为显示选定的簇. 此外, Jahnke 等[44]基于上海市出租车 OD 数据, 利用 DBSCAN 方法和可视化技术实现了热点区域的在线可视化交互. Pei 等[45]提出了一种基于密度的双组分类识别方法, 并用出租车轨迹数据检测热点, 验证聚类结果. Shen 等[46]提出基于可视化的网格自适应 DBSCAN 算法对3 基于时空数据热点检测的可视化方法比较 通过比较时空数据的产生来源和数据特点可以发现, 时空数据的产生伴随着丰富的时空信息和语义信息, 并且不同时空数据热点检测的可视化方法选择是灵活多样的: 可以在不同情况下使用相同的可视化技术, 或在一种情况下使用不同的技术来协作展示时空信息. 表 3 对比了各种可视化方法的优势和局限性, 供组合使用可视化方法参考. 在基于时空数据检测热点的实际应用场景中,人们有时会关注时空数据更多的信息特征, 例如, 时空数据整条轨迹的语义、兴趣点语义和感兴趣区语义等. 但是受采集技术、接收技术、设备种类等限制, 许多时空数据本身并不包含此类信息特征, 需要融合多源数据来解决问题. 研究人员可以参考表 3, 为不同的数据类别及派生的特征选择合适的可视化方法, 可以更好地协调多个数据属性及其展示结果, 构建出新颖的可视化表达方法, 减少信息混乱和视觉遮挡
4 结 语
近年来, 热点分析的可视化方法得到了广泛的关注. 一方面作为辅助手段, 可视化通过视图直观地展示数据的分析过程和热点的分布情况, 或是直接深入模型内部, 帮助用户在没有先验知识的情况下交互式地选择模型的参数; 另一方面, 可视化作为热点分析主要方法, 通过词云、地图隐喻等方法帮助研究人员进行语义增强、提取不同时空粒度的语义轨迹模式、分析时空热点事件、发现隐藏的热点路径和热点区域. 本文从基于统计信息和语义信息 2 个方面阐述了出租车数据(侧重轨迹特征)、公共交通智能卡数据(侧重 OD 特征) 和社交网络数据(侧重于语义信息) 等 3 种轨迹数据热点分析的可视化方法, 并对不同方法的优缺点进行比较分析. 尽管可视化方法在热点检测方面具有广泛应用, 但目前主要研究侧重于结果描述性展示或探索式分析. 随着轨迹数据的复杂化和数据特征抽象化, 出现了新的挑战和机遇.
1) 在数据源方面, 考虑融合多源异构数据进行分析. 单一的数据源存在数据稀疏和含有噪声等问题, 在进行时空热点分析时, 需要融合多源异构数据进行相互印证和补充, 例如, 车联网数据、监控视频、社交媒体文本等. 如何利用不同数据源进行联合学习, 并结合可视化方法进行分析, 仍需进一步研究.
2) 在分析方法方面, 将机器学习与可视化方法相结合进行热点分析. 大规模的轨迹数据集为机器学习提供了足够的训练样本, 通过自动机器学习可以充分地挖掘轨迹数据的热点信息. 如何将可视化方法与之结合提供清晰、可解释的因果关系过程, 从而对热点进行检测和预测是一个重要研究方向.
3) 在分析结果方面, 进一步提高热点分析精度. 热点的呈现方式不再是规则的形状(圆形、方形等), 如何尝试更多空间网络划分方法, 结合图的聚类方法实现粒度更小、精度更高的热点分析值得深入研究