CityFlow:面向多目标多相机车辆跟踪与重识别的城市级基准

CityFlow:面向多目标多相机车辆跟踪与重识别的城市级基准 摘要利用交通摄像头作为传感器进行城市交通优化推动了对多目标多相机MTMC跟踪技术前沿的需求。本文提出了 CityFlow一个城市规模的交通摄像头数据集包含来自 10 个路口的 40 个相机、总长超过 3 小时的同步高清视频其中两个同步相机之间的最远距离为2.52.52.5km。据我们所知CityFlow 在城市环境的空间覆盖范围和相机/视频数量上是规模最大的数据集。该数据集包含超过 20 万个标注边界框涵盖了多样的场景、视角、车辆模型和城市交通流状况。我们还提供了相机几何和校准信息以辅助时空分析。此外我们还提供了一个子集用于基于图像的车辋重识别ReID任务。我们在该数据集上对 MTMC 跟踪、多目标单相机MTSC跟踪、目标检测和基于图像的 ReID 的基线/前沿方法进行了广泛的实验评估分析了不同网络架构、损失函数、时空模型及其组合对任务效果的影响。随着我们的基准在 2019 年 AI City Challenge 上发布我们同时推出了一个评估服务器允许研究人员比较他们最新技术的性能。我们期望该数据集能推动该领域的研究促进技术发展并最终在现实世界中实现部署的交通优化。1. 引言城市利用交通摄像头作为城域传感器来优化交通流和管理突发事件的机会是巨大的。我们所欠缺的是在各种天气条件下跨越不同路口多个相机的大范围车辆跟踪能力。为了实现这一目标必须解决三个不同但紧密相关的研究问题1) 在单个相机内检测和跟踪目标即多目标单相机MTSC跟踪2) 跨多个相机的目标重识别即 ReID3) 跨相机网络的目标检测和跟踪即多目标多相机MTMC跟踪。MTMC 跟踪可视为相机内的 MTSC 跟踪与基于图像的 ReID 以及时空信息的结合用于连接相机间的目标轨迹如图 1 所示。近年来基于人的 ReID 和 MTMC 跟踪问题受到了广泛关注 [58, 34, 61, 46, 22, 21, 11, 14, 8, 57, 34, 50, 7, 60]。也有一些工作提供了用于基于车辆的 ReID 的数据集 [28, 26, 52]。尽管在这些数据集上的前沿性能已通过最新方法得到提升但该任务的准确性仍远低于行人 ReID。车辆 ReID 的两个主要挑战是类间变异小和类内变异大即不同视角的形状变化往往大于不同制造商生产的车型之间的相似性 [10]。我们注意到为了保护驾驶员的隐私捕获的车牌信息——尽管对车辆 ReID 极为有用——不应被使用 [2]。图 1. MTMC 跟踪结合了 MTSC 跟踪、基于图像的 ReID 和时空信息。相机 #1 和相机 #2 中的彩色曲线是 MTSC 跟踪得到的轨迹需要通过视觉-时空关联进行跨相机连接。现有目标 ReID无论是行人还是车辆基准的一个主要限制是空间覆盖范围有限且相机数量少——这与它们需要运行的城市级部署规模脱节。在具有相机几何信息的两个基于行人的基准 DukeMTMC [34, 50] 和 NLPR_MCT [7] 中相机覆盖范围小于300×300 m2300 \times 300 \mathrm{~m}^2300×300m2分别只有 6 个和 8 个视角。基于车辆的 ReID 基准如 VeRi-776 [28]、VehicleID [26] 和 PKU-VD [52]不提供原始视频或相机校准信息。相反这些数据集假设 MTSC 跟踪是完美的即图像特征在每个相机内按正确身份分组这并不能反映真实的跟踪系统。此外在后两个数据集 [26, 52] 中只有车辆的前视图和后视图可用因此视角的变异性有限。这些现有的车辆 ReID 基准都没有促进 MTMC 车辆跟踪的研究。在本文中我们提出了一个新的基准——称为 CityFlow——用于城市级 MTMC 车辆跟踪如图 2 所示。据我们所知这是第一个在相机数量、同步高质量视频的性质以及数据集所捕获的大空间范围方面达到城市级的 MTMC 跟踪基准。与之前的基准相比CityFlow 包含来自美国一个中等城市大量路口10 个的最多相机数量40 个并覆盖了多种场景如城市街道、住宅区和高速公路。路口的交通视频既带来了复杂的挑战也为视频分析提供了重要机遇超越了交通流优化扩展到行人安全。我们仔细标注了超过 20 万个边界框并提供了将像素位置与 GPS 坐标关联的单应性矩阵以实现精确的空间定位。与基于人的 MTMC 跟踪基准 [57, 34, 50] 类似我们也提供了一个子集用于基于图像的车辆 ReID。在本文中我们描述了我们的基准并在基于图像的 ReID、目标检测、MTSC 跟踪和 MTMC 跟踪方面进行了大量基线/前沿方法的实验。为了进一步推进 ReID 和 MTMC 跟踪的前沿我们还向研究社区发布了一个评估服务器。2. 相关工作表 1 总结了用于评估人和车辆 ReID 的公开可用基准。该表分为基于图像的行人 ReID、基于视频的 MTMC 人体跟踪、基于图像的车辆 ReID 和基于视频的 MTMC 车辆跟踪几个模块。迄今为止最流行的基于图像的行人 ReID 基准是 Market1501 [58]、CUHK03 [22] 和 DukeMTMC-reID [34, 61]。小规模基准如 CUHK01 [21]、VIPeR [11]、PRID [14] 和 CAVIAR [8]仅提供用于评估的测试集。最近Zheng 等人发布了迄今为止最大规模的基准 MSMT17 [61]。这些基准上的大多数前沿方法利用度量学习对目标身份进行分类常用的损失函数包括难三元组损失 [13]、交叉熵损失 [40]、中心损失 [48] 等。然而由于这些场景中相机数量相对较少数据集之间的领域差距不可忽视因此用于领域自适应的迁移学习引起了越来越多的关注 [45]。另一方面深度学习特征的计算成本很高因此利用视频级信息的时空推理对于现实世界的应用至关重要。数据集 Market1501 [58] 和 DukeMTMC-reID [34, 61] 在基于视频的 ReID 中分别有对应的 MARS [57] 和 DukeMTMC [34, 50]。尽管 MARS [57] 中提供了轨迹信息但原始视频和相机几何信息不公开因此无法利用时空知识关联轨迹。然而DukeMTMC [34, 50] 和 NLPR_MCT [7] 都提供了相机网络拓扑从而可以建立相机间的链接。这些场景更真实但也非常有挑战性因为它们需要视觉-时空推理的共同努力。尽管如此由于人行进速度通常较慢且相机视图之间的间隙较小它们在时空域中的关联相对容易。VeRi-776 [28] 因其高质量的标注和相机几何信息的可用性而成为最广泛使用的车辆 ReID 基准。然而该数据集不提供用于 MTMC 跟踪目的的原始视频和校准信息。此外该数据集仅包含城市高速公路的场景因此视角之间的变化相当有限。最后同样重要的是它们隐式地假设 MTSC 跟踪工作完美。至于其他基准 [26, 52]它们仅设计用于具有前后视图的图像级比较。由于许多车辆共享相同的型号且不同车型可能看起来高度相似车辆 ReID 的解决方案不应仅依赖外观特征。利用时空信息来正确解决城市级问题至关重要。研究社区迫切需要能够进行 MTMC 车辆跟踪分析的基准。图 2. 所提出数据集的城市环境和相机分布。红色箭头表示相机的位置和方向。展示了一些相机视图的例子。注意与其他车辆 ReID 基准不同原始视频和校准信息将提供。表 1. 用于人/车辆基于图像特征的重识别ReID和基于视频的跨相机跟踪MTMC的公开可用基准。对于每个基准表格显示了相机数量、标注边界框数量、每个身份的平均边界框数量以及原始视频、相机几何和多视角的可用性。类别子类基准#相机#边界框#框/ID视频几何多视角行人ReIDMarket1501 [58]632,66830.8××✓DukeMTMC-reID [34, 61]836,41120.1××✓MSMT17 [45]15126,44121.8××✓CUHK03 [22]213,16419.3×××CUHK01 [21]23,8844.0×××VIPeR [11]21,2642.0×××PRID [14]21,1341.2×××CAVIAR [8]26108.5×××MTMCMARS [57]61,191,003944.5××✓DukeMTMC [34, 50]84,077,132571.2✓✓✓NLPR_MCT [7]1236,41165.8✓✓✓车辆ReIDVeRi-776 [28]2049,35763.6×✓✓VehicleID [26]2221,7638.4×××PKU-VD1 [52]-846,3586.0×××PKU-VD2 [52]-807,26010.1×××MTMCCityFlow (本文)40229,680344.9✓✓✓3. CityFlow 基准在本节中我们详细介绍所提出基准的统计数据。我们还解释了数据的收集和标注方式以及我们如何评估基线方法。3.1. 数据集概述所提出的数据集包含从美国一个中等城市的 10 个路口的 40 个相机收集的 3.25 小时视频。两个最远同步相机之间的距离为2.5km2.5\mathrm{km}2.5km这是所有现有基准中最长的。该数据集涵盖了多样化的位置类型包括路口、道路路段和高速公路。凭借最大的空间覆盖范围以及多样化的场景和交通状况它是第一个支持城市级视频分析的基准。该基准还提供了第一个支持车辆 MTMC 跟踪的公共数据集。数据集分为 5 个场景总结在表 2 中。总共有 229,680 个标注边界框对应 666 个车辆身份每个身份至少经过 2 个相机。图 3 显示了 CityFlow 中车辆类型和颜色的分布。每个视频的分辨率至少为 960p大多数视频的帧率为 10 FPS。此外在每个场景中每个视频的开始时间偏移量可用可用于同步。出于隐私考虑使用 DeepStream [1] 检测到的车牌和人脸已在所有视频中被遮蔽并手动精炼。CityFlow 还展示了基于人的 MTMC 跟踪基准 [34, 50, 7] 中不存在的其他挑战。同一路口的相机有时共享重叠的视野FOV一些相机使用鱼眼镜头导致其捕获的镜头产生强烈的径向畸变。此外由于车辆速度相对较快运动模糊可能导致目标检测和数据关联失败。图 4 显示了基准中标注的一个示例。该数据集将在不久的将来扩展到包含更多不同条件下的数据。表 2. 所提出数据集中的 5 个场景显示了总时间、相机数量有些相机在场景间共享、边界框数量和身份数量以及场景类型高速公路或住宅区/城市街道和交通流使用北美服务水平标准LOS[37]。场景 1、3 和 4 用于训练而场景 2 和 5 用于测试。场景时间(分钟)#相机#边界框#身份场景类型LOS117.13520,77295高速公路A213.52420,956145高速公路B323.3366,17418住宅区A417.97217,30271住宅区A5123.081164,476337住宅区B总计195.040229,680666图 3. CityFlow 中按车辆身份统计的车辆颜色和类型分布。3.2. 数据标注为了高效地标注跨多个相机的车辆轨迹我们采用了轨迹级标注方案。首先我们遵循跟踪-检测范式使用目标检测 [32] 和 MTSC 跟踪 [43] 的前沿方法在所有视频中生成带噪轨迹。然后手动校正检测和跟踪错误包括不对齐的边界框、假阴性、假阳性和身份切换。最后我们利用时空线索手动关联跨相机轨迹。每个场景的相机几何信息与数据集一起提供。我们还提供了基于平面近似假设下2D 图像平面与 GPS 坐标定义的地面平面之间的相机单应性矩阵。相机校准的演示如图 5 所示该图基于一组 3D 点与其 2D 像素位置之间的对应关系来估计单应性矩阵。首先在每个视频的采样帧图像中手动选择 5 到 14 个地标点。然后从 Google Maps [3] 推导出对应的真实世界 GPS 坐标。该问题的目标代价函数是像素重投影误差目标单应性矩阵有 8 个自由度。该优化问题可以通过最小中值平方和 RANSAC 等方法有效求解。在我们的基准中由于 Google Maps 的精度有限收敛的重投影误差平均为 11.52 像素。当相机存在径向畸变时在校准之前先通过拉直弯曲的交通车道线进行手动校正。3.3. 用于基于图像的 ReID 的子集从 CityFlow 中采样的子集称为 CityFlow-ReID专门用于基于图像的 ReID 任务。CityFlow-ReID 总共包含 56,277 个边界框其中来自 333 个目标身份的 36,935 个边界框构成训练集测试集由来自另外 333 个身份的 18,290 个边界框组成。其余 1,052 张图像为查询图像。平均每个车辆有 84.50 个图像特征来自 4.55 个相机视角。3.4. 评估服务器随着我们的基准在 2019 年 AI City Challenge 上发布我们同时推出了一个在线评估服务器。这允许持续评估和全年提交结果。排行榜展示所有提交结果的性能排名。基于相同真值的通用评估方法确保了公平比较。此外研究社区可以方便地参考前沿技术。3.5. 实验设置和评估指标对于基于图像的 ReID 评估结果由一个矩阵表示该矩阵将每个查询映射到按距离排序的测试图像。遵循 [58]使用两个指标来评估算法的准确性平均精度均值mAP衡量所有查询的平均精度精确率-召回率曲线下的面积的均值以及 rank-KKK命中率表示至少一个真正例排在前KKK个位置内的可能性。在我们的评估服务器中由于存储空间有限采用每个查询前 100 个匹配计算的 mAP 进行比较。更多细节在补充材料中提供。对于 MTMC 跟踪的评估我们采用了 MOTChallenge [5, 24] 和 DukeMTMC [34] 基准使用的指标。关键指标包括多目标跟踪准确率MOTA、多目标跟踪精度MOTP、ID F1 分数IDF1、大部分被跟踪的目标MT和误报率FAR。MOTA 计算考虑三种误差来源的准确率假阳性、假阴性/漏检目标和身份切换。而 MOTP 考虑标注边界框与预测边界框之间的不对齐。IDF1 衡量正确识别的检测数量占真值检测和计算检测平均数的比例。与 MOTA 相比IDF1 有助于解决误差来源之间的模糊性。MT 是被跟踪假设覆盖其生命周期至少80%80\%80%的真值轨迹的比例。最后FAR 衡量每帧图像的平均假阳性数量。图 4. CityFlow 上的标注红色虚线表示跨相机视图的目标身份关联。图 5. 相机校准包括在透视图像右中手动选择地标点以及带有 GPS 坐标的俯视地图视图左。黄色虚线表示地标点之间的关联而细彩色实线显示使用估计的单应性矩阵投影到图像上的地平面网格。4. 评估的基线本节描述我们使用 CityFlow 基准评估的前沿基线系统。4.1. 基于图像的 ReID对于行人 ReID 问题前沿方法应用带有不同损失函数的度量学习如难三元组损失Htri[13]、交叉熵损失Xent[40]、中心损失Cent[48] 及其组合来训练分类器 [62]。在我们的实验中我们比较了各种卷积神经网络CNN模型 [12, 54, 16, 51, 17, 38, 36] 的性能所有这些模型都使用相同的学习率3×10−43\times10^{-4}3×10−4、轮数60、批量大小32和优化器Adam。所有训练模型在这些超参数设置下完全收敛。生成的特征维度在 960 到 3,072 之间。对于车辆 ReID 问题最近的工作 [18] 探索了用于行人 ReID 前沿解决方案的三元组嵌入中基于批次的采样的进展。他们比较了不同的采样变体并在所有车辆 ReID 基准 [28, 26, 52] 上展示了最先进的结果优于基于多视角的嵌入和大多数时空正则化方法见表 7。选择的采样变体包括 batch allBA、batch hardBH、batch sampleBS和 batch weightedBW采用自 [13, 35]。实现使用 MobileNetV1 [15] 作为骨干网络架构设置特征向量维度为 128学习率为3×10−43\times10^{-4}3×10−4批量大小为18×418 \times 418×4。另一个前沿车辆 ReID 方法 [43] 是 CVPR 2018 AI City Challenge Workshop [31] 车辆 ReID 赛道的获胜者该方法基于融合视觉和语义特征FVS。该方法从在 CompCars 基准 [53] 上预训练的 GoogLeNet [39] 中提取 1,024 维 CNN 特征。不使用度量学习而是使用 Bhattacharyya 范数计算特征向量对之间的距离。在我们的实验中我们还探索了使用L2\mathrm{L}_2L2​范数、L1\mathrm{L}_1L1​范数和L∞\mathrm{L}_{\infty}L∞​范数进行邻近计算。4.2. 单相机跟踪和目标检测大多数前沿 MTSC 跟踪方法遵循跟踪-检测范式。在我们的实验中我们首先使用众所周知的方法如 YOLOv3 [32]、SSD512 [27] 和 Faster R-CNN [33] 生成检测边界框。对于所有检测器我们使用在 COCO 基准 [25] 上预训练的默认模型感兴趣的目标类别包括汽车、卡车和巴士。我们对所有方法使用相同的检测分数阈值0.2。MTSC 跟踪中的离线方法通常表现更好因为所有聚合的轨迹片段都可用于数据关联。在线方法通常利用鲁棒的外观特征来弥补缺乏未来信息的不足。我们在 CityFlow 上实验了两种类型的方法介绍如下。DeepSORT [49] 是一种在线方法结合深度学习特征、基于卡尔曼滤波的跟踪和匈牙利算法进行数据关联在 MOTChallenge MOT16 基准 [30] 上取得了显著性能。TC [43] 是一种离线方法通过优化包括平滑损失、速度变化损失、时间间隔损失和外观变化损失在内的加权组合代价函数进行轨迹片段聚类赢得了 CVPR 2018 AI City Challenge Workshop [31] 的交通流分析任务。最后MOANA [42, 41] 是另一种在线方法在 MOTChallenge 2015 3D 基准 [19] 上实现了最先进的性能采用类似的时空数据关联方案但使用自适应外观模型来解决遮挡和目标分组问题。4.3. 时空分析时空关联的直觉是车辆的运动模式是可预测的因为它们通常遵循车道且速度变化平缓。Liu 等人 [29] 提出了一个渐进式多模态车辆 ReID 框架PROVID其中采用了基于时空的重排序方案。时空相似性通过计算跨相机的时间差和物理距离的比率来衡量。更复杂的算法应用概率模型来学习相机对之间的转移。例如一种基于双向高斯混合模型特征2WGMMF的方法 [20] 通过使用高斯分布学习相机视图之间的转移时间在 NLPR_MCT 基准 [7] 上达到了最先进的准确率。然而在 FVS [43] 中由于没有提供训练数据时间分布是基于相机之间的估计距离预定义的。这两种方法都需要手动选择相机视图中的进入/退出区域但 2WGMMF 可以在线学习相机链接模型。5. 实验评估结果在本节中我们分析了各种前沿方法在 CityFlow 基准上的性能并将我们的基准与现有基准进行比较。5.1. 基于图像的 ReID首先我们评估前沿 ReID 方法在 CityFlow-ReID 上的性能这是我们基准中用于基于图像的 ReID 的子集见第 3.3 节。我们的目标是确定 CityFlow-ReID 对现有方法是否具有挑战性。非度量学习方法。CNN 输出的深度特征可以直接使用标准距离度量进行比较。表 3 显示了 FVS 方法 [43] 使用各种距离度量的结果。总体而言非度量学习的性能较差。此外该模型在用于细粒度车辆分类的数据集 [53] 上预训练这相比在车辆 ReID 数据集上预训练会损害一些性能提升。行人 ReID 中的度量学习方法。表 4 显示了最先进的行人 ReID 度量学习方法在 CityFlow-ReID 数据集上的结果使用不同的损失函数和网络架构。与非度量学习方法表 3相比性能有了很大提升。特别是难三元组损失最为鲁棒。难三元组损失和交叉熵损失相结合产生了最好的结果。在 CNN 架构方面DenseNet121 [17] 在大多数情况下达到了最高的准确率因为它受益于整个网络中信息和梯度的改进流动。在其他基准上的行人 ReID 方法。尽管上述努力探索了网络架构和组合度量学习损失但我们在 CityFlow-ReID 基准上的最高 mAP 仍低于35%35\%35%。相比之下表 5 [62, 56, 59, 55] 显示了相同方法在其他公共基准上的性能使用相同的实现和超参数。总体而言性能显著更好从而验证了 CityFlow-ReID 确实更具挑战性。车辆 ReID 中的度量学习方法。表 6 显示了最先进的车辆 ReID 方法 [18] 在所提出数据集上的结果。在这个实验中我们使用基于 MobileNetV1 [15] 的实现比较了采样变体BA、BH、BS 和 BW如前所述。在 rank-1 命中率方面的结果仅略差于行人 ReID 中难三元组损失和交叉熵损失组合的结果见表 4。这种准确率的降低可能是由于相对简单的网络架构MobileNetV1 [15]和计算效率高的 128 维嵌入。表 6 再次展示了 CityFlow-ReID 的挑战性。在其他基准上的车辆 ReID 方法。为了验证我们的方法确实具有竞争力表 7 [18] 显示了几个最先进的车辆 ReID 方法在公共基准上的性能。这些结果也总结在图 6 的累积匹配曲线CMC图中。图 7 显示了性能的定性可视化。我们观察到图 6. CityFlow-ReID 上基于图像的 ReID 方法的 CMC。表 4 中所有最先进的行人 ReID 方案均使用 DenseNet121 [17]。![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/2cfcba84cd0b48258589b59dc8542236.png)图 7. CityFlow-ReID 中两个示例查询的基于图像 ReID 方法的定性性能。每个查询的行从上到下分别显示 FVSBhattacharyya 范数、Xent、Htri、Cent、XentHtri、BA 和 BS 的结果。每行显示该方法找到的前 10 个匹配。表 4 中所有最先进的行人 ReID 方案均使用 DenseNet121 [17]。表 3. 来自领先车辆 ReID 方法 FVS [43] 的 CNN 特征在使用各种度量标准时在 CityFlow-ReID 基准上的性能。范数mAPRank-1Rank-5Rank-10Bhattacharyya6.3%20.8%24.5%27.9%L2\mathrm{L}_2L2​5.9%20.4%24.9%27.9%L1\mathrm{L}_1L1​6.2%20.3%24.8%27.8%L∞\mathrm{L}_{\infty}L∞​3.2%17.0%23.6%27.6%表 4. 最先进的行人 ReID 度量学习方法在 CityFlow-ReID 上的结果显示 mAP 和 rank-1括号内以百分比表示。所有网络均在 ImageNet [9] 上预训练。每行/每列的最佳架构和损失函数分别高亮显示阴影单元格表示 mAP 和 rank-1 的整体最佳。损失ResNet50 [12]ResNet50M [54]ResNeXt101 [51]SEResNet50 [16]SEResNeXt50 [16]DenseNet121 [17]InceptionResNetV2 [38]MobileNetV2 [36]Xent [40]25.5 (41.3)25.3 (42.1)26.6 (42.4)23.8 (40.4)26.8 (45.2)23.2 (39.9)20.8 (35.5)14.7 (26.0)Htri [13]28.7 (42.9)27.9 (40.1)30.0 (41.3)26.3 (38.7)28.2 (40.4)30.5 (45.8)23.7 (37.2)0.4 (0.3)Cent [48]7.6 (18.2)7.9 (21.5)8.1 (19.3)10.0 (25.9)10.2 (25.6)10.7 (27.9)6.0 (15.2)7.9 (18.4)XentHtri29.4 (45.9)29.4 (49.7)32.0 (48.8)30.0 (47.2)30.8 (49.1)31.0 (51.7)25.6 (42.2)11.2 (16.3)XentCent23.1 (37.5)26.5 (47.3)24.9 (40.9)26.2 (43.7)28.4 (47.5)27.8 (48.1)23.5 (39.5)12.3 (24.0)表 5. 最先进的行人 ReID 度量学习方法在其他公共基准上的性能显示 mAP 和 rank-1括号内以百分比表示。底部行来自 [62]显示表 4 中的方法与最先进水平具有竞争力。方法Market1501 [58]DukeMTMC-reID [34, 61]MSMT17 [45]HA-CNN [23]75.6 (90.9)63.2 (80.1)37.2 (64.7)MLFN [6]74.3 (90.1)63.2 (81.1)37.2 (66.4)GLAD [47]--34.0 (61.4)Res50Cent75.3 (90.8)64.0 (81.0)38.4 (69.6)Res50MCent76.0 (90.2)64.0 (81.6)38.0 (69.0)SERes50Cent75.9 (91.9)63.7 (81.5)39.8 (71.1)Dense121Cent68.0 (87.8)58.8 (79.7)35.0 (67.6)表 6. 最先进的车辆 ReID 度量学习方法使用不同采样变体在 CityFlow-ReID 上的性能。方法mAPRank-1Rank-5Rank-10MoV1BA [18]31.3%49.6%65.0%71.2%MoV1BH [18]32.0%48.4%65.2%71.4%MoV1BS [18]31.3%49.0%63.1%70.9%MoV1BW [18]30.8%50.1%64.9%71.4%表 7. 最先进的车辆 ReID 度量学习方法在其他公共基准上的性能显示 mAP 和 rank-1括号内以百分比表示。性能是在 VehicleID、PKU-VD1 和 PKU-VD2 的最大测试集上评估的。底部行显示了我们比较中的方法来自表 6。方法VeRi-776 [28]VehicleID [26]PKU-VD1 [52]PKU-VD2 [52]GSTE [4]59.5 (96.2)72.4 (74.0)--VAMI [63]50.1 (77.0)- (47.3)--OIFE [44]48.0 (89.4)- (67.0)--CCL [26]-45.5 (38.2)--MGR [52]--51.1 (-)55.3 (-)MoV1BA [18]66.9 (90.1)76.0 (66.7)--MoV1BH [18]65.1 (87.3)76.9 (67.6)--MoV1BS [18]67.6 (90.2)78.2 (69.3)58.3 (58.3)62.4 (69.4)MoV1BW [18]67.0 (90.0)78.1 (69.4)--5.2. MTSC 跟踪和目标检测可靠的跨相机跟踪建立在每个相机内的准确跟踪MTSC之上。表 8 显示了最先进的 MTSC 跟踪方法 [49, 42, 43] 结合领先的目标检测算法 [32, 27, 33] 在 CityFlow 上的结果。注意在 MTSC 跟踪评估中不考虑假阳性因为只标注了穿越多个相机的车辆。关于目标检测器SSD512 [27] 表现最好而 YOLOv3 [32] 和 Faster R-CNN [33] 显示出相似的性能。对于 MTSC 跟踪器TC [43] 是唯一的离线方法根据大多数评估指标表现更好。DeepSORT [49] 和 MOANA [42] 在 MOTA 上表现相似但 DeepSORT 的 ID F1 分数要高得多。尽管如此MOANA 能够成功跟踪大多数轨迹。表 8. CityFlow 上最先进的 MTSC 跟踪和目标检测方法。指标在第 3.5 节中解释。方法IDF1RecallFARMTMOTAMOTPDSYOLO78.9%67.6%8.67786.4%65.8%DSSSD79.5%69.2%8.37586.9%65.5%DSFRCNN78.9%66.9%15.37686.7%65.5%TCYOLO79.1%68.1%8.58786.8%66.0%TCSSD79.7%70.4%7.48987.0%65.6%TCFRCNN78.7%68.5%12.09586.8%65.9%MOYOLO77.8%69.0%8.59686.6%66.0%MOSSD72.8%68.0%6.39886.0%65.9%MOFRCNN75.6%69.5%10.810986.6%66.0%5.3. MTMC 跟踪MTMC 跟踪是视觉-时空推理的联合过程。对于这些实验我们首先应用 MTSC 跟踪然后从每个轨迹中采样多个特征以提取和比较外观特征。每个车辆采样的实例数量根据经验选择为 3。表 9 显示了各种时空关联、MTSC 跟踪和基于图像的 ReID 方法在 CityFlow 上的结果。注意PROVID [29] 首先比较视觉特征然后使用时空信息进行重排序而 2WGMMF [20] 和 FVS [43] 首先基于在线学习或手动测量建模时空转移然后仅对高置信度的配对进行基于图像的 ReID。还要注意由于评估中只包含跨越多个相机的轨迹与 MTSC 跟踪不同在 MTMC 跟踪准确率计算中考虑假阳性。总体而言最可靠的时空关联方法是 FVS它利用了手动指定的转移时间概率模型。相比之下2WGMMF 在大多数情况下达到了与 FVS 相当的性能这是因为在线学习的转移时间分布应用于训练集和测试集共享的那些相机。没有概率建模的 PROVID 结果较差。从表 9 我们还可以得出结论基于图像的 ReID 和 MTSC 跟踪方法的选择对整体性能有显著影响因为这些方法在其子任务中取得优越性能也有助于提高 MTMC 跟踪的准确率。表 9. CityFlow 上使用不同时空关联、MTSC 跟踪基于 SSD512 [27]和基于图像的 ReID 方法组合的 MTMC 跟踪。每个单元格显示 ID F1 分数。每行/列的最佳性能高亮显示阴影单元格表示整体最佳。对于 Xent、Htri、Cent 和 XentHtri 的比较使用 DenseNet121 [17]。时空关联MTSC 跟踪基于图像的 ReIDFVS.Bh.PROVID [29]DeepSORT [49]21.5%TC [43]22.1%MOANA [42]21.7%2WGMMF [20]DeepSORT [49]25.0%TC [43]27.6%MOANA [42]20.2%FVS [43]DeepSORT [49]24.9%TC [43]27.6%MOANA [42]21.2%6. 结论我们提出了一个城市级基准 CityFlow它支持基于视频的 MTMC 跟踪和基于图像的 ReID 任务。我们的主要贡献有三点。首先CityFlow 是面向交通理解的城市级应用的首次尝试。它在空间覆盖范围和涉及的相机/路口数量上拥有所有现有 ReID 数据集中最大的规模。此外它包含了广泛的场景和交通流状况。其次CityFlow 也是第一个支持基于车辆的 MTMC 跟踪的基准通过提供原始视频的标注、相机几何和校准信息。所提供的时空信息可用于解决基于图像的 ReID 中的歧义性。第三我们进行了广泛的实验评估了最先进方法在我们基准上的性能比较和分析了各种视觉-时空关联方案。我们表明我们的场景具有挑战性反映了部署系统需要运行的真实情况。最后CityFlow 还可能为新的研究问题开辟道路例如车辆姿态估计、视角生成等。