基于图像的行人重识别
一、表征学习方法
基于特征描述的方法关注如何找到较好的描述行人外貌特征的模型。

1.浅层视觉特征

颜色与纹理等是浅层视觉特征描述图像的主要手段。基本上都是将图像划分成多个区域,对每个区域提取多种不同的底层视觉特征,组合后得到鲁棒性更好的特征表示形式。最常用的就是颜色直方图,多数情况下行人的衣服颜色结构简单,因此颜色表示是有效的特征,通常用RGB、HSV直方图表示。

把RGB空间的图像转化成HSL和YUV颜色空间,观察对数颜色空间中目标像素值的分布,颜色特征在不同光照或角度等行人识别的不适环境中具有一定的不变性。形状特征如方向梯度直方图(HOG)以及局部特征,如局部不变特征–尺度不变特征变换(SIFT),SURF和Covariance描述子ELF方法中,结合RGB、YUV颜色空间的颜色直方图,具有旋转不变性的Schmid和Gabor滤波器计算纹理直方图。

还有局部二值模式(LBP)、Gabor滤波器、共生矩阵等。其中中国科学院自动化所模式识别国家重点实验室廖胜才副研究员等在《Person Re-identification by Local Maximal Occurrence Representation and Metric Learning》中提出了LOMO+XQDA的行人重识别方法,在VIPeR,GRID,CUHK01和CUHK03四个数据集上均提高了在当时(2015.05.07)四个数据集上的RANK-1准确率。

2.中层视觉特征(语义属性)

中层视觉特征(语义属性)就是如是否携带包、是否戴眼镜、头发长短颜色等信息。相同的行人在不同视频拍摄下语义属性很少变化,具体是使用SVM定义行人图像的语义情况。语义属性可以结合属性权值与浅层特征集合,最终描述行人图像。

3.深层视觉特征

特征的选择技术对行人重识别的识别率的性能进行提升,如Fisher向量编码;提取颜色或纹理直方图,预先定义块或条纹形状的图像区域;或者编码区域特征描述符来建立高级视觉特征。受到多视角行为识别研究和Fisher向量编码的影响,一种捕获软矩阵的方法,即DynFV特征和捕获步态和移动轨迹的Fisher向量编码的密集短轨迹时间金字塔特征被提出。

Fisher向量编码方法是首先用来解决大尺度图像分类的方法,也能改善行为识别的性能。Karanam等对行人的n幅图像的每个图像分成6个水平条带,在每个条带上计算纹理和颜色直方图。在YUV、白化的RGB颜色空间计算直方图建立颜色描述符,并用LFDA降维。T.Matsukawa等提出GOG,把一幅图像分成水平条带和局部块,每个条带用一个高斯分布建模。每个条带看作一系列这样的高斯分布,然后用一个单一的高斯分布总体表示。

GOG特征提取的方法好表现在用像素级特征的一个局部高斯分布来描述全局颜色和纹理分布,并且GOG是局部颜色和纹理结构的分层模型,可以从一个人的衣服的某些部分得到。
此外,深度学习也被应用于行人重识别的特征提取中,在AlexNet-Finetune中,开始在ImageNet数据集上预训练的基于AlexNet结构的CNN,并用这个数据集对数据进行微调。在微调过程中,不修改卷积层的权重,训练后两个全连接层。

McLaughlin等采用了类似的方法,对图像提取颜色和光流特征,采用卷积神经网络(CNN)处理得到高层表征,然后用循环神经网络(RNN)捕捉时间信息,然后池化得到序列特征。T.Xiao等对来自各个领域的数据训练出同一个卷积神经网络(CNN),有些神经元学习各个领域共享的表征,而其他的神经元对特定的某个区域有效,得到鲁棒的CNN特征表示。

4.多种特征结合

多特征组合往往会取得好的识别效果。有的研究将图像外表特征和姿态特征相结合解决图像拍摄视角不同给图像识别带来的困难。有的采用多种特征表示图像并进行相似度计算,对计算得到的相似得分进行融合,实现图像识别。有的研究结合图像视觉特征和部分标记信息生成图像表示向量在此基础上实现更准确的图像识别。有的研究结合不完整文字描述信息提出类似技术。。

有的研究提出一种新的图像特征融合方法通过组合带重叠的条块加权直方图特征和颜色名描述特征采用KISSME度量方法实现图像识别。有的研究将来自于HSV颜色空间的多个通道颜色、纹理、空间结构等不同底层特征进行融合实现图像识别。有的研究通过多属性融合和多分类器集成提高行人识别精度。

有的研究提出一种基于图的多特征描述融合方法并通过图优化学习一次性学习检测图像和画廊所有图像的相似度。有的研究抽取多种底层特征采用不同的度量方法并实现多度量方法的优化集成。有的研究通过超图融合有效利用现有多个图像描述特征,超图可同时获取识别对象间的成对和高阶关联通过超图优化获得检测图像和画廊图像间的相似性。有的研究抽取多层次图像描述特征以便获得图像更多的视觉判别线索和隐含的空间结构。

有的研究同时抽取图像的底层和中间层特征计算相似得分并提出一种加权方法融合各种模式。有的研究综合分析了图像特征抽取与描述算法提出基于空间金字塔的统计特征抽取框架在此基础上综合评估了各种特征抽取方法和融合策略。

二、度量学习方法

基于度量学习的方法关注如何找到有效的行人特征相似度的度量准则。

由于摄像机的视角、尺度、光照、服饰与姿态变化、分辨率不同以及存在遮挡,不同摄像头间可能会失去连续的位置和运动信息,使用欧氏距离、巴氏距离等标准的距离度量来度量行人表观特征的相似度不能获得很好的重识别效果,因此,研究者们提出通过度量学习的方法。

该方法获得一个新的距离度量空间,使得同一行人不同图像的特征距离小于与不同人的距离。距离度量学习方法一般是基于马氏距离而进行。2002年,Xing等提出以马氏距离为基础的度量学习算法,根据样本的类别标签,将具有相同标签的样本组成正样本对,反之组成负样本对,并以此作为约束训练得到一个马氏矩阵,通过这样学习到的距离尺度变换,使得相同的人的特征距离减小,而不同的人特征距离增大,以此开创了行人重识别中距离度量学习的先河。

目前在行人重识别研究中有一些普遍用于比较的度量学习算法。Weinberger等提出LMNN算法,通过学习一种距离度量,使在一个新的转换空间中,对于一个输入的k个近邻属于相同的类别,而不同类别的样本与输入样本保持一定大的距离。Dikmen等对LMNN进行改进提出LMNN-R方法,用所有样本点的平均近邻边界来代替LMNN中不同样本点所采用的各自近邻边界,相较于LMNN方法具有更强的约束效果。

同一年,Guillaumin等基于概率论提出了LDML算法。LDML算法基于逻辑回归的思想,使用S型函数来表示样本对是否属于等值约束的概率。Prosser等将重识别问题抽象为相对排序问题,提出Rank SVM学习到一个子空间,在这个子空间中相匹配的图像有更高的排序。

Zheng等提出PRDC算法,相同人的图像组成同类样本对,不同行人目标之间组成异类样本对,获得度量函数对应的系数矩阵,优化目标函数使得同类样本对之间的匹配距离小于异类样本对之间的距离,对每一个样本,选择一个同类样本和异类样本与其形成三元组,在训练过程通过最小化异类样本距离减去同类样本距离的和,得到满足约束的距离度量矩阵。算法的基本思想在于增加正确匹配之间会拥有较短距离的可能性。2013年,Zheng等在PRDC的基础上提出了一种相对距离比较算法RDC,RDC采用Adaboost算法来减少对标注样本的需求。

Kostinger等提出KISSME算法,认为所有相似样本对和不相似样本对的差向量均满足一个高斯分布,因此可以通过相似和不相似训练样本对分别大致计算出均值向量和协方差矩阵。

给定两个样本组成的样本对,作者分别计算该样本对属于相似样本对的概率和该样本属于不相似样本对的概率,并用其比值表示两个样本之间的距离,并把该距离变幻成马氏距离的形式,而马氏距离中的矩阵正好等于相似样本对高斯分布协方差矩阵的逆减去不相似样本对高斯分布协方差矩阵的逆。因此,该方法不要用迭代优化过程,适合用于大尺度数据的距离度量学习。

Pedagadi等提出LFDA算法进行度量学习,该方法在进行特征提取的时候,首先提取不同特征的主要成分,然后拼接成特征向量。在距离度量学习上,该方法考虑不是对所有样本点都给予相同的权重,考虑到了局部样本点,应用局部Fisher判别分析方法为降维的特征提供有识别能力的空间,提高度量学习的识别率。

Liao等提出了XQDA算法,这是KISSME算法在多场景下的推广。XQDA算法对多场景的数据进行学习,获得原有样本的一个子空间,同时学习一个与子空间对应的距离度量函数,该距离度量函数分别用来度量同类样本和非同类样本。

三、深度学习方法

深度学习方法中
根据训练损失函数的不同可以分为基于表征学习的方法和基于度量学习的方法。

根据方法原理不同,可以将近几年行人重识别的研究分为区域(region)、注意力(attention)、姿势(pose)和生成对抗性网络(GAN)四类方法。下面分别从基于表征学习的方法、基于度量学习的方法和四类研究热点进行介绍。

1.按照损失函数分类

1.1基于表征学习的方法

虽然行人重识别的最终目标是为了学习出两张图片之间的相似度,但是表征学习的方法并没有直接在训练网络的时候考虑图片间的相似度,而把行人重识别任务当做分类问题或者验证问题来看待。

这类方法的特点就是网络的最后一层全连接层输出的并不是最终使用的图像特征向量,而是经过一个Softmax激活函数来计算表征学习损失,前一层(倒数第二层)FC层通常为特征向量层。具体言之,分类问题是指利用行人的ID或者属性等作为训练标签来训练模型,每次只需要输入一张图片;验证问题是指输入一对(两张)行人图片,让网络来学习这两张图片是否属于同一个行人。

分类网络常用的两种损失分别是行人ID损失和属性损失。IDE网络将每一个行人当做分类问题的一个类别,用行人的ID作为训练数据的标签来训练CNN网络,这个网络损失被称为ID损失。IDE网络是行人重识别领域非常重要的baseline基准。

后来部分研究者认为,光靠行人的ID信息不足以学习出一个泛化能力足够强的模型。因此,他们利用了额外标注的行人图片的属性信息,例如性别、头发、衣着等属性,通过引入行人属性标签计算属性损失。训练好的网络不但要准确地预测出行人ID,还要预测出各项行人属性,这大大增加了网络的泛化能力。通过结合ID损失和属性损失能够提高网络的泛化能力。

验证网络是另外一种常用于行人重识别任务的表征学习方法。和分类网络不同之处在于,验证网络每次需要输入两张图片,这两张图片经过一个共享的CNN,将网络输出的两个特征向量融合起来,输入到一个只有两个神经元的FC层,来预测这两幅图片是否属于同一个行人。因此,验证网络本质上是一个多输入单输出的二分类网络。通常,仅仅使用验证损失训练网络是非常低效的,所以验证损失会与ID损失一起使用来训练网络。
表征学习可以近似看作为学习样本在特征空间的分界面。

1.2基于度量学习的方法

度量学习不同于表征学习,度量学习旨在通过网络学习出两张图片的相似度。在行人重识别问题上,表现为同一行人的不同图片间的相似度大于不同行人的不同图片。具体为,定义一个映射f(x):RF→RD,将图片从原始域映射到特征域,之后再定义一个距离度量函数D(x,y):RD×RD→R,来计算两个特征向量之间的距离。

最后通过最小化网络的度量损失,来寻找一个最优的映射f(x),使得相同行人两张图片(正样本对)的距离尽可能小,不同行人两张图片(负样本对)的距离尽可能大。而这个映射f(x),就是我们训练得到的深度卷积网络。首先,假如有两张输入图片I1和I2,通过网络的前向传播我们可以得到它们(归一化后)的特征向量fI1和fI2。之后我们需要定义一个距离度量函数,这个函数并不唯一,只要能够在特征空间描述特征向量的相似度或差异度的函数均可以作为距离度量函数。

通常,为了实现端对端训练的网络,度量函数尽可能连续可导,使用特征的欧氏距离或者余弦距离作为度量函数,同时曼哈顿距离、汉明距离、马氏距离等距离也可以作为度量学习的距离度量函数。常用的度量学习损失方法包括对比损失(Contrastive loss)、三元组损失(Triplet loss)、四元组损失(Quadruplet loss)。对比损失用于训练孪生网络。

三元组损失是一种被广泛应用的度量学习损失,三元组损失需要三张输入图片。和对比损失不同,一个输入的三元组包括一对正样本对和一对负样本对。三张图片分别命名为固定图片a,正样本图片p和负样本图片n。图片a和图片p为一对正样本对,图片a和图片n为一对负样本对。四元组损失是三元组损失的另一个改进版本,四元组需要四张输入图片,和三元组不同的是多了一张负样本图片。即四张图片为固定图片a,正样本图片p,负样本图片n1和负样本图片n2。

其中n1和n2是两张不同行人ID的图片。这些方法在计算度量损失时,样本对都是从训练集中随机挑选。随机挑选样本对的方法可能经常挑选出一些容易识别的样本对组成训练批次,使得网络泛化能力受限。为此,部分学者提出了难样本采样的方法,来挑选出难样本对训练网络。常用的思路是挑选出一个训练Batch中特征向量距离比较大(非常不像)的正样本对和特征向量距离比较小(非常像)的负样本对来训练网络。难样本采样技术可以明显改进度量学习方法的性能,加快网络的收敛,并且可以很方便地在原有度量学习方法上进行扩展,是目前广泛采用的一种技术。


度量学习可以近似看作为样本在特征空间进行聚类。度量学习和表征学习相比,优势在于网络末尾不需要接一个分类的全连接层,因此对于训练集的行人ID数量不敏感,可以应用于训练超大规模数据集的网络。总体而言,度量学习比表征学习使用的更加广泛,性能表现也略微优于表征学习。但是目前行人重识别的数据集规模还依然有限,表征学习的方法也依然得到使用。同时,融合度量学习和表征学习训练网络的思路也在逐渐变得流行。

1.3表征学习与度量学习的对比

表征学习的优点在于数据集量不大的时候收敛容易,模型训练鲁棒性强,训练时间短。然而表征学习是将每一个ID的行人图片当做一个类别,当ID数量增加到百万、千万甚至更多的时候,网络最后一层是一个维度非常高的全连接层,使得网络参数量巨大并且收敛困难。


由于直接计算特征之间的距离,度量学习的优点在于可以很方便地扩展到新的数据集,不需要根据ID数量来调整网络的结构,此外也可以非常好地适应ID数目巨大的训练数据。然而,度量学习相对来说收敛困难,需要比较丰富的训练经验来调整网络参数,另外收敛训练时间也比表征学习要长。


表征学习和度量学习拥有各自的优缺点,目前学术界和工业界逐渐开始联合两种学习损失。联合的方式也比较直接,在传统度量学习方法的基础上,在特征层后面再添加一个全连接层进行ID分类学习。网络同时优化表征学习损失和度量学习损失,来共同优化特征层。

2.按照研究方向分类


2.1基于区域的方法

基于区域的方法将行人图像分成水平条纹或者几个均匀的部分,可以有效的观察各个分区的差异值;可优化内部一致性,以便更好的提取颜色和纹理特征;结合卷积神经网络使模型具有学习的能力;对于部分遮挡和姿势小规模的变化具有鲁棒性;但是这类方法对于遮挡和姿势不对齐等问题还存在大的挑战,对于行人图像姿势的大幅度变化还有待提高。
基于区域的方法大致可以分为水平条纹分区、局部特征与局部全局特征协同三种。


水平条纹分区:由于图像的像素不稳定,故需要一个有效的表示来对行人进行特征提取和匹配。2014年Yi等人提出了深度量度学习方法(DML),此方法是受到孪生神经网络的启发,用孪生卷积神经网络、将目标行人图像强行分成三个大的部分来评估两图像的相似性,此方法从理论上说,应该是归类于基于部件的方法,但是深入观察,发现与基于条纹的方法也有相似之处。在此之前也有一些较好的量度学习方法,比如2012年Kostinger等人验证了KISSME方法比同类方法效果略优;Zheng等人提出相对距离比较(RDC)模型,并在三个公开的数据集上进行了实验,实验结果表明相对距离比较(RDC)明显优于当下流行的其它模型。多次实验还发现新的相对距离比较(RDC)模型对外观和视觉效果更好,更具鲁棒性,同时减少了模型的过度拟合性。在后续工作中Tao等人又在Zheng等人的基础上进行了优化和扩展。深度量度学习(DML)较前面几个方法优势在于模型中学习的多通道滤波器可以同时检测纹理和颜色特征,明显比传统方法中的简单融合更合理,也使得识别过程更具灵活性。


局部特征:早期的一些研究会假设几何和光照等因素的变化,并且可以从样本中学习模型参数。2014年Li等人提出一种新的滤波器配对神经网络(FPNN)模型来进行行人重识别。文献中提出的滤波器配对神经网络,利用滤波器和最大分组层来学习光度变换。此模型较深度量度学习更细致,把行人分成更多小块来计算相似性,在深度神经网络下统一完成未对准、遮挡和光度变化等问题的处理,使识别通道的各个部件联合起来工作,提高了识别的灵活性。许多研究想通过改进原来的方法来提高行人的识别效率,然而不少识别方法中的视觉特征表示是手动的,但手动的方法容易失去空间信息导致辨别率下降,使用基于贴片的局部特征可以适当的提高辨别率,但是没有根本的解决问题,要更好解决问题还是要求模型有从数据中学习的能力。


局部全局特征协同:前人利用深度学习的优势,使得行人重识别技术逐渐完善,现阶段还是要着力于如何降低外界因素对行人重识别的影响和加强局部特征之间的联系。2017年Yao等人提出部分损失网络(PL-Net)的深度学习的方法。文献提出只看全局特征是局限的,所以把目标人物分成几个部分来进行表示,但没有考虑几个局部特征之间的联系和不对齐,依然没有根本解决问题。2017年Zhang等人基于部件的方法提出了对齐识别(Aligned Reid)模型,实现了局部特征和全局特征协同工作。

2.2基于注意力机制的方法


针对行人的脸部是模糊的,可以考虑从行人身体上其它比较特别的局部特征入手。此类方法对于行人的遮挡和分辨率不高等问题有一定的帮助,但是在识别的过程中有可能丢失更重要的数据信息,导致识别效率不高。


在实际情况中,行人姿势复杂,划分的边界框不一定能够适应所有的行人,实现起来和理想状态总有一定的差距,就算用复杂的匹配技术也不一定能够得到理想的结果。针对此问题,2017年Zhao等人受到注意力模型的启发提出了部分对齐(Part-Aligned)方法。主要步骤是,把在匹配的过程中有区别的局部进行检测。先计算局部的表示,最后汇总各个部分之间的相似性。文章中提出的局部对齐特征表示提取器,也是一个深度神经网络,是由完全卷积神经网络(FCNN)组成,实验得出较好的结果。通过研究者们分析得出,虽然在卷积神经网络的贡献下,结果有明显的提高,但还是存在一些识别死角。例如对细粒度综合特征的行人识别,没有得到充分的解决。故2017年Liu等人基于注意力神经网络,提出一种对细粒度特征识别有优势的HydraPlus-Net(HPnet)网络模型。它主要是通过将多层的注意力图以多方向地反馈到不同的层,从而达到识别目的。之前提到遮挡、背景杂波和行人姿势的大幅度形变等客观因素引起的问题依然存在。

在检测过程中,为提高实验效果,研究者们针对这些客观因素引起的复杂问题提出许多行之有效的方法。如自动检测的行人检测框,此类基于注意力识别的方法模型,可以解决一定的遮挡和背景杂波等问题。还有一些思路是想通过选择注意力行人检测框来解决遮挡等问题,主流的方法是局部斑块校准匹配和显着性加权。2018年,在原来研究成果的基础上,受注意力神经网络启发,Li等人提出了注意力融合卷积神经网络(HA-CNN)模型,用于硬区域和软像素联合学习,同时优化特征表示,从而达到优化图像未对准情况的行人识别。在最近的研究中就遮挡的问题又有了新的成就。2018年Li等提出了一种新的时空注意力模型,此模型可以自动的发现行人身体的各个特殊部位。利用多个空间注意力模型提取每个图像帧的有用部位信息,并且通过时间注意力模型整合输出,允许从所有帧中提取可利用的部位信息,对遮挡和错位等问题有一定的改善,并且在三大数据集上进行评估,实验结果超过了部分先进的方法。

2.3基于姿势分类的方法


基于姿势的方法大多是从全局和局部特征出发来缓解姿势变化,利用全局图像的完整性与不同的局部部分相结合来学习特征表示,此类方法一定程度上可以解决因姿势变化引起的行人特征形变问题。
最先提出基于姿势的工作是Spindel Net。近期基于姿势的行人识别方法,在该问题上也取得了阶段性的成果。

2017年Su等人为解决此类问题,提出了一种姿势驱动的深度卷积(PDC)模型,此模型改进了常规的特征提取和匹配模型。首先是特征嵌入子网(FEN),实现的功能是,利用人体姿势信息,将身体全局图像转换为包含规范化部分区域的图像,再通过全局特征和不同局部特征相结合学习强大的特征表示。

为了进行特征匹配还设计了特征加权子网(PWN)。实验操作中首先是将姿势的信息嵌入到结构化网络当中,然后生成modified结构图像,最后是对这个结构图像进行识别。实验在三个常用的数据集上得到验证,故得出结论考虑额外姿势线索可以提高Rank-1准确率。

有研究提出Date Augment的方法,主要是通过引入存在遮挡的姿势的样本库,再结合GAN生成多姿态的样本标签,用于辅助后期的训练。但是训练GAN生成的样本数据集因辨识度不高对训练模型帮助不大,其中还提出了一种姿态迁移的行人重识别框架来提高实验结果。有些研究强调姿势和嵌入,如2018年Sarfraz等就是基于姿势和嵌入提出一种行之有效姿势敏感嵌入(PSE)的方法。此方法结合人细致(如人的关节等)和粗略的姿势(全局的人像)信息来学习嵌入。

2.4基于生成对抗网络的方法

此类方法大多数是通过改进GAN 来增强数据集,从而减少因域间隙引起的模型过度拟合性问题。一般会结合上述类型的方法,一起完成识别过程。从实验结果来看确实部分增强了数据集,但是整体的识别效率还有待提高。

在以上行人重识别工作中,利用深度学习很好地解决遮挡和不对齐等问题。但是通过对各个方法在数据集上的表现进行分析时发现,部分方法在某个数据集上表现较好,却在另外一个数据集上训练可能就没有那么好的实验结果。像这样因为训练数据集的改变引起的实验效果变化,很可能是模型的过度拟合导致的。解决此类问题,可以从扩大数据集和增加数据多样性方面着手。故2017年zheng等利用生成对抗性网络来生成更多模拟的数据,从实验结果来看,模型对数据集的过度依赖确实得到部分的优化,但是数据集生成的样本存在辨识度不高和有些复杂的图像出现了扭曲等问题,与真实图像差距较大。

针对以上问题Liu等人提出了一种姿态迁移的行人重识别框架。在传统GAN辨别器的基础上增加一个引导子网络,使得网络能够生成更具代表性的行人重识别样本。更近一步的研究是2018年Zhong等人提出的CamStyle,主要是利用CycleGAN和标签平滑正则化(LSR)来改善模型在训练中生成扭曲图像和产生噪声的问题,改进幅度可达到17%左右,但是对生成的数据集进行分析时发现,该论文中的方法只是学习了摄像机的风格(色调),没有对行人的姿势进行处理。对行人姿势处理较好的是Zhu等人提出的姿势转移对抗性网络,将给定的行人姿势转换成目标行人的姿势,从而实现生成新的行人姿势。转换姿势的还有Song等人的研究。传统的GAN模型生成的模拟数据集之间仍然存在差异性,导致不同的数据集,在相同的模型上训练出来的结果稍有偏差,也叫域间隙。2018年Wei等人也是针对域间隙的问题提出了人员转移生成对抗性网络,来弥补领域差距。

同时还提供了一个叫做MSMT17的新数据集,此数据集增加许多重要的功能,并且提供许多较复杂的图像。结合此数据集进行实验,结果表明迁移生成对抗性网络确实缩小了域间隙。

3.各种方法rank-1与mAP对比

下表中所有技术组合在Market1501数据集上进行性能比较。


上表来自《 基 于 深 度 学 习 的 行 人 重 识 别 研 究 进 展 》 [ 40 ] 《基于深度学习的行人重识别研究进展》^{[40]}《基于深度学习的行人重识别研究进展》 
[40]
 

四、基于图像的行人重识别常见数据集

首先解释single-shot和multi-shot的区别。single-shot是指每个行人在每个场景中只有一幅图像;multi-shot是指每个行人在每个场景中对应若干图像序列。

  1. VIPeR
    公布于2007年。拍摄场景-大学校园。由2个摄像头拍摄,包含632个行人的1264张图片。图片分辨率统一为128X48。single-shot。该数据集图像分辨率较低,识别难度大。
  2. QMUL iLIDS
    公布于2009年。拍摄场景-机场大厅。由2个摄像头拍摄,包含个119行人的476张图片。图片未统一分辨率。multi-shot。
  3. GRID
    公布于2009年。拍摄场景-地铁站。由8个摄像头拍摄,包含个1025行人的1275张图片。图片未统一分辨率。multi-shot。
  4. CAVIAR4ReID
    公布于2011年。拍摄场景-购物中心。由2个摄像头拍摄,包含72个行人的1220张图片。图片未统一分辨率。multi-shot。
  5. CUHK01
    公布于2012年。拍摄场景-大学校园。由2个摄像头拍摄,包含971个行人的3884张图片。图片分辨率统一为160X60。multi-shot。
  6. CUHK02
    公布于2013年。拍摄场景-大学校园。由10个(5对)摄像头拍摄,包含1816个行人的7264张图片。图片分辨率统一为160X60。multi-shot。
  7. CUHK03
    公布于2014年。拍摄场景-大学校园。由10个(5对)摄像头拍摄,包含1467个行人的13164张图片。图片未统一分辨率。multi-shot。
  8. RAiD
    公布于2014年。拍摄场景-公共大厅。由4个摄像头(2室内2室外)拍摄,包含43个行人的6920张图片。图片分辨率统一为128X64。multi-shot。
  9. Market-1501
    公布于年。拍摄场景-大学校园。由6个摄像头拍摄,包含1501个行人的32217张图片。图片分辨率统一为128X64。multi-shot。

五、参考文献
[1] 宋婉茹, 赵晴晴, 陈昌红, 等. 行人重识别研究综述[J]. 智能系统学报, 2017, 12(06): 770-780.
[2] 张化祥, 刘丽. 行人重识别研究综述[J]. 山东师范大学学报, 2018, 33(04): 379-387.
[3] S. Liao,Y. Hu, Xiangyu Zhu and S. Z. Li, Person re-identification by Local Maximal Occurrence representation and metric learning[C]. CVPR, 2015: 2197-2206.
[4] MA B, SU Y, JURIE F. Local descriptors encoded by fisher vectors for person re-identification[C]. ICCV, 2012: 413–422.
[5] CHEN D, YUAN Z, HUA G, 等. Similarity learning on an explicit polynomial kernel feature map for person re-identification[C]. CVPR, 2015: 1565–1573.
[6] GOU M, ZHANG X, RATES-BORRAS A, 等. Person re-identification in appearance impaired scenarios[C]. British Machine Vision Conference, 2016: 1–48.
[7] KARANAM S, LI Y, RADKE R J. Person re-identification with discriminatively trained viewpoint invariant dictionaries[C]. ICCV, 2015: 4516–4524.
[8] SUGIYAMA. Local fisher discriminant analysis for supervised dimensionality reduction[J]. Machine learning, 2010, 78(1/2): 35-61.
[9] MATSUKAWA T, OKABE T, SUZUKI E, 等. Hierarchical gaussian descriptor for person re-identification[C]. CVPR, 2016: 1363–1372.
[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems, 2012: 1097–1105.
[11] MCLAUGHLIN N, RINCON J M, MILLER P. Recurrent Convolutional Network for Video-based Person Re-Identification[C]. CVPR, 2012: 51–58.
[12] XIAO T, LI H, OUYANG W, 等. Learning deep feature representations with domain guided dropout for person re-identification[C]. CVPR, 2016: 1249–1258.
[13] WEINBERGER K Q, SAUL K L. Distance metric learning for large margin nearest neighbor classification[J]. Journal of machine learning research, 2009, 10(1): 207–244.
[14] DIKMEN M, AKBAS E, HUANG T S, 等. Pedestrian recognition with a learned metric[J]. Lecture notes in computer science, 2010,6495: 501-512.
[15] GUILLAUMIN M, VERBEEK J, SCHMID C. Is that you? Metric learning approaches for face identification[C]. ICCV, 2009: 498–505.
[16] ZHENG W, GONG S, XIANG T. Person re-identification by probabilistic relative distance comparison[C]. CVPR, 2011: 649–656.
[17] ZHENG W S, GONG S, XIANG T. Re-identification by relative distance comparison[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(3): 653.
[18] YI D, LEI Z, LI S Z. Deep metric learning for practical person re-identification[C]. CVPR, 2014: 34–39.
[19] LIU H, MA B, QIN L, 等. Set-label modeling and deep metric learning on person re-identification[J]. Neurocomputing, 2015(151): 1283–1292.
[20] LI W, ZHAO R, XIAO T, 等. Deepreid: Deep filter pairing neural network for person re-identification[C]. CVPR, 2014: 152–159.
[21] DING S, LIN L, WANG G, 等. Deep feature learning with relative distance comparison for person re-identification[J]. Pattern recognition, 2015, 48(10): 2993-3003.
[22] PEDAGADI S, ORWELL J, VELASTIN S, 等. Local fisher discriminant analysis for pedestrian re-identification[C]. CVPR, 2013: 3318–3325.
[23] KOESTINGER M, HIRZER M, WOHLHART P, 等. Large scale metric learning from equivalence constraint[C].CVPR , 2012: 2288–2295.
[24] ENGEL C, BAUMGARTNE P, HOLZMANN M, 等. Person re-identification by support vector ranking[C]. British Machine Vision Conference, 2010: 1–11.
[25] SCOVANNER P, ALI S, SHAH M. A 3-dimensional sift descriptor and its application to action recognition[C]. 15th ACM International Conference on Multimedia, 2007: 357–360.
[28] BEDAGKAR-GALA A, SHAH S K. Gait-assisted person re-identification in wide area surveillance[C]. Asian Conference on Computer Vision, 2014: 633–649.
[29] SIMONNET D, LEWANDOWSKI M, VELASTIN S.A, 等. Re-identification of pedestrians in crowds using dynamic time warping[C]. ICCV, 2012: 423–432.
[30] MAN J,BHANU B. Individual recognition using gait energy image[J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(2): 316–322.
[31] WANG T, GONG S G, ZHU X, 等. Person re-identification by video ranking[C]. European Conference on Computer Vision, 2014: 688–703.
[32] KLASER A, MARSZALEK M, SCHMID C. A spatiotemporal descriptor based on 3D-gradients[C]. British Machine Vision Conference, British, 2008: 152–159.
[34] YOU J, WU A, LI X, 等. Top-push video-based person re-identification[C]. CVPR, 2016: 1345–1353.
[35] YAN Y, NI B, SONG Z, 等. Person Re-identification via recurrent feature aggregation[C]. European Conference on Computer Vision. Springer International Publishing, 2016: 701–716.
[36] ZHOU Z,HUANG Y, WANG W, 等. See the forest for the trees: joint spatial and temporal recurrent neural networks in video-based person re-identification[C]. CVPR, 2017: 143–147.
[37] LIU H, JIE Z, JAYASHREE K, 等. Video-based person re-identification with accumulative motion context[J]. IEEE transactions on circuits and systems for video technology, 2017(99): 23–29.
[38] Zhang X , Luo H , Fan X , 等. AlignedReID: Surpassing Human-Level Performance in Person
Re-Identification[J]. 2017.
[39] WEI L, ZHANG S, GAO W, 等. Person transfer GAN to bridge domain gap for person re-identification[C]. CVPR, 2018: 79-88.
[40] 罗浩, 姜伟, 范星, 张思朋. 基于深度学习的行人重识别研究进展. 自动化学报, 2019, 45(11): 2032-2049

————————————————