当前位置：网站首页>(CVPR-2022)用于改进步态识别的拉格朗日运动分析和视角嵌入

(CVPR-2022)用于改进步态识别的拉格朗日运动分析和视角嵌入

2022-07-16 06:23:00 【顾道长生'】

用于改进步态识别的拉格朗日运动分析和视角嵌入

paper题目：Lagrange Motion Analysis and View Embeddings for Improved Gait Recognition

paper是北航发表在CVPR 2022上的工作

paper链接：地址

Abstract

步态被认为是人体的行走模式，包括形状和运动线索。然而，主流的基于外观的步态识别方法依赖于轮廓的形状。目前尚不清楚运动是否可以在步态序列建模中明确表示。在本文中，我们使用拉格朗日方程分析了人类步行，并得出结论，时间维度中的二阶信息对于识别是必要的。我们根据得出的结论设计了二阶运动提取模块。此外，通过分析当前的交叉视图任务方法没有明确考虑视图本身的问题，设计了一个轻量级的视角嵌入模块。在 CASIA-B 和 OU-MVLP 数据集上的实验表明了我们方法的有效性，并且对提取的运动进行了一些可视化以显示我们的运动提取模块的可解释性。

1.Introduction

步态是一种生物特征，可呈现行人的步行模式以进行身份识别，并且比其他生物特征（例如面部、虹膜或指纹）具有优势，因为它可以在没有触摸和远距离的情况下进行识别。尽管已经研究了多年，但在步态识别方面仍然存在一些挑战。例如，携带条件 [4, 15, 16, 42, 46]、外套穿着和视角差异 [41, 45] 等变化可能会导致步态外观发生变化，从而难以区分行人。

现有的基于外观的步态识别方法在很大程度上依赖于剪影的视觉外观。
然而，当视角接近时，两个不同的人之间的外观差异可能比从两个不同的角度看同一个人的差异要小。

解决上述问题的一种常见方法是学习视角不变或稳健的特征[6,10,20,21,35,37,38,43]。然而，这些工作侧重于如何提取外观信息以及空间或时间特征的融合。视角的检测或估计被忽视，很少有模型明确利用视角。换句话说，这些方法的视角鲁棒性完全基于数据的覆盖范围，这是一个众所周知的不适定问题。

即使视点接近，外观信息仍然不是很可靠。如图1所示，仅从身体形状上很难区分三个样本的身份。这种现象解释了为什么纯粹基于外观的方法，如步态能量图像（GEI）[34]不能达到理想的性能。类似的情况也会出现在最先进的Gaitset方法[6]中，该方法也没有使用时间信息。

图1. 来自CASIA-B数据集的三个样本，其中A和B分别表示ID39和ID77。A-1和A-2是选自不同序列的A的两个样本。可以发现，在视觉上很难找到A和B之间的区别。甚至在某些帧上，A-2与B-1比A-1更相似。

我们认为，图1中所示问题的最终解决方案是步态运动。最近，一些利用时间特征的方法被提出[7, 20, 20, 28, 39]。尽管这些模型在识别精度上显示出较强的优势，但它们没有讨论步态中的运动信息，以至于可能会遗漏一些判别性的生物信息。

在本文中，通过数学建模分析，我们认为只用一阶时间信息是很难区分人的。为了有效地对行人的行走模式进行建模，二阶运动是必要的。为了验证这一观点，我们提出了一种新型的运动辅助步态识别方法。为了进一步减少视角差异的负面影响，我们还引入了一种视角感知的嵌入方法。它产生了一个多分支框架，该框架结合了剪影序列的视角、外观和内在运动。实验结果表明，所提出的模型可以有效地缩小由视角差异引起的类内距离。

本文的主要贡献可以归纳为以下四个方面。

我们通过拉格朗日方程对人类行走进行建模，并得出结论，除了一阶运动特征之外，我们还需要使用二阶运动特征来表示步态。
基于拉格朗日运动分析的结论，我们提出了一个二阶运动提取模块来提取高层特征图上的特征。
我们提出了一种新颖的、轻量级的视角嵌入，以缩小由视角变化引起的差异。
我们将我们提出的方法应用于广泛使用的CASIA-B和OU-MVLP数据集，并验证了我们方法的有效性。为了进一步证明我们想法的有效性，我们进行了一些可视化的研究。

2. Related Works

步态识别方法可分为两类，即分别基于模型的方法和基于外观的方法。

基于模型的步态识别方法[2, 17, 19, 24, 33]利用姿势信息来模拟人类姿势不变的身份信息。这种方法对衣服变化和携带物品等干扰项目具有天然的鲁棒性。然而，基于模型的方法在很大程度上受到姿势估计准确性的影响。行人姿势估计本身仍然是一个具有挑战性的问题[14, 18]，特别是对于跨域姿势估计[44]，这是一个与步态识别更接近的场景。

如今，随着深度学习的发展，基于外观的方法的性能有了较大的突破。Wu等人[37]和Chao等人[6]首先提出了适用于步态识别的网络。Wolf等人[36]、Lin等人[20]和Huang等人[12]将三维卷积用于步态识别。Fan等人[7]和Huang等人[11]将时间模型考虑在内。

视角变化是生物统计学中的一个挑战性问题，包括人脸识别和步态识别。与人脸相比，在步态识别中考虑视角的方法较少。He等人[9]提出了一个多任务GAN，并使用视角标签作为监督来训练GAN。Chai等人[5]采用不同的投影矩阵作为视角嵌入方法，并在多个backbone上实现了高增长。然而，这些模型很复杂，有太多的参数。

光流是运动的一种表现形式，光流估计是一项预测两个相邻帧之间的像素到像素的对应关系的任务。最近，许多深度学习方法[29, 40]被用于光流估计。在这些方法中，RAFT[32]是目前具有完美性能和最快速度的方法。光流已经被用于许多领域，包括动作识别[3, 26]和视频生成[1]。

3. Why second-order motion?

步态被认为是可以区分行人的步行模式[23]。然而，在早些年，基于外观的卷积神经网络方法现在主要关注轮廓的二维特征。即使是最先进的 Gaitset [6] 也不依赖于任何时间特征。很难证明当前最先进的方法是依赖于人体形状还是传统的“步态”。早些年，一些方法 [8, 27, 30] 已经探索了运动以及加速度（二阶运动）对步态识别的影响，但他们并没有深入研究其背后的理论和物理学。

因此，为了探索本质信息，我们提出使用拉格朗日方程[13]来分析人类的行走。如图3所示，我们假设人类的大腿和小腿是刚性的，并对其进行机械建模。两条大腿和两条腿的长度和质量分别表示为 $l_{1}, l_{2}, m_{1}, m_{2}$ 和 $l_{3}, l_{4}, m_{3}, m_{4}$ 。 $\theta_{i}$ 代表它们与垂直线之间的角度。同时，假设人体向前移动一小段距离 $x$ 。

图3。行人行走分析图。

那么我们可以得到动能 $T$ 为：。
$\begin{aligned} T &=\frac{1}{2}\left(m_{1}+m_{2}+m_{3}+m_{4}\right)\left(\frac{\mathrm{d} x}{\mathrm{~d} t}\right)^{2}+\frac{1}{6}\left(m_{1} l_{1}^{2}\left(\frac{\mathrm{d} \theta_{1}}{\mathrm{~d} t}\right)^{2}\right.\\ &\left.+m_{2} l_{2}^{2}\left(\frac{\mathrm{d} \theta_{2}}{\mathrm{~d} t}\right)^{2}+m_{3} l_{3}^{2}\left(\frac{\mathrm{d} \theta_{3}}{\mathrm{~d} t}\right)^{2}+m_{4} l_{4}^{2}\left(\frac{\mathrm{d} \theta_{4}}{\mathrm{~d} t}\right)^{2}\right) \end{aligned}$
势能 $V$ 为:
$\begin{aligned} V &=-\frac{1}{2} m_{1} g l_{1} \cos \theta_{1}-m_{3} g\left(l_{1} \cos \theta_{1}+\frac{l_{3}}{2} \cos \theta_{3}\right) \\ &-\frac{1}{2} m_{2} g l_{2} \cos \theta_{2}-m_{4} g\left(l_{2} \cos \theta_{2}+\frac{l_{4}}{2} \cos \theta_{4}\right) \end{aligned}$
让我们计算一下 $L = T - V$ 。然后用 $L a$ 的拉格朗日方程，系统可以用 $\theta_{1}, \theta_{2}, \theta_{3}, \theta_{4}, t$ 表述为。
$\begin{aligned} \left(m_{1}+m_{2}+m_{3}+m_{4}\right) \frac{\mathrm{d}^{2} x}{\mathrm{~d} t^{2}} &=Q_{0} \\ \frac{1}{3} m_{1} l_{1}^{2} \frac{\mathrm{d}^{2} \theta_{1}}{\mathrm{~d} t^{2}}-\frac{1}{2}\left(m_{1}+m_{3}\right) g l_{1} \sin \theta_{1} \frac{\mathrm{d} \theta_{1}}{\mathrm{~d} t} &=Q_{1} \\ \frac{1}{3} m_{2} l_{2}^{2} \frac{\mathrm{d}^{2} \theta_{2}}{\mathrm{~d} t^{2}}-\frac{1}{2}\left(m_{2}+m_{4}\right) g l_{2} \sin \theta_{2} \frac{\mathrm{d} \theta_{2}}{\mathrm{~d} t} &=Q_{2}, \\ \frac{1}{3} m_{3} l_{3}^{2^{2}} \frac{\mathrm{d}^{2} \theta_{3}}{\mathrm{~d} t^{2}}-\frac{1}{2} m_{3} g l_{3} \sin \theta_{3} \frac{\mathrm{d} \theta_{3}}{\mathrm{~d} t} &=Q_{3} \\ \frac{1}{3} m_{4} l_{4}^{2} \frac{\mathrm{d}^{2} \theta_{4}}{\mathrm{~d} t^{2}}-\frac{1}{2} m_{4} g l_{4} \sin \theta_{4} \frac{\mathrm{d} \theta_{4}}{\mathrm{~d} t} &=Q_{4} \end{aligned}(3)$
其中 $Q_{0}, Q_{1}, Q_{2}, Q_{3}, Q_{4}$ 是广义的力，包括来自人体肌肉的力和阻力。这些力是行人的本质，它们在一个步态周期中逐渐连续变化。

可以看出，在式(3)中，为了维持这个动力系统，除了一阶导数 $\frac{\mathrm{d}^{2} x}{\mathrm{~d} t^{2}}, \frac{\mathrm{d}^{2} \theta_{1}}{\mathrm{~d} t^{2}}, \frac{\mathrm{d}^{2} \theta_{2}}{\mathrm{~d} t^{2}}, \frac{\mathrm{d}^{2} \theta_{3}}{\mathrm{~d} t^{2}}, \frac{\mathrm{d}^{2} \theta_{4}}{\mathrm{~d} t^{2}}$ 外，还需要二阶导数 $\frac{\mathrm{d} \theta_{1}}{\mathrm{~d} t}, \frac{\mathrm{d} \theta_{2}}{\mathrm{~d} t}, \frac{\mathrm{d} \theta_{3}^{3}}{\mathrm{~d} t}, \frac{\mathrm{d} \theta_{4}}{\mathrm{~d} t}$ 。如果只有一阶变量，方程组就不是唯一的。

基于三维卷积的方法[12,20,21,36]表现更好并不奇怪，因为级联的三维卷积层可以在最佳情况下提取二阶信息。我们认为三维卷积可以提取时间信息，但很难证明级联的三维卷积层是否一定可以提取二阶运动信息。我们无法知道3D卷积是在进行运动，还是只是对特征图求和。

根据人体运动系统得出的结论，我们根据光流估计[32]中使用的方法设计了一个提取二阶运动特征的模块。与三维卷积相比，它可以明确地提取相邻帧之间的运动。

4. Methods

在本节中，我们提出了一个新的框架，称为LagrangeGait。如图4所示，该框架由三个分支组成。上分支为运动分支，根据第3节的结论提取二阶运动特征。中间分支是提取外观特征的主要分支，可以是Gaitset[6]或GaitGL[21]等任意主干。将主分支中浅层计算得到的特征图应用于运动分支。底部分支为视角分支，对输入轮廓序列的视角进行预测，生成可学习的视角嵌入。

图4。提出的LagrangeGait框架。

给定一个剪影序列，我们将其表示为 $\boldsymbol{I}=$ $\left\{\boldsymbol{I}_{1}, \boldsymbol{I}_{2}, \boldsymbol{I}_{3}, \ldots \boldsymbol{I}_{T}\right\}$ 和 $T$ 是序列的长度。从浅层提取的特征映射记为 $\boldsymbol{X}_{\text {origin }}=\left[\boldsymbol{X}_{1}, \boldsymbol{X}_{2}, \ldots \boldsymbol{X}_{t}\right]$ ，其中 $\boldsymbol{X}_{i} \in \mathbb{R}^{C \times H \times W}$ 和 $\boldsymbol{X}_{\text {origin }} \in \mathbb{R}^{t \times C \times H \times W}$ ， $t$ 表示池化后特征映射在时间维度上的长度，例如:在Gaitset[6]中 $t = T$ ，在GaitGL[21]中 $t=\frac{T}{3}$ ，因为GaitGL有一个 $\times 1 \times 1$ 的池化层，核大小和步长相同。将得到的 $\boldsymbol{X}_{\text {origin }}$ 送入到不同的分支中，运动特征图 $\boldsymbol{X}_{\text {motion }}$ ，外观特征图 $\boldsymbol{X}_{a p p e a r a n c e}$ ，视角特征 $f_{v i e w}$ 分别计算为
$\begin{aligned} \boldsymbol{X}_{\text {origin }} &=F_{3 d}(\boldsymbol{I}), \\ \boldsymbol{X}_{\text {motion }} &=F_{\text {motion }}\left(\boldsymbol{X}_{\text {origin }}\right) \\ \boldsymbol{X}_{\text {appearance }} &=F_{\text {backbone }}\left(\boldsymbol{X}_{\text {origin }}\right) \\ \boldsymbol{f}_{\text {view }} &=F_{\text {view }}\left(\boldsymbol{X}_{\text {appearance }}\right) \end{aligned}(4)$
其中 $\boldsymbol{X}_{\text {appearance }}, \boldsymbol{X}_{\text {motion }}, \in \mathbb{R}^{C_{2} \times H \times W}, \boldsymbol{f}_{\text {view }} \in \mathbb{R}^{C_{3}}$ 和 $F_{\text {backbone }}, F_{\text {motion }}, F_{\text {view }}$ 是对应的分支

然后我们首先预测序列的视角，然后将其与 $\boldsymbol{X}_{a p p e a r a n c e}$ 和 $\boldsymbol{X}_{\text {motion }}$ 融合:
$\begin{aligned} \hat{p} &=F_{\text {predict }}\left(\boldsymbol{f}_{\text {view }}\right), \\ \boldsymbol{f}_{\text {motion }} &=F_{\text {fusion }_{1}}\left(\boldsymbol{X}_{\text {motion }}, \hat{p}\right), \\ \boldsymbol{f}_{\text {appearance }} &=F_{\text {fusion }_{2}}\left(\boldsymbol{X}_{\text {appearance }}, \hat{p}\right) \end{aligned}$
其中 $\hat{p}$ 为预测视角， $\hat{p} \in \mathbb{R}^{M}, M$ 为离散视图的个数。 $\boldsymbol{f}_{\text {motion }}$ 和 $\boldsymbol{f}_{\text {appearance }}$ 是运动和外观的最终特征， $\boldsymbol{f}_{\text {motion }} \in \mathbb{R}^{n_{\text {motion }} \times c_{3}}$ , $f_{\text {appearance }} \in \mathbb{R}^{n_{\text {appearance }} \times c_{3}}$ 。 $n_{\text {motion }}, n_{\text {appearance }}$ 表示使用HPP模块[6]为运动特征映射和外观特征映射切片的条带数量。 $c_{3}$ 表示特征图的通道数。

最后，用于步态识别的特征可以表示为
$\boldsymbol{f}_{\text {final }}=\left[\boldsymbol{f}_{\text {motion }} ; \boldsymbol{f}_{\text {appearance }}\right](6)$

4.1. Motion Extraction Module

根据第3节，设计了一个二阶运动提取模块。如图5所示，我们使用3D卷积作为一阶特征提取层。在二阶阶段，参考了RAFT[32]的结构，利用相邻的帧响应关系。

图5。二阶运动提取模块的结构。我们以三维卷积作为一阶运动提取模块，计算像素对像素的对应矩阵作为二阶运动特征。由于像素不能离原点太远，所以我们采用双线性采样来减少计算成本。

由式(4)得到 $\boldsymbol{X}_{\text {origin }}$ ，我们将 $T_{i}$ 和 $T_{i+1}$ 时刻的feature map分别记为 $\boldsymbol{X}_{\text {origin,i }}$ 和 $\boldsymbol{X}_{\text {origin }, i+1}$ 。然后相邻帧的相关性可以计算为
$\begin{aligned} \boldsymbol{X}_{\mathbf{0}} &=F_{Q}\left(\boldsymbol{X}_{\text {origin }, i}\right) \\ \boldsymbol{X}_{\mathbf{1}} &=F_{K}\left(\boldsymbol{X}_{\text {origin }, i+1}\right), \\ \operatorname{Att}\left(\boldsymbol{X}_{\mathbf{0}}, \boldsymbol{X}_{\mathbf{1}}\right) &=\operatorname{Softmax}\left(\boldsymbol{X}_{\mathbf{0}}^{T} \boldsymbol{X}_{\mathbf{1}}\right) \end{aligned}$
其中 $F_{Q}$ 和 $F_{k}$ 为卷积层的组合，滤波器大小为 $\times 1$ ，并进行维数合并操作。 $\operatorname{Att}\left(\boldsymbol{X}_{\mathbf{0}}, \boldsymbol{X}_{\mathbf{1}}\right) \in \mathbb{R}^{H W \times H W}$ 。然后将相关图重构为 $\operatorname{Cor}\left(\boldsymbol{X}_{\mathbf{0}}, \boldsymbol{X}_{\mathbf{1}}\right) \in \mathbb{R}^{H \times W \times H W}$ 。对于 $\boldsymbol{X}_{\text {origin,i }}$ 中的像素，它在下一帧Xorigin中对应的像素 $\boldsymbol{X}_{\text {origin }, i+1}$ ，我们假设它没有移动太多。所以对于 $\boldsymbol{X}_{\text {origin, }, i}$ 中的每一个像素 $\boldsymbol{x}=(u, v)$ ，特征图 $\boldsymbol{X}_{\text {origin }, i+1}$ 中的对应点为 $\boldsymbol{x}^{\prime}=\left(u+f^{1}(u), v+f^{1}(v)\right)$ 。
采样范围为
$N(x)_{r}=\left\{\boldsymbol{x}+\boldsymbol{d} \boldsymbol{x} \mid \boldsymbol{d} \boldsymbol{x} \in \mathbb{Z}^{2},\|\boldsymbol{d} \boldsymbol{x}\|_{1} \leq r\right\}$
其中， $\boldsymbol{d} \boldsymbol{x}$ 为采样偏移量， $r$ 为采样半径。对于 $\operatorname{Cor}\left(\boldsymbol{X}_{\mathbf{0}}, \boldsymbol{X}_{\mathbf{1}}\right)$ 上的每个像素 $x$ ，我们按照 $N(x)_{r}$ 对其进行采样，得到 $X_{c o r r, i}^{\prime} \in \mathbb{R}^{H \times W \times(2 r+1)^{2}}$ 。然后我们交换通道，形成 $\boldsymbol{X}_{c o r r, i} \in \mathbb{R}^{(2 r+1)^{2} \times H \times W}$ 。

最后，将二阶特征图在时间维度上进行整合，得到序列的特征图：
$X_{c o r r}=\left[X_{c o r r, 1} ; X_{c o r r, 2} ; \ldots ; X_{c o r r, t-1}\right]$
这里 $X_{\text {corr }} \in \mathbb{R}^{(2 r+1)^{2} \times t-1 \times H \times W}$ 。我们使用 3D 卷积来提取最终特征：
$\boldsymbol{X}_{\text {motion }}=F_{3 d c o n v}\left(X_{c o r r}\right)$
其中 $F_{3 \text { dconv }}$ 是内核大小为 $\times$ $\times 3$ 的卷积层。 $\boldsymbol{X}_{\text {motion }} \in \mathbb{R}^{C_{2} \times T \times H \times W}$ 。

4.2. View Embedding

对于步态识别，很少有方法将视角本身考虑在内。在本文中，我们提出了一种更轻量级的视角嵌入方法。

首先，我们使用等式（4）中获得的特征图 $\boldsymbol{X}_{\text {origin }}$ 计算输入序列的视角特征为
$KaTeX parse error: Expected '}', got '_' at position 171: …_{\text {Global_̲Avg }}\left(\bo…$
其中 $P_{M a x}$ 是时间维度上的最大池化， $P_{G l o b a l_{A} v g}$ 是全局平均池化。

然后使用 $f_{\text {view }}$ 的预测可以表示为

$\hat{p}=W_{\text {view }} \boldsymbol{f}_{\text {view }}+B_{\text {view }}$

$\hat{y}=\underset{i}{\arg \max } \hat{p}_{i}(12)$
这里 $M$ 是视角数量，对于 CASIA-B [41] $M = 11$ 和 OUMVLP [31] $M = 14$ 。 $W_{\text {view }} \in \mathbb{R}^{M \times C_{2}}$ 是 $\mathrm{FC}$ 层的权重， $B_{\text {view }}$ 是 $\mathrm{FC}$ 层的偏差。 $\hat{y} \in\{0,1,2, \ldots, M-1\}$ 是视图预测的结果。

对于每个离散视角 $\hat{y}$ ，我们将训练两个嵌入 $E_{m, \hat{y}} \in \mathbb{C}_{0}, E_{a, \hat{y}} \in \mathbb{C}_{0}$ 用于运动和外观特征，它们将用于水平金字塔池化模块 [6]。 $C_{0}$ 是从图 4 中的第一个卷积层获得的特征图的维度。

4.3. HPP with View Embedding

在步态识别中，水平金字塔池化（HPP）[6]是一个广泛使用的模块。在本文中，除了在外观特征图上使用HPP，我们还对运动特征图进行了相同的操作。池化后，将特征与提出的视角嵌入连接，以进行最终的特征投影。

对于水平金字塔池化后得到的外观特征图，我们表示为：
$\boldsymbol{f}_{a p p, 1}, \boldsymbol{f}_{a p p, 2}, \ldots \boldsymbol{f}_{a p p, n},$
其中 $n$ 是要拆分的条带数， $\boldsymbol{f}_{a p p, i} \in \mathbb{R}^{C_{2}}$ 。对于外观分支和运动分支，条带的数量是 $n_{\text {appearance }}$ 和 $n_{\text {motion }}$

假设 $\boldsymbol{X}_{\text {appearance }}$ 的预测视角是 $z$ 。那么 $\boldsymbol{F}_{\text {fusion } 1}$ 的过程可以表述为：
$\begin{aligned} \boldsymbol{f}_{a v, i} &=\left[\boldsymbol{f}_{a p p, i} ; E_{a, z}\right] \\ \boldsymbol{f}_{\text {finala }, i} &=W_{p, i} \boldsymbol{f}_{a v, i}, i=1,2, \ldots n_{\text {appearance }} \\ \boldsymbol{f}_{\text {app }} &=\left[\boldsymbol{f}_{\text {finala }, 1}, \boldsymbol{f}_{\text {finala }, 2}, \ldots, \boldsymbol{f}_{\text {finala }, n_{a p p}}\right] \end{aligned}(14)$
这里 $\boldsymbol{f}_{a v, i} \in \mathbb{R}^{C_{2}+C_{0}}, \boldsymbol{f}_{f \text { inala }, i} \in \mathbb{R}^{C_{2}}, \boldsymbol{f}_{a p p} \in \mathbb{R}^{n_{a p p} \times C_{2}}$ 。

$F_{\text {fusion } 2}$ 的过程与 $F_{\text {fusion } 1}$ 类似：
$\begin{aligned} \boldsymbol{f}_{m v, i} &=\left[\boldsymbol{f}_{\text {motion, } i} ; E_{m, z}\right] \\ \boldsymbol{f}_{\text {finalm,i }} &=W_{p} \boldsymbol{f}_{m v, i}, i=1,2, \ldots n_{\text {motion }} \\ \boldsymbol{f}_{\text {motion }} &=\left[\boldsymbol{f}_{\text {finalm }, 1}, \boldsymbol{f}_{\text {finalm }, 2}, \ldots, \boldsymbol{f}_{\text {finalm }, n_{\text {motion }}}\right] \end{aligned}(15)$
其中 $\boldsymbol{f}_{m v, i} \in \mathbb{R}^{C_{2}+C_{0}}, \boldsymbol{f}_{\text {finalm,i }} \in \mathbb{R}^{C_{2}}, \boldsymbol{f}_{\text {motion }} \in$ $\mathbb{R}^{n_{\text {motion }} \times C_{2}}$ 。

最后，可以通过将等式（14）和（15）带入（6）来接近最终特征。其中 $f_{\text {final }} \in$ $\mathbb{R}^{\left(n_{\text {motion }}+n_{\text {appearance }}\right) \times C_{2}}$ 。

4.4. Joint Losses

在提出的框架中，我们的损失包括交叉熵（CE）和三元组损失。结合等式（12），CE损失可以表示为
$\mathcal{L}_{C E}=-\sum_{i=1}^{N} \sum_{j=1}^{M} y_{i j} \log \left(p_{i j}\right) \text { w.r.t. } p_{i j}=\frac{e^{\hat{p}_{i j}}}{\sum_{j=1}^{M} e^{\hat{p}_{i j}}}（16）$
其中 $N$ 是样本数， $M$ 是视角数， $y_{i j}$ 是第 $i$ 个样本的视角是否为 $j$ 。

假设步态轮廓序列的三元组为 $(Q, P, N)$ ，其中 $Q$ 和 $P$ 来自同一受试者， $Q$ 和 $N$ 来自两个不同的受试者。将固定恒等式的 $K$ 个三元组表示为 $\left\{T_{i} \mid T_{i}=\left(f_{\text {final }}^{Q_{i}}, f_{\text {final }}^{P_{i}}, f_{\text {final }}^{N_{i}}\right), i=\right.$ $\ldots, K\}$ 。那么三元组损失可以表示为
$\mathcal{L}_{t r i p}=\frac{1}{K} \sum_{i=1}^{K} \sum_{j=1}^{n} \max \left(m-d_{i j}^{-}+d_{i j}^{+}, 0\right)（17）$
其中 $d_{i j}^{-}=\left\|f_{\text {final, },}^{Q_{i}}-f_{\text {fina,j }}^{N_{i}}\right\|_{2}^{2}$ and $d_{i j}^{+}=\| f_{\text {final, } j}^{Q_{i}}-$ $f_{\text {final }, j}^{P_{i}} \|_{2}^{2}$ 。
结合式（16）和（17），最终的损失可以表示为：
$\mathcal{L}=\mathcal{L}_{t r i p}+\lambda_{C E} \mathcal{L}_{C E}$
其中 $\lambda_{C E}$ 是一个超参数。