@ArrowLLL 2018-03-08T14:35:38.000000Z 字数 7185 阅读 7694

应用于行人轨迹预测的无冲突长短时记忆模型

翻译 OPTIMAL

原文: Collision-Free LSTM for Human Trajectory Prediction

摘要. 避免障碍物和附近其他人对行人来说一种无需深思的行为能力。如果我们要预测一个人将来的位置，我们就应该了解他是如何调整他的运动方向来避免碰撞的。在该研究中，我们为行人轨迹预测展示了一种简单而有效的框架，即通过一个人过去的轨迹预测其将来的运动轨迹。这个方法叫做无冲突长短时记忆模型(Collision-LSTM)，通过在经典LSTM中加入排斥力汇聚层，来共享邻近行人的隐藏状态。这个模型不仅可以学习到轨迹中时态信息，也可以学习到行人之间的交互规则，这是和社会力一类的传统模型中使用人工编纂的特征是不一样的。在两个公开数据集实验结果证实了我们的模型在各项评估指标中都能由最好的效果。

关键字： 行人轨迹预测，社会力模型，深度学习

简介

在现实生活中，当一个人走在像人行通道、商场和人行道这样的人群环境中时，他会遵行一些特定的生物习性和社会规则。行人会自觉得控制自己的轨迹来避免碰撞以及可奇谈人保持距离。比如，有些人会从左侧绕过自己前方的人群，避免碰到其他人，并且和他人在人行道上保持一定距离。轨迹预测的问题形式在于通过一个人过去的一系列位置点来预测其将来的轨迹。这可以应用在包括智能交通工程、自动驾驶和人机交互等多个方面。然而，轨迹预测因为要发现早期行人的动作和理解复杂环境中人们的交流动作而变得非常困难。

Giannotti等1 提出“轨迹模式”这一问题，表示在时间和空间上频繁出现的行为。Lee等2 为聚类轨迹提出了分区组合框架，Morris和Trivedi3 在轨迹学习方面提出了不同的相似性测量方法和聚类方法来评判他们的优点和缺点。Ballan等4 介绍了一种动态贝叶斯网络来挖掘轨迹预测中的场景中的特殊知识。参考他们的研究可以知道，机器学习已经开始影响已取得的成果。然而这些方法在最终表现上并没有考虑人的自然属性。

这些文献中一些进展表明社会因素可以提高表现。社会因素包括一个人的目的地，目标速度，以及其他个体的排斥。Helbing和Molnar5的创举根据社会因素提出了一个行人动作模型，这个模型可以模拟行人之间的吸引力和排斥力。其他很多相似的方法接着开始做人人交互[6,7]，以及活动理解[8-12]。另外，一些工作也开始探索人类的特征和属性来提高追踪和预测的性能。Alahi等[13]通过从行人相关的位置和人群来学习行人轨迹提出了社会亲和力特征，Yi等[14] 则通过探索行人特征来提高预测人群密度的准确度。

他们工作的一个限制就是对于特定场景使用人工特征来对行人动作和交互建模。人工特征只能掌握一些简单的交互并不能理解更复杂的场景。另外一点就是他们只关心行人之间的瞬时交互。他们并不考虑长期时间信息也不会预测发生在一段时间以后的交互。

最近循环神经网络(RNN, Recurrent Neural Networks) 在序列预测任务上获得了很大的成功，尤其时像长短时记忆模型(LSTM, Long Short Term Memory)[15]和门循环单元(GRU, Gated Recurrent Units)[16]。Alahi等[17]提出一种在特殊时间帧连接场景中附近行人相关的LSTM单元来进行轨迹预测的框架。他们提出了一个社会汇聚层(Social pooling layer)，这个层允许空间上接近的LSTM单元相互分享以藏状态信息。但是，这种Social LSTM考虑的每一个相邻行人都拥有相同的影响程度。因此这种模型并不能掌握一些复杂的导航信息。

在该工作中，我们为行人轨迹预测提出了一种基于LSTM的数据驱动的结构以无监督的方式来建模行人避免碰撞的本能。我们提出了一种排斥方程(Repulsion function) 来计算行人彼此之间影响的不同程度，然后提出了一种排斥汇聚(Repulsion pooling) 来分享特定空间内不同方向的相邻隐藏状态。无碰撞长短时记忆模型(CF-LSTM, Collision-Free LSTM) 表明在输出预测序列时可以以从周围行人获得的轨迹信息的形式来自动学习到多个序列。我们的模型在ETH[18]和UCY[19]两个数据集上获得了有竞争力的结果。

提出的方法

问题形式

这个问题设定每个场景都需要首先预处理得到每个行人在每个时间帧的空间位置。这个预处理的方法来源于[20]。在任何一个时间帧 $t$ ，第 $i^{th}$ 个人在其轨迹上的xy坐标别定义为 $(x_i^t, y_i^t)$ 。我们观察到的轨迹是一个特定场景中从时刻 $1$ 到 $T_{obs}$ 所有行人的位置，我们关注的任务是预测他们在 $T_{obs}+1$ 到 $T_{pred}$ 的轨迹。我们可以把这个问题看作序列生成问题，它的输入序列是在特定空间内行人的空间位置，它的输出序列是预测出的该行人未来的轨迹。

无碰撞-LSTM

行人控制自己的轨迹依赖于对距离和障碍物速度的视觉感知，从而导致由加速度表现出的吸引力和排斥力引起速度大小或者方向的瞬时改变。另外一些模型由离散时间确定并且由避免碰撞来驱动[21, 22]。我们为行人轨迹预测提出的基于无碰撞模型的LSTM如图1所示。我们指定一个LSTM来代表场景中的一个行人。这些LSTM从每个行人身上来学习隐藏状态来预测他们的位置。

尤其要说明的是，在不同个体之间不同的距离也有不同的影响力（即较近的人相比于其他人拥有更大的影响因子）。我们发展出排斥汇聚来限制相邻LSTM单元以及定义排斥函数来理解和代表不同行人对一系列观察的影响。行人1和行人3对行人2来说由不同的LSTM隐藏状态(h1和h3)，像图1左侧展示的一样。

图1. 无碰撞LSTM模型一览。右半部分展示了我们对行人2（黑色）的排斥汇聚(R-Pooling)细节。左半部分展示了在一定范围内LSTM如何通过一个排斥汇聚连接邻近的行人。行人2的轨迹感兴趣的范围是是一个半径为 $r$ 的圆，在圆内不同的位置有不同的排斥影响。

排斥函数

行人控制他们的轨迹来避免由邻近的人引起的碰撞。这个模型是一个简单有效的行人运动建模方法。它建立在一个由周围人的距离决定的排斥函数之上[23]。

$R(s) = a \exp((l - s) / D)$ 其中

$a$ 表示模型中相邻行人排斥的程度，参数

$D$ 用于标准化这个排斥的距离。其他参数的含义在图2中呈现。

图2. 函数中的符号。 $(x_i, y_i)$ 表示行人 $i$ 的位置， $l$ 表示行人的大小， $s_{i,j} = \sqrt{(x_i - x_j)^2 + (y_i - y_j)^2}$

排斥汇聚

我们在图1中描述了排斥汇聚，即可以在一个特定空间范围内分享所有行人的状态信息。LSTM接受从汇聚层收集到的邻近行人的路径信息。在信息收集期间，网络试图通过汇聚的圆掌握空间信息。汇聚的细节如下。

首先，我们设定方向维度为 N，LSTM的隐藏状态维度为Q。隐藏状态 $H_{i,n}^t$ 表示在时刻 $t$ 的场景中第 $i$ 个行人的第 $n$ 个方向的社会影响。如此这般我们构建了所有 N 个方向的社会隐藏状态张量 $H_i^t$ 。这个排斥汇聚如图3所示。

图3. 行人1（黑色）的排斥汇聚。我们在扇区(1,2)和扇区(1,3)分别汇聚了周围人（橘色，绿色和红色）的隐藏状态信息。在第二部可以看到不同的人拥有不同的排斥力。最后一步展示了这个行人1在不同方向上的社会隐藏状态。

$H_{i,n}^t = \sum_{j \in M_{i,n}} \mathbf{1}_{i,n}[x_j^t, y_j^i]R(s_{i,j})h_j^{t-1} \\ H_i^t = [H_{i,1}^t, H_{i, 2}^t, \cdots, H_{i, N}^t]$ 其中

$h_j^{t-1}$ 表示相邻的人

$j$ 在 t-1 时刻的LSTM隐藏状态。

$\mathbf{1}_{i,n}[x, y]$ 是一个函数用于判断

$(x, y)$ 是否在扇区

$(i, n)$ 内部。

我们将xy平面坐标转化为 $r_i^t$ ，将社会隐藏状态张量转化为 $c_i^t$ 。在时刻t这个序列的编码函数LSTM如下所示：

$r_i^t = \phi(x_i^t, y_i^t;W_r) \\ c_i^t = \phi(r_i^t, H_i^t; W_c) \\ h_i^t = LSTM(h_i^{t-1}, c_i^t; W_l)$
其中

$\phi(\cdot)$ 表示带有ReLU[24]非线性的转移函数。

$W_r$ 和

$W_c$ 是转移权重，

$W_l$ 表示LSTM的权重。

位置预测

我们使用 $t-1$ 时刻的隐藏状态来接下来预测轨迹点 $(\hat{x}, \hat{y})_i^t$ 的分布。这个过程会得到一个高斯分布，包括其期望 $\mu_i^t = (\mu_i^t, \mu_i^t)$ ，标准差 $\sigma_i^t = (\sigma_i^t, \sigma_i^t)$ 和相关系数 $\rho_i^t$ 。我们通过一个 $5 \times Q$ 的权重矩阵 $W_p$ 来预测这些参数。

$(\hat{x}, \hat{y})_i^t \sim \mathcal{N}(\mu_i^t, \sigma_i^t, \rho_i^t) \\ [\mu_i^t, \sigma_i^t, \rho_i^t] = W_ph_i^t$
无碰撞LSTM通过最小化负对数似然损失

$L_i$ 来学习这些参数，代表了第

$i$ 个行人的轨迹。

$L_i = - \sum_{t=T_{obs}+1}^{T_{pred}}\log(P(x_i^t, y_i^t | \mu_i^t, \sigma_i^t, \rho_i^t))$

该模型通过最小化训练集中的所有轨迹损失值进行训练。在我们的模型中这种排斥汇聚并不需要其他额外的参数。多个LSTM的隐藏状态通过场景中的每一个时刻的反向传播和汇聚组合在一起。我们想强调的是这和传统的SLTM模型是不同的。

实验

数据和实现细节

实验的对象是两个共有的行人路经数据集：UCY[19]和ETH[18]。UCY数据集包含三个场景中大约786个行人(UCY，ZARA-01和ZARA-02)。ETH数据集包含两个集合（ETH和Hotel）共750个行人。这些数据集包含上千个非线性的行人轨迹，甚至还包含了一些复杂的团体行为例如在特定场景中结伴而行，群体交错，群体合并和分离。数据标记了位置信息，包括场景中的障碍物，目的地和人群信息。我们的实验遵行交叉验证模式即四分数据用以实验，一分数据用以测试，对五个数据集均采用这种验证方式。

我们在表1中总结了不同数据集标签的数量。所有数据集视频的帧率为25fps。场景中的平均轨迹密度为每帧30个。

表1. 数据集中的标签数量

数据集帧数行人数目的地数量群组数量障碍物数量

UCY 541 434 4 297 16

ZARA-01 866 148 4 91 34

ZARA-02 1052 204 4 140 34

ETH 1448 360 5 243 44

Hotel 1168 390 4 326 25

数据集	帧数	行人数	目的地数量	群组数量	障碍物数量
UCY	541	434	4	297	16
ZARA-01	866	148	4	91	34
ZARA-02	1052	204	4	140	34
ETH	1448	360	5	243	44
Hotel	1168	390	4	326	25

我们指定方向维度 $N$ 为12，邻近区域圆半径为16。无碰撞LSTM的隐藏状态 $Q$ 为140。至于排斥函数，我们任然使用方案[23]中的设定，其中系数 $a$ 设定为5，距离 $D$ 设定为 0.1，行人大小设定为0.3。对于我们的模型，初始化学习率为0.001，使用RMS-prop作为优化函数[25]。模型由Tensorflow实现，使用一块 NVIDIA Tesla K40 GPU。

结果分析

在该工作中，我们选择了如下3种误差度量[17]作为轨迹预测精确度：平均偏移误差(ADE, Average displacement error)，终点偏移误差(FDE, Final displacement error)和平均非线性位置偏移误差(NL-ADE, Average non-linear displacement error)。ADE表示所有轨迹的预估点和实际点的均方误差(MSE, mean square error)。FDE表示的在时刻 $T_{pred}$ 预估的目的地和真实目的地的距离。NL-ADE表示一个轨迹的非线性区域的MSE，可以评估轨迹中每一个非线性转弯的误差。

我们设定 $\hat{x}_i^t, \hat{y}_i^t)$ 作为轨迹 $i$ 在 $t$ 时刻的预估点， $(x_i^t, y_i^t)$ 是轨迹 $i$ 在 $t$ 时刻实际观察点， $n$ 表示测试集中轨迹的数目。

平均偏移误差(ADE)：
$ADE = \frac {\sum_{i=1}^n \sum_{t=T_{obs} + 1}^{T_{pred}}[(\hat{x}_i^t - x_i^t)^2 + (\hat{y}_i^t - y_i^t)^2]} {n(T_{pred} - (T_{obs} + 1))}$
终点偏移误差(FDE)：
$FDE = \frac {\sum_{i=1}^n \sqrt{(\hat x_i^{T_{pred}} - x_i^{T_{pred}})^2 + (\hat y_i^{T_{pred}} - y_i^{T_{pred}})^2}} {n}$
平均非线性位置偏移误差(NL-ADE)：
$NL-ADE = \frac {\sum_{i=1}^n \sum_{t=T_{obs} + 1}^{T_{pred}}I(\hat x_i^t, \hat y_i^t)[(\hat{x}_i^t - x_i^t)^2 + (\hat{y}_i^t - y_i^t)^2]} {\sum_{i=1}^n \sum_{t= T_{obs} + 1}^{T_{pred}}I(\hat x_i^t, \hat y_i^t)}$ 其中
$I(\hat x_i^t, \hat y_i^t) = \left\{ \begin{array}{ll} 1 & \textrm{if $\frac {d^2\hat y_i^t} {d{\hat x_i^t}^2} \neq 0$}\\ 0 & \textrm{else} \end{array} \right.$

本实验中，我们观察轨迹的8帧，预测其后的12帧。即使用 $1^{st}$ 到 $8^{th}$ 帧的位置点利用模型预测第 $9^{th}$ 到第 $20^{th}$ 帧的点。我们用我们的模型和一些很好的方法做了比较，基于社会群组因素的社会力模型(SF, Social Force)，基于碰撞免疫能量的线性轨迹免疫（LTA）[12]，不包含汇聚的传统LSTM(LSTM)，带有社会汇聚(Social pooling)social-LSTM（S-LSTM）。所有方法的变现如表2所示。

表2. 各个方法的结果

Metric Dataset SF LTA LSTM S-LSTM CF-LSTM

ADE UCY 0.48 0.51 0.52 0.27 0.24

ZARA-01 0.40 0.37 0.43 0.22 0.21

ZARA-02 0.40 0.40 0.51 0.25 0.19

ETH 0.41 0.54 0.60 0.50 0.35

Hotel 0.25 0.38 0.15 0.11 0.09

Average 0.39 0.44 0.44 0.27 0.18

NL-ADE UCY 0.54 0.57 0.31 0.16 0.11

ZARA-01 0.41 0.39 0.24 0.13 0.09

ZARA-02 0.39 0.41 0.30 0.16 0.10

ETH 0.49 0.70 0.28 0.25 0.23

Hotel 0.38 0.49 0.09 0.07 0.05

Average 0.44 0.51 0.24 0.15 0.10

FDE UCY 0.78 0.95 1.25 0.77 0.75

ZARA-01 0.60 0.66 0.93 0.48 0.51

ZARA-02 0.68 0.72 1.09 0.50 0.48

ETH 0.59 0.77 1.31 1.07 1.04

Hotel 0.37 0.94 0.33 0.23 0.25

Average 0.60 0.74 0.98 0.61 0.51

Metric	Dataset	SF	LTA	LSTM	S-LSTM	CF-LSTM
ADE	UCY	0.48	0.51	0.52	0.27	0.24
ZARA-01	0.40	0.37	0.43	0.22	0.21
ZARA-02	0.40	0.40	0.51	0.25	0.19
ETH	0.41	0.54	0.60	0.50	0.35
Hotel	0.25	0.38	0.15	0.11	0.09
Average	0.39	0.44	0.44	0.27	0.18
NL-ADE	UCY	0.54	0.57	0.31	0.16	0.11
ZARA-01	0.41	0.39	0.24	0.13	0.09
ZARA-02	0.39	0.41	0.30	0.16	0.10
ETH	0.49	0.70	0.28	0.25	0.23
Hotel	0.38	0.49	0.09	0.07	0.05
Average	0.44	0.51	0.24	0.15	0.10
FDE	UCY	0.78	0.95	1.25	0.77	0.75
ZARA-01	0.60	0.66	0.93	0.48	0.51
ZARA-02	0.68	0.72	1.09	0.50	0.48
ETH	0.59	0.77	1.31	1.07	1.04
Hotel	0.37	0.94	0.33	0.23	0.25
Average	0.60	0.74	0.98	0.61	0.51

在比较我们的模型和其他模型的表现时，尤其是社会LSTM模型，实验结果显示无碰撞LSTM模型在大多数数据集上都表现得更加杰出。我们模型的排斥函数计算了不同距离的邻近行人的不同社会力，因此相比于社会汇聚排斥汇聚更能掌握邻人之间的交互。我们模型的隐藏状态很显然有能力展现出邻人的影响以提高行人轨迹预测。尤其是在UCY数据集上的定量误差更有重大意义，因为相比于ETH数据集它拥有更高的行人密度，更加复杂的行为模式和更多的轨迹交错。

在ETH数据集上，行人到达目的地的意图占据主要地位。临时信息很难对最终结果的预测产生影响。社会压力模型的终点偏移误差(FDE)最小并且表现最好。

LSTM的平均非线性位置偏移误差(NL-ADE)要好于线性轨迹免疫(LTA)和社会压力(SF)，因为它可以预测非线性轨迹曲线。但是它的ADE和FDE没有另两个模型的好，因为LSTM并没有考虑到星人之间的交互。

在其他情况下，我们可以看到无碰撞LSTM和社会LSTM可以获得比LSTM更小的误差。在UCY数据集上的实验结果尤为明显。这表示分享汇聚更有能力掌握高密度行人环境中的复杂交互。

在图4中，我们展示了社会压力模型、社会LSTM模型和我们的无碰撞模型在UCY数据集中的ZARA-01部分的预测结果。图4(d)(e)和(f)表明在在密集人群环境中拥有更好的预测能力。因为我们使用了一个深度序列对序列模型，它可以通过排斥汇聚学习到每一个邻近行人群不同的影响模式。从图4(a)到(f)，我们展示了我们的模型是如何为了避免障碍物来预测轨迹的。在图4的最后一行，我们展示了一些预测错误的样例。真实情况有偏差的主要原因在于行人突然改变了他的目的地。预测的轨迹并不和真实情况一致。但是我们的模型仍然给出了避免碰撞到邻近行人的轨迹。

图4. 定性分析结果。我们展示了社会压力模型（蓝色），社会LSTM模型（绿色）和我们的模型（红色）。真实情况为黄色。

结论

在该工作中，我们为行人轨迹分析展示了一个非常好的深度学习模型。我们通过在序列对序列的传统LSTM框架上加入一个排斥汇聚层将其转化为无碰撞LSTM。我们的模型在每个时刻都分享每个轨迹的隐藏状态并且通过学习多个邻近行人的序列预测出了结果。在两个公共数据集上获得了非常好的效果。未来的工作是将模型应用到行人、自行车和其他交通工具互相穿行的更加复杂的场景中。