时间序列的建模新思路清华、李飞飞团队等提出强记忆力E3D-LSTM网络

作者:AI科技大本营

2019-08-17 20:52:46  阅读:4869

原标题:时间序列的建模新思路:清华、李飞飞团队等提出强回忆力E3D-LSTM网络

作者 | Yunbo Wang,、Lu Jiang、 Ming-Hsuan Yang、Li-Jia Li、Mingsheng Long、Li Fei-Fei

译者 | 凯隐

修改 | Jane

出品 | AI科技大本营(ID:rgznai100)

【导读】怎么对时间序列进行时空建模及特征抽取,是RGB视频猜测分类,动作辨认,姿势估量等相关范畴的研讨热门。清华大学、Google AI 和斯坦福大学李飞飞团队提出了一种具有强回忆力的E3D-LSTM网络,用3D卷积替代2D卷积作为LSTM网络的根底核算操作,并参加自留意力机制,使网络能一起统筹长时和短时信息依靠以及部分时空特征抽取。这为视频猜测、动作分类等相关问题供给了新思路,是一项十分具有启发性的作业。

论文地址:

https://openreview.net/pdf?id=B1lKS2AqtX

时间序列的时空建模问题

现实生活中许多数据都一起具有时间特征和空间特征,例如人体的运动轨道,接连帧的视频等,每个时间点都对应一组数据,而数据往往又具有必定的空间特征。因而要在这样的时间序列数据上展开分类,猜测等作业,就必须在时间(temporal)和空间(spatial)上对其进行建模和特征抽取。

常用的时间建模东西是循环神经网络(RNN)相关模型(LSTM等),由于其特有的门结构设计,对时间序列特征具有强壮的抽取才能,因而被广泛应用于猜测问题并取得了杰出的作用,可是RNN并不能很好的学习到原始特征的高阶表明,这不利于对空间信息的提取。空间建模则当属卷积神经网络(CNN),其具有强壮的空间特征抽取才能,其间3D-CNN又能将卷积核可控规模扩大到时域上,相对于2D卷积灵活性更高,能学习到更多的运动信息(motion信息),相对于RNN则更有利于学习到信息的高档表明(层数越深,信息越高档),是现在动作辨认范畴的盛行办法。当然3D卷积的时间特征抽取才能并不能和RNN比美。

得益于3D卷积和RNN在各自范畴的成功,怎么进一步将二者结合起来运用也成为了研讨热门,常见的简略办法是将二者串联堆叠或许并联结合(在图卷积网络呈现之前,动作辨认范畴的最优办法便是将CNN和RNN并联),但测验发现这么做并不能带来太大的进步,这是由于二者的作业机制距离太大,简略的结合并不能很好的完成优势互补。本文提出用3D卷积替代原始LSTM中的门更新操作,使LSTM不只能在时间层面,也能在空间层面进步行短期依靠的表象特征和运动特征的抽取,然后在更深的机制层面完成两种网络的结合。此外,在LSTM中引进自留意力(self-attention)机制,进一步强化了LSTM的长时回忆才能,使其对长距离信息作用具有更好的感知力。作者将这种网络称为Eidetic 3D LSTM(E3D-LSTM),Eidetic意思是具有传神回忆,着重网络的强回忆才能。

E3D-LSTM网络结构

图1:三种不同的3D卷积和LSTM的结合办法

图中每个色彩的模块都代表了多层相应的网络。图(a)和图(b)是两种3D卷积和LSTM结合的基线办法,3D卷积和LSTM线性叠加,首要起到了编码(解码器)的作用,并没有和RNN有机制上的结合。图(a)中3D卷积作为编码器,输入是一段视频帧,图(b)中作为解码器,得到每个单元的终究输出。这两个办法中的绿色模块运用的是时空长短时回忆网络(ST-LSTM)[1],这种LSTM独立的保护两个回忆状况M和C,但由于回忆状况C的忘记门过于呼应具有短期依靠的特征,因而简单忽略长时依靠信息,因而E3D-LSTM在ST-LSTM的根底增加了自留意力机制和3D卷积操作,在必定程度上处理了这个问题。详细单元结构下一节介绍。

图(c)是E3D-LSTM网络的结构,3D卷积作为编码-解码器(蓝色模块),一起和LSTM结合(橙色模块)。E3D-LSTM既可用于分类使命,也可用于猜测使命。分类时将一切LSTM单元的输出结合,猜测时则使用3D卷积解码器的输出作为猜测值。

E3D-LSTM单元结构设计

图2:规范LSTM单元结构

首要扼要介绍一下规范LSTM结构,和RNN比较LSTM增加了更杂乱的门结构(图中黄色模块),首要处理RNN中存在的梯度消失问题,然后进步网络对长时依靠(long-term dependency)的回忆感知才能。LSTM有两个输入门,一个输出门和忘记门

图2:ST-LSTM网络结构和单元结构

和规范LSTM比较,ST-LSTM还增加了不同层间对应方位的cell衔接,如图2左边,水平灰色衔接线表明规范LSTM的单元衔接,竖直黄色衔接线表明层间同一时间的单元衔接,经过张量M传达,留意当l=1时,

(作者以为t时间的顶层信息对t+1时间的底层信息影响很大),这样回忆信息就能一起在层内和层间传达。

图3 E3D-LSTM单元结构

图3 是本文提出的E3D-LSTM模型的单元结构,

是一个维度为的五维张量,代表之前个时间步的一切隐状况。表明召回门(替代忘记门),和ST-LSTM比较,首要有以下改善:

1、输入数据是的四维张量,对应时间的接连帧序列,因而现在每个单元时间步都对应一段视频,而不是单帧视频。

2、针对帧序列数据额定增加了一个召回门(recall gate)以及相关结构,用于完成长时依靠学习,也便是自留意力机制。这部分对应网络称号中的Eidetic。

3、由于输入数据变成了四维张量,因而在更新公式中选用3D卷积操作而不是2D卷积。

大部分门结构的更新公式和ST-LSTM相同,额定增加了召回门更新公式:

上面介绍的机制用于同一层不一起刻步衔接,作者将这种机制也用在了不同层同一时间步的衔接,但作用并不好,这是由于不同层在同一时间学习到的信息并没有太好的依靠性。

根据E3D-LSTM的半监督辅佐学习

在许多监督学习使命,例如视频动作辨认中,没有满足的监督信息和标示信息来协助练习一个令人满意的RNN,因而能够将视频猜测作为一个辅佐的表征学习办法,来协助网络更好的了解视频特征,并进步时间域上的监督性。

详细的,让视频猜测和动作辨认使命同享相同的骨干网络(图1),只不过丢失函数不同,在视频猜测使命中,方针函数为:

带上标的X表明猜测值,不带上标的表明真值,F表明Frobenius归一化。

在动作辨认使命中,方针函数为:

其间Y和是猜测值和帧值,这样经过将猜测使命的丢失函数嵌入到辨认使命中,以及骨干网络的同享,能在必定程度上协助辨认使命学习到更多的时序信息。为了确保过渡滑润,额定增加了一个权重因子会跟着迭代次数的增加而线性衰减:

作者将这种办法称为半监督辅佐学习。

试验成果

视频猜测使命,在Moving MINIST数据集上的成果:

为了验证E3D-LSTM中不同模块对功能的影响,作者还在该数据集进步行了烧蚀研讨:

能够看到不管是增加3D卷积仍是自留意力机制,网络功能相对于基线办法都有进步。

视频猜测使命,在KTH人体动作数据集上的成果:

接下来在一个实践视频猜测使命:交通流猜测中,与其他办法进行了比照:

动作辨认使命,在Something-Something数据集进步行了测验:

同样在该数据集进步行了烧蚀研讨:

以及不同的半监督辅佐学习战略带来的功能进步:

总结

本文对ST-LSTM进行了改善,将盛行的3D卷积操作作为其根本张量操作,一起增加了自留意力模块,进一步强化了网络对长距离依靠信息的描写才能,不只能用于猜测使命,还能经过辅佐学习的办法拓宽到其他使命上,是十分具有启发性的作业。

[1] Yunbo Wang, Mingsheng Long, Jianmin Wang, Zhifeng Gao, and S Yu Philip. Predrnn: Recurrent neural networks for predictive learning using spatiotemporal lstms. In NIPS, 2017.

(*本文为 AI科技大本营原创文章,转载请联络微信 1092722531)

福利时间

入群参加每周抽奖~

AI ProCon 2019 约请到了亚马逊首席科学家@李沐,在大会的前一天(9.5)亲授「深度学习实训营」,经过着手实操,协助开发者全面了解深度学习的根底知识和开发技巧。还有 9大技术论坛、60+主题共享,百余家企业、千余名开发者一起相约 2019 AI ProCon!5折优惠票抢购中!

责任修改:

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!