video caption之S2VT

watersink

发布时间 2023.11.23阅读数 673 评论数 0

论文：Sequence to Sequence – Video to Text

GitHub：GitHub - AdrianHsu/S2VT-seq2seq-video-captioning-attention: S2VT (seq2seq) video captioning with bahdanau & luong attention implementation in Tensorflow

GitHub - YiyongHuang/S2VT: S2VT pytorch implementation

GitHub - chenxinpeng/S2VT: Tensorflow implement of paper: Sequence to Sequence: Video to Text

论文首次基于sequence to sequence提出一个端到端的模型S2VT，可以实现任意帧的视频输入（sequence of frames），输出任意个数单词（sequence of words）组合成的完整句子输出，从而实现video caption的任务。

模型亮点：

可以处理任意帧数的图片输入
可以学习到视频中的时序结构
可以学习到一个语言模型来学习到自然的输出句子

网络结构：

输入图片为一系列的rgb视频帧序列，图片被缩放到256_256，然后随机裁剪为227_227大小。当然输入也可以是光流图，光流梯度图也先归一化到128均值附近后，乘以一定系数变换到0-255区间。网络的主干结构为AlexNet或者VGG。经过主干网络处理，在其fc6层，输出一个长度为500维度的特征，然后输入2层lstm中，输出最终预测句子。

上图包含两层LSTM, 此处我们称上面那层作为第一层，下面作为第二层。其实一般意义上的Sequence to Sequence并不需要包括两层。该框架包含encoding阶段和decoding阶段。CNN抽取视频帧的图像特征后（可以一个视频等间隔取20帧，并使用resnet等模型抽取特征），在每个时间步将一个图像特征送入LSTM作encoding。有意思的是，对于LSTM接口来说，在encoding阶段不是一定要拼接一个<pad>标志符的, 而这里还是设计为跟经过编码的第一层的隐状态拼接起来。在encoder编码完成后，送入decoder，这里的送入指的是decoder中LSTM的初始化。

在decoder阶段需要生成文本。其实，在文本预处理阶段都会先对数据集中所有单词构建词汇表，表中单词和序号一一对应，如(123, man)。这种对应关系相当于给每个词一个标号。这种编码是以独热编码(one-hot)形式存在的，可以理解为一个vector中只有一个位置是1，其他都是0。然后经过embedding转成词嵌入(Word Embedding)。在PyTorch中可以使用nn.embedding()。Word Embedding即可作为单词输入和在模型中生成。图中的<BOS>, <pad>等均需进行相应转换。<BOS>符号在第一个词前输入模型，表示句子的开头(Begin of Sentence)。当句子生成<EOS>(End of Sentence)时，表示句子结束。在生成每个词时，均需通过softmax，所以可以看作随着时间步，每向前走一步都做了一次以词汇表为大小，选择其一的分类问题，选择的是置信度最大的那个词。例如，10000个词的词汇表中，在当前时间步中预测到man这个词。

实验结果：

人工智能深度学习 Python 计算机视觉 video caption

转载原出处：

打赏 0

上一篇：医学图像分割之MedNeXt

下一篇：手语检测识别

video caption之S2VT

watersink

为你推荐

人脸检测高级：疲劳检测

SemanticKITTI点云标注工具

基于 CNN的年龄和性别检测

基于手工打造的卷积CNN的性别识别

精选accelerate 分布式技巧（一）

YOLOv7 在 ML.NET 中使用 ONNX 检测对象

关于作者

watersink

50

0

0

4

表情识别之scn

实例分割之YOLACT（You Only Look At CoefficienTs）

姿态估计CPM

相关推荐

labelme转COCO数据集（物体检测）-代码实现

利用python实现逻辑回归（以鸢尾花数据为例）

手写Momentum动量法以及NAG梯度下降

（三十九）通俗易懂理解——卡尔曼滤波与扩展卡尔曼滤波

OpenAI官方提示词课（五）如何进行文本翻译校正修改

姿态估计DeepLabCut

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

video caption之S2VT

watersink

为你推荐

人脸检测高级：疲劳检测

SemanticKITTI点云标注工具

基于 CNN的年龄和性别检测

基于手工打造的卷积CNN的性别识别

精选accelerate 分布式技巧（一）

YOLOv7 在 ML.NET 中使用 ONNX 检测对象

评论（0）

关于作者

watersink

50

0

0

4

表情识别之scn

实例分割之YOLACT（You Only Look At CoefficienTs）

姿态估计CPM

相关推荐

labelme转COCO数据集（物体检测）-代码实现

利用python实现逻辑回归（以鸢尾花数据为例）

手写Momentum动量法以及NAG梯度下降

（三十九）通俗易懂理解——卡尔曼滤波与扩展卡尔曼滤波

OpenAI官方提示词课（五）如何进行文本翻译校正修改

姿态估计DeepLabCut

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板