VideoBERT 介绍

A Joint Model for Video and Language Representation Learning

Posted by BitLines on February 20, 2020

VideoBERT 介绍

VideoBERT 论文名 A Joint Model for Video and Language Representation Learning, 是一种视频文本预训练方法。
论文地址: https://arxiv.org/pdf/1904.01766.pdf

VideoBERT 简介

首先来看看 VideoBERT 能干嘛,先来上个图。
image

论文里面介绍了两个例子,上图的上半部分描述的是:给定一道菜的制作步骤,VideoBERT 可以根据步骤的描述来生成一段视频;下半部分描述的是:给定一张图片,VideoBERT 生成后续的一系列图片组成一个连贯的视频。 挺有趣的对吧~ 那我们来看看具体是咋做的呢?

方法详解

模型结构

VideoBERT 的模型结构和 BERT 基本一样,区别在于输入的 Embedding 上。 模型结构如下图
image

VideoBERT 的 Embedding 分为两种,一种输入是文本的token序列,另一种是视频的图片帧序列:

  • 文本输入是token。token embedding、segment embedding 和 position embedding。
  • 视频的输入是vedio token。同样也是token embedding、segment embedding 和 position embedding。Video token 的获取方式是先把视频转化成20fps,然后抽取 1.5秒视频(30个图片),然后把所有图片构建成一个词典,用一个预训练好的模型encode成向量。在预训练时,video embedding 是 fixed 不更新。

预训练方法

  • text-only: 采用 masked language model
  • video-only: 采用 masked language model (video 有词表的,embedding 部分是预训练的图像模型且不更新,分类器部分要更新)
  • video-text: cls 二分类video-text是否匹配

实验

TPU训练的。。模型参数与 $BERT_{LARGE}$一样。

  • 层数 24
  • 隐藏单元树 1024
  • 注意力头 16

数据集

• 预训练YouTube,cooking video • 微调和预测 YouCook II