VideoBERT 介绍

VideoBERT 论文名 A Joint Model for Video and Language Representation Learning，是一种视频文本预训练方法。
论文地址： https://arxiv.org/pdf/1904.01766.pdf

VideoBERT 简介

首先来看看 VideoBERT 能干嘛，先来上个图。

论文里面介绍了两个例子，上图的上半部分描述的是：给定一道菜的制作步骤，VideoBERT 可以根据步骤的描述来生成一段视频；下半部分描述的是：给定一张图片，VideoBERT 生成后续的一系列图片组成一个连贯的视频。挺有趣的对吧~ 那我们来看看具体是咋做的呢？

VideoBERT 的模型结构和 BERT 基本一样，区别在于输入的 Embedding 上。模型结构如下图

VideoBERT 的 Embedding 分为两种，一种输入是文本的token序列，另一种是视频的图片帧序列：

文本输入是token。token embedding、segment embedding 和 position embedding。
视频的输入是vedio token。同样也是token embedding、segment embedding 和 position embedding。Video token 的获取方式是先把视频转化成20fps，然后抽取 1.5秒视频（30个图片），然后把所有图片构建成一个词典，用一个预训练好的模型encode成向量。在预训练时，video embedding 是 fixed 不更新。

text-only: 采用 masked language model
video-only: 采用 masked language model （video 有词表的，embedding 部分是预训练的图像模型且不更新，分类器部分要更新）
video-text: cls 二分类video-text是否匹配

TPU训练的。。模型参数与 $BERT_{LARGE}$一样。

• 预训练YouTube，cooking video • 微调和预测 YouCook II