我们很高兴宣布部分发布一个大规模的视频文本数据集,旨在促进多模态理解和生成。作为此次发布的一部分,我们提供了该数据集的子集包含1000万个视频剪辑。此外,我们还提供了一个使用ViT-L架构在这个子集上训练的ViCLIP。该模型在Kinetics上实现了SOTA的零 ...