Data Structures Videotutorial

README_CN.md

我们很高兴宣布部分发布一个大规模的视频文本数据集，旨在促进多模态理解和生成。作为此次发布的一部分，我们提供了该数据集的子集包含1000万个视频剪辑。此外，我们还提供了一个使用ViT-L架构在这个子集上训练的ViCLIP。该模型在Kinetics上实现了SOTA的零 ...

一些您可能无法访问的结果已被隐去。