Conceptual 12Mimage-text pairs datasets

Conceptual 12M图像文本对数据集

导读

大规模图像字幕和视觉问答数据集的可用性对最近在视觉和语言预训练方面的成功做出了重大贡献。然而,这些数据集的收集通常具有从其原始目标任务(例如,图像标题生成)继承的过度限制要求,这限制了结果数据集的规模和多样性。

团队通过放宽概念字幕 3M (CC3M) [Sharma et al. 2018] 并介绍概念 12M (CC12M),这是一个包含 1200 万个图像-文本对的数据集,专门用于视觉和语言预训练。团队对该数据集进行分析,并在多个下游任务上对 CC3M 的有效性进行基准测试,重点是长尾视觉识别。团队的研究结果清楚地说明了扩大视觉和语言任务的预训练数据的好处,正如 nocaps 和概念字幕基准的最新最新结果所示。

关键词: 公开数据集Conceptual 12M图像文本对数据集