谷歌有限责任公司(Google LLC)今天推出了新版的Open Images(其用于人工智能研究的照片数据集),增加了数百万个其他数据点,并提供了一个名为“本地化叙述”的功能来帮助学术项目。
Open Images于2016年首次发布,其中包含900万张带有描述性标签的照片。这样的数据集在人工智能生态系统中扮演着重要的角色。研究人员使用它们来开发新的机器学习模型,用于目标识别和自动驾驶等任务。
除了提供免费照片,Open Images还包含了数百万条有价值的AI培训笔记。未经训练的神经网络无法自行识别照片中的对象,因此需要注释等元数据来理解屏幕上的内容。元数据越详细,AI就能学得越好。
今天发布的新版“开放图像”新增了2350万个“照片级”标签,这些标签已经被人类验证过,可以提供图像中发生的事情的大致描述。数据库现在总共有5990万个这样的标签。谷歌还添加了更多的上下文注释,包括250万个用于描述照片中人们所做动作的标签,以及另外39.1万个用于描述对象之间关系的标签。
然而,最大的亮点是谷歌的本地化叙事。这些都是搜索巨头开发的新标注,希望AI模型能比旧的标注方法收集到更多关于图像的信息。
谷歌通过要求人类注释者将鼠标悬停在照片中的每个对象上,并用他们自己的话描述它来生成本地化的叙述。然后将光标移动的记录与自然语言的描述进行匹配,这样每个单词都可以与它所应用的对象相关联。谷歌表示,这种方法将使人工智能模型在开放图像数据集上训练时能够更有效地学习。
“为了理解这些本地化叙述所代表的更多数据,鼠标轨迹的总长度约为6400公里。如果你一直大声朗读,所有的叙述大约需要1.5年才能听完,”谷歌研究科学家乔迪庞特-图塞特(Jordi Pont-Tuset)在他的博客文章中做了详细介绍。
到目前为止,谷歌已经为大约50万个开放图像文件创建了本地化的叙述。Pont-Tuset写道,此次更新代表着“在改进图像分类、对象检测、视觉关系检测和实例分割的统一标注方面迈出了重要的定性和定量的一步。”“我们希望Open Images V6能够进一步激发人们对真实场景的理解。”