最新游戏资讯ImageBERT虽好千万级数据集才是亮点吗
在AI科技评论中,最新游戏资讯披露了一个令人瞩目的发现:微软新作ImageBERT虽好,但千万级数据集才是亮点。这个模型基于Transformer架构,并对视觉-语言联合嵌入进行建模。而且,这个模型的成功还得益于来自网络上收集的一千万规模的弱监督图像-文本数据集LAIT。这也是当前所有视觉-语言数据集中最大的数据集。在这个强大的数据集的支持下,ImageBERT 模型在MSCOCO和Flickr30k的图像-文本检索任务上取得了优异成绩。
自从2018年谷歌推出BERT以来,研究人员不断探索将其应用到不同领域,如语音、视频融合等。雷锋网曾报道过多篇将BERT应用到视觉/视频领域的重要论文,如VideoBERT、ViLBERT、VisualBERT、B2T2、Unicoder-VL、LXMERT等,其中VL-BERT是一种新的通用视觉-语言预训练模型,由来自中国科大和微软亚洲研究院的研究者共同提出。
近期,微软Bing多媒体团队也发表了一篇关于将BERT应用到视觉中的论文《ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data》。这篇文章提出了一个新的视觉语言预训练模型ImageBERT,并从网络上收集了一个大型的弱监督图像-文本数据集LAIT,这是目前最大的一个数据集。利用ImageBERT模型和LAIT数据集进行预训练,在MSCOCO和Flicker30k上进行文本到图像、图像到文本的检索任务上获得了不错的结果。
在跨模态任务中,一些处理不同模态输入方法被提出,比如ViLBERT和LXMERT分别使用单独Transformer来处理图像和句子,然后再采用跨模态Transformer来结合两种模态,而其他工作则是在Transformer基础之上直接串联图像与句子作为单个输入。此外,与使用预先检测特征区(ROIs)的其他工作不同,VL-BERT结合了区域特征与全局特征,以共同训练检测网络并增强性能。
至于预训练所需的大量高质量图片描述,这一直是一个挑战。不过,Conceptual Captions提供了3百万个描述性较好的图片描述,而UNITER组合四个不同的来源形成960万词汇库,在多项任务中取得最佳表现。然而,即使这些资源丰富,它们仍不足以支持具有数亿参数的大型模型,因此需要更多高质量且可扩展性的资料。
为了解决这一问题,本次研究设计了一种弱监督方法,从Web页面自动获取数十亿张图片URLs,然后筛选出主要图片并利用HTML标记及DOM树特征来确定其相关性。一旦通过该过程,只有高度相关性且宽度、高度均超过300px的小样品才会被保留,其余内容则被忽略或去除。此后,将剩下的文字描述与相应图片配对,用少量image-text监督样例训练弱image-text语义匹配器,从而创建包含1,000,000张图片及其描述信息的大规模弱监督data set LAIT(Large-scale weAk-supervised Image-Text)。
最后,该文章介绍了一款名为ImageBert的人工智能工具,它采用类似于传统机器学习算法但更加复杂的人工智能技术。在这种情况下,我们可以看到该系统如何根据用户查询生成响应,并逐渐提高准确率直至达到最大效率。这一突破性的技术创新对于改善我们日常生活中的各种交互体验具有巨大潜力,因为它能够更有效地理解人类需求并迅速提供准确答案,无论是在浏览书籍时寻找具体信息还是在搜索历史事件时寻找详细资料都能帮助用户快速找到他们需要知道的事情。