教ChatGPT学会看图的方法来了( 二 )


多项视觉语言任务上实现新SOTA考虑到大规模模型的端到端训练成本越来越高 , BLIP-2使用的是一种通用且高效的预训练策略:
从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练 。
这也意味着 , 每个人都可以选择自己想用的模型接入使用 。
而为了弥补了模态之间的差距 , 研究者提出了一个轻量级的查询Transformer 。
该Transformer分两个阶段进行预训练:
第一阶段从冻结图像编码器引导视觉语言表示学习 , 第二阶段将视觉从冻结的语言模型引导到语言生成学习 。
教ChatGPT学会看图的方法来了
文章图片
为了测试BLIP-2的性能 , 研究人员分别从零样本图像-文本生成、视觉问答、图像-文本检索、图像字幕任务上对其进行了评估 。
最终结果显示 , BLIP-2在多项视觉语言任务上都实现了SOTA 。
教ChatGPT学会看图的方法来了
文章图片
其中 , BLIP-2在zero-shotVQAv2上比Flamingo80B高8.7% , 且训练参数还减少了54倍 。
而且显而易见的是 , 更强的图像编码器或更强的语言模型都会产生更好的性能 。
教ChatGPT学会看图的方法来了
文章图片
值得一提的是 , 研究者在论文最后也提到 , BLIP-2还存在一个不足 , 那就是缺乏上下文学习能力:
每个样本只包含一个图像-文本对 , 目前还无法学习单个序列中多个图像-文本对之间的相关性 。
研究团队BLIP-2的研究团队来自SalesforceResearch 。
教ChatGPT学会看图的方法来了
文章图片
第一作者为JunnanLi , 他也是一年前推出的BLIP的一作 。
目前是Salesforce亚洲研究院高级研究科学家 。 本科毕业于香港大学 , 博士毕业于新加坡国立大学 。
研究领域很广泛 , 包括自我监督学习、半监督学习、弱监督学习、视觉-语言 。
以下是BLIP-2的论文链接和GitHub链接 , 感兴趣的小伙伴们可以自取~
论文链接:
https://arxiv.org/pdf/2301.12597.pdfGitHub链接:
https://github.com/salesforce/LAVIS/tree/main/projects/blip2参考链接:
[1]https://twitter.com/mrdbourke/status/1620353263651688448[2]https://twitter.com/LiJunnan0409/status/1620259379223343107—完—
教ChatGPT学会看图的方法来了】量子位QbitAI·头条号签约