教ChatGPT学会看图的方法来了( 二 )
多项视觉语言任务上实现新SOTA考虑到大规模模型的端到端训练成本越来越高 , BLIP-2使用的是一种通用且高效的预训练策略:
从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练 。
这也意味着 , 每个人都可以选择自己想用的模型接入使用 。
而为了弥补了模态之间的差距 , 研究者提出了一个轻量级的查询Transformer 。
该Transformer分两个阶段进行预训练:
第一阶段从冻结图像编码器引导视觉语言表示学习 , 第二阶段将视觉从冻结的语言模型引导到语言生成学习 。
文章图片
为了测试BLIP-2的性能 , 研究人员分别从零样本图像-文本生成、视觉问答、图像-文本检索、图像字幕任务上对其进行了评估 。
最终结果显示 , BLIP-2在多项视觉语言任务上都实现了SOTA 。
文章图片
其中 , BLIP-2在zero-shotVQAv2上比Flamingo80B高8.7% , 且训练参数还减少了54倍 。
而且显而易见的是 , 更强的图像编码器或更强的语言模型都会产生更好的性能 。
文章图片
值得一提的是 , 研究者在论文最后也提到 , BLIP-2还存在一个不足 , 那就是缺乏上下文学习能力:
每个样本只包含一个图像-文本对 , 目前还无法学习单个序列中多个图像-文本对之间的相关性 。
研究团队BLIP-2的研究团队来自SalesforceResearch 。
文章图片
第一作者为JunnanLi , 他也是一年前推出的BLIP的一作 。
目前是Salesforce亚洲研究院高级研究科学家 。 本科毕业于香港大学 , 博士毕业于新加坡国立大学 。
研究领域很广泛 , 包括自我监督学习、半监督学习、弱监督学习、视觉-语言 。
以下是BLIP-2的论文链接和GitHub链接 , 感兴趣的小伙伴们可以自取~
论文链接:
https://arxiv.org/pdf/2301.12597.pdfGitHub链接:
https://github.com/salesforce/LAVIS/tree/main/projects/blip2参考链接:
[1]https://twitter.com/mrdbourke/status/1620353263651688448[2]https://twitter.com/LiJunnan0409/status/1620259379223343107—完—
【教ChatGPT学会看图的方法来了】量子位QbitAI·头条号签约
- chatgpt|腾讯版ChatGPT将至?人机对话专利获授权
- |ChatGPT概念爆火!作为基民咱们如何参与进去?
- 高通骁龙|百度终于等到ChatGPT
- chatgpt|ChatGPT的出现,会带来哪些革命性的技术
- 网易考拉|据称是融合ChatGPT的微软"新Bing"的截图泄露
- chatgpt是全球最火的聊天机器人
- LabVIEW 2022软件最新下载-LabVIEW 2022 新版下载+详细安装教程
- 微信提现怎样才能免费?教你2种方法,学会能省钱
- ChatGPT火热“出圈”,我们如何应对新挑战
- 惠普Fortis系列笔记本是面向教育市场的经济型笔记本|惠普fortisx36011英寸教育笔记本发布