当前位置:网站首页>不知道如何提高视觉语言大模型?浙大与联汇研究院提出新型多维度评测框架
不知道如何提高视觉语言大模型?浙大与联汇研究院提出新型多维度评测框架
2022-07-15 15:50:00 【智源社区】
视觉语言预训练是多机器学习研究的一项基本任务。最近,由于多模态 Transformer 的出现和大型匹配图像文本语料库的可用性,VLP 取得了快速进展。许多的 VLP 模型有助于实现各种下游多模态任务的最先进性能,包括视觉 QA、多模态检索、视觉 Grounding 等。另一方面,当前评估 VLP 模型的实际方法是通过比较其微调的下游任务性能。然而,基于下游任务的基准 VLP 模型有许多局限性:
1. 可解释性差:下游任务很复杂,依赖于许多相互交织的能力,因此它只提供一个黑盒子得分,很难解释。例如,目前仍然不清楚如何改进在视觉 QA 方面表现出色但在图像检索中表现不佳的 VLP 模型。
2. 不可比较的结果:不同的工作可能会选择不同的任务进行评估,这使得比较困难。这是因为一些 VLP 模型与某些任务不兼容,例如 CLIP 无法直接针对视觉 QA 进行微调。
3. 数据偏置:下游数据分布不全面,因此实际性能可能被高估。此外,不能知道模型是否对输入噪声具有鲁棒性,例如用同义词替换动词。

论文链接:https://arxiv.org/pdf/2207.00221.pdf
代码链接:https://github.com/om-ai-lab/vl-checklist
既然基于下游任务的评测方法有这么多局限性,那有没有什么办法来解决呢?那当然有啦!本文就提出了 VL-CheckList 方法,这是一个可解释的框架,全面评估 VLP 模型,有助于加深理解并激发新的改进想法。VLCheckList 的核心原则主要有三点:
1. 评估VLP模型的基本能力,而不是下游应用的性能:基于这一点,作者选择图像文本匹配(ITM)作为主要评估目标,因为它可能是所有VLP方法中最有效的预训练目标。
2. 将能力分解为更易于分析的相对独立的变量:基于这一点,作者提出了一种分类法,将 VLP 系统的功能分为三类:对象、属性和关系。然后将每个类进一步划分为更细粒度的变量,例如属性由颜色、材料和大小等组成。
3. 语言感知的负样本采样策略,以创建难例负样本:这用于验证 VLP 模型对输入空间中微小变化的识别能力。
边栏推荐
- 阿里云E-MapReduce 极客大赛开放报名 数十万奖金等你挑战
- The 9th Blue Bridge Cup group B provincial tournament.
- rv的使用
- About security details timing attack
- 一文搞懂│什么是跨域?如何解决跨域?
- Salesforce Dynamic Dashboard动态报表、限制与解决方案
- @Difference between controller and @restcontroller
- CEO干货| CSDN演讲回顾:如何利用低代码提升研发和IT效能?
- 宝藏功能上新!日历视图+卡片视图强强联合,工作效率快到飞起
- Salesforce File Share and Security
猜你喜欢

Teach people to fish - see a field on the sap mm material display interface, how to find which field of which database table to store the trial version

【深度学习】YOLOv7速度精度超越其他变体,大神AB发推,网友:还得是你!|开源...

华为云Stack南向开放框架,帮助生态伙伴高效入云

使用TIBCO Rendezvous发送hello world,实现监听和发送

Salesforce Dynamic Forms

xstream解析xml的时候报错AbstractReflectionConverter$UnknownFieldException

要想不踩SaaS那些坑,得先了解“SaaS架构”

Huawei image xmage: seek all the images in the world, and finally see the Bodhi Heart

If you don't want to step on those holes in SaaS, you must first understand the "SaaS architecture"

【面试:并发篇14:多线程: Monitor 概念】
随机推荐
Win11如何设置多任务窗口?Win11设置多任务窗口的方法
1 start. S analysis
Light up
Huawei image xmage: seek all the images in the world, and finally see the Bodhi Heart
Huawei cloud stack opens its framework to the south to help ecological partners enter the cloud efficiently
【7.8-7.15】寫作社區精彩技術博文回顧
Salesforce File Share and Security
焱融科技入选北京市 2022 年度“专精特新”,领航混合云文件存储
@Difference between controller and @restcontroller
摄提格,是外来词音译,还是有特定含义?
Localization within Communities
Apache APISIX Meetup 南京站!我们 7.30 见!
Teach people to fish - see a field on the sap mm material display interface, how to find which field of which database table to store the trial version
Comparable to headhunter resume sorting skills how to quickly sort out resumes
东软睿驰与联合电子达成战略合作,抢占国产化基础软件市场新风口
Assist developers to comprehensively interpret APIs IX test cases
C # use the Browse button to obtain the file path and folder path
SYD_Calculator技巧二[管理COS]
Pycharm使用教程:5个非常有用的技巧
If you don't want to step on those holes in SaaS, you must first understand the "SaaS architecture"