当前位置:网站首页>每日模型系列:2022.07.11
每日模型系列:2022.07.11
2022-07-17 09:09:00 【Zilliz Planet】
本周一共介绍了 5 个视频相关的模型:“杂食者” Omnivore、“性价比之王” TSM、“进击的纯血” TimeSformer、“回归的高手” Video Swin Tranformer、“国产之光” UniFormer。
无论是崛起的新生代,还是与时俱进的 OG,总有一款模型为你所爱。
图像、视频、3D 数据一把抓,不挑食的 AI 模型 Omnivore !
出品人:Towhee 技术团队
厌烦了不同数据要用不同的模型?是否想过用一个模型就能处理不同模态的数据?终于,在 2022 年初 Meta AI 推出了 “杂食者” Omnivore,一个模型搞定不同视觉模态数据,可以对图像、视频、3D数据进行分类。Omnivore 不仅兼容多种类型的数据,在不同任务的数据集上也都名列前茅。Omnivore 在图像分类数据集 ImageNet 上能达到 86.0% 精度;在用于动作识别的 Kinetics 数据集上能达到 84.1% 精度;在用于单视图3D场景分类的 SUN RGB-D 数据集上,精度也高达 67.1% 。

Omnivore: Multiple visual modalities
Omnivore 将不同视觉模态的数据都转换成通用的向量格式,然后利用 Transformer 特有的灵活性,针对不同模态的分类任务进行联合训练。无论是从头训练,还是对预训练模型进行微调,只要使用 Omnivore 和现成的标准数据集,就能让其性能达到甚至超越对应的单模型。
参考资料:
模型用例:[action-classification/omnivore](https://towhee.io/action-classification/omnivore)
论文:[OMNIVORE: A Single Model for Many Visual Modalities](https://arxiv.org/pdf/2201.08377.pdf)
更多资料:
[Facebook AI 推出“超级模型”:搞定图像、视频和3D数据三大分类任务,性能不输独立模型](https://zhuanlan.zhihu.com/p/461593357)
高性价比模型 TSM,用 2D 的成本达到 3D 的效果
出品人:Towhee 技术团队
MIT 和 IBM Watson AI Lab 联合提出一种高效的视频理解模型 TSM(Temporal Shift Module),在保留 2D 效率的同时,通过时间位移模拟 3D 建模提高模型性能。以往的模型理解视频时,需要在传统图片分析的基础上耗费大量算力补充关于时间的信息。TSM 的出现,使得低成本实现高性能视频理解模型成为可能。
TSM:Temporal shifting
2D CNN 和 3D CNN是视频理解中最常用的两个方法:使用 2D CNN 模型运算量少,但会丧失部分时间信息;而使用 3D CNN 虽然效果好,但运算量极大。面对这样的情况,TSM 将时间位移模块嵌入 2D CNN,从而可以在不添加任何额外的计算量和参数的情况下,轻松的达到与 3D CNN 效果相当的视频理解能力。
参考资料:
模型用例:[action-classification/tsm](https://towhee.io/action-classification/tsm)
论文: [TSM: Temporal Shift Module for Efficient Video Understanding](https://arxiv.org/pdf/1811.08383v3.pdf)
更多资料:
[视频分类 | 论文 2019 TSM: Temporal Shift Module for Efficient Video Understanding](https://zhuanlan.zhihu.com/p/419142652)
[TSM:Temporal Shift Module for 视频理解](https://zhuanlan.zhihu.com/p/64525610)
TimeSformer: 只靠 Transformer 就能理解视频?注意力机制的又一次进击!
出品人:Towhee 技术团队
Facebook AI 提出了一种 TimeSformer(Time-Space transformer)的视频理解新架构,完全基于Transformer,能够彻底摆脱 CNN!仅用三分之一的时间训练,TimeSformer 就能以十倍的速度推理,并且在多个行为识别数据集得到超群的效果。论文中使用的数据集包括 Kinetics-400,Kinetics-600、Something-Something-v2 、Diving-48 和 HowTo100M ,均验证了 TimeSformer 的高性能!

TimeSformer: Visualization of 5 space-time self-attention schemes
TimeSformer 可以捕获整个视频的时间和空间依赖性。它将输入视频视为一个时空序列,由每一帧中提取的图像小块 (patches) 组成,类似 Transformer 在 NLP 中的部分用法。与现代的 3D 卷积神经网络相比,TimeSformer 不仅加速了训练过程,也大幅减少了推理时间。除此之外,由于 TimeSformer 的可拓展性,它更具发展潜力,能够处理更长的视频片段、训练更大的模型。
参考资料:
模型用例:[action-classification/timesformer](https://towhee.io/action-classification/timesformer)
论文:[Is Space-Time Attention All You Need for Video Understanding?](https://arxiv.org/pdf/2102.05095.pdf)
其他资料:
[Facebook AI 提出 TimeSformer:完全基于 Transformer 的视频理解框架](https://zhuanlan.zhihu.com/p/357848386)
[TimeSformer 解析:视频理解中的transformer](https://zhuanlan.zhihu.com/p/360349869)
[TimeSformer:视频理解所需的只是时空注意力吗?](https://blog.csdn.net/deephub/article/details/115292823)
ICCV 2021 的最佳论文模型 Swin Transformer 终于对视频下手了!
出品人:Towhee 技术团队
在去年 Swin Transformer 获得 ICCV 2021 最佳论文后,微软亚洲研究院又在今年推出了视频领域的佳作 Video Swin Transformer 。Video Swin Transformer 模型在 CVPR 2022 中性能屠榜,在动作识别和时序建模任务上都优于 ViViT、TimeSformer 等网络!该模型在 Kinetics-400 上的准确率为 84.9% top-1,在 Something-Something v2 上的准确率为 69.6% top-1。
Video Swin Transformer: an illustrated example of 3D shifted windows
从图像领域拓展到视频领域,Swin Transformer 在原来的基础上引入局部性的归纳偏置,并且有效利用了预训练图像模型。与之前相比,Video Swin Transformer 即使时空分解也可以全局计算自注意力,因此能够更好地权衡速度与准确率。
参考资料:
模型用例:[action-classification/video-swin-transformer](https://towhee.io/action-classification/video-swin-transformer)
论文:[Video Swin Transformer](https://arxiv.org/pdf/2106.13230v1.pdf)
官方说明:[屠榜视频理解几大任务!微软提出:Video Swin Transformer](https://zhuanlan.zhihu.com/p/383925465)
其他资料:[视频分类利器之Video Swin Transformer](https://zhuanlan.zhihu.com/p/411797103)
国产之光!高分时空表征学习模型 UniFormer
出品人:Towhee 技术团队
由中科院、国科大、上海人工智能实验室、商汤、香港中文大学几大高手联合出品,SoTA 模型 UniFormer (UNIFIED TRANSFORMER) 在主流数据集上都取得了优秀的成绩:在 Kinetics-400/Kinetics600 上取得 82.9% / 84.8% top-1 精度;在 Something-Something V1 & V2 上取得 60.9% 和 71.2% top-1 精度。其论文一经发表,就获得了高分,最终收录于 ICLR 2022(初审评分高达7.5分:8 8 6 8)。
UniFormer Architecture
UniFormer 提出了一种整合 3D 卷积和时空自注意力机制的 Transformer 结构,能在计算量和精度之间取得平衡。不同于传统的 Transformer 结构在所有层都使用自注意力机制,论文中提出的 relation aggregator 可以分别处理视频的冗余信息和依赖信息。在浅层,aggregator 利用一个小的 learnable matrix 学习局部的关系,通过聚合小的 3D 邻域的 token 信息极大地减少计算量。在深层,aggregator通过相似性比较学习全局关系,可以灵活的建立远距离视频帧 token 之间的长程依赖关系。
参考资料:
模型用例:[action-classification/video-swin-transformer](https://github.com/towhee-io/towhee/tree/main/towhee/models/uniformer)
论文:[UNIFORMER: UNIFIED TRANSFORMER FOR EFFICIENT SPATIOTEMPORAL REPRESENTATION LEARNING](https://arxiv.org/pdf/2201.04676v3.pdf)
更多资料:
[高分论文!UniFormer:高效时-空表征学习的统一Transformer](https://zhuanlan.zhihu.com/p/435958099)
[ICLR2022 UniFormer:无缝集成 Transformer,更高效的时空表征学习框架](https://zhuanlan.zhihu.com/p/468445550)
更多项目更新及详细内容请关注我们的项目( https://github.com/towhee-io/towhee/blob/main/towhee/models/README_CN.md) ,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :)
zilliz用户交流

边栏推荐
猜你喜欢

2022 Shanghai safety officer C certificate national question bank and answers

【AXI】解读AXI协议的额外信号(QOS信号,REGION信号,与USER信号)

2022广东省安全员A证第三批(主要负责人)练习题及模拟考试

Change the theme of hbuilderx into vscode

LeetCode 0116. Populate the next right node pointer for each node

【虹科】GenICam协议入门

Expanding hard disk in VMWare

mongodb $符号的神奇用法+mongo数据类型
![[Hongke] lidar safety system: making the world safer](/img/35/23986a66c63d51862c7562834d6a89.png)
[Hongke] lidar safety system: making the world safer

Xgen hair guide history cleared solution
随机推荐
使用<pre>和JSON.stringify处理网页展示JSON的格式
Idea debug according to conditional breakpoints
C# - this 的用法
【无标题】
Cocos shader basics 7
Left connection query of Android database
数据库——sql-server
2022年夏令营难忘的一天
Scope and lifecycle of beans
[face recognition] face recognition based on histogram histogram with matlab code
ETCD数据库源码分析——初始化EtcdServer结构体
小说里的编程 【连载之十五】元宇宙里月亮弯弯
Set the ID field to increase automatically when creating tables in SQL Server (Navicat demo)
2022广东省安全员A证第三批(主要负责人)练习题及模拟考试
2、 Pinda general permission system__ Project construction
终结重复开发,两三下搞定登录系统个性化
Jsp+servlet+mysql case
Zero basic C language
Redis
QR decomposition for matrix inversion -- C engineering implementation