网站首页 > 技术教程正文

YOLO算法改进Backbone系列之:EfficientViT

goqiw 2024-10-20 07:27:56 技术教程 28 ℃ 0 评论

EfficientViT: Memory Effificient Vision Transformer with Cascaded Group Attention

摘要：视觉transformer由于其高模型能力而取得了巨大的成功。然而，它们卓越的性能伴随着沉重的计算成本，这使得它们不适合实时应用。在这篇论文中，本文提出了一个高速视觉transformer家族，名为EfficientViT。本文发现现有的transformer模型的速度通常受到内存低效操作的限制，特别是在MHSA中的张量重塑和单元函数。因此，本文设计了一种具有三明治布局的新构建块，即在高效FFN层之间使用单个内存绑定的MHSA，从而提高了内存效率，同时增强了信道通信。此外，本文发现注意图在头部之间具有很高的相似性，从而导致计算冗余。

为了解决这个问题，本文提出了一个级联的群体注意模块，以不同的完整特征分割来馈送注意头，不仅节省了计算成本，而且提高了注意多样性。综合实验表明，高效vit优于现有的高效模型，在速度和精度之间取得了良好的平衡。例如，本文的EfficientViT-M5在准确率上比MobileNetV3-Large高出1.9%，而在Nvidia V100 GPU和Intel Xeon CPU上的吞吐量分别高出40.4%和45.2%。与最近的高效型号MobileViT-XXS相比，efficientvitt - m2的精度提高了1.8%，同时在GPU/CPU上运行速度提高了5.8 ×/3.7 ×，转换为ONNX格式时速度提高了7.4×

本文通过分析DeiT和Swin两个Transformer架构得出如下结论：

适当降低MHSA层利用率可以在提高模型性能的同时提高访存效率
在不同的头部使用不同的通道划分特征，而不是像MHSA那样对所有头部使用相同的全特征，可以有效地减少注意力计算冗余
典型的通道配置，即在每个阶段之后将通道数加倍或对所有块使用等效通道，可能在最后几个块中产生大量冗余
在维度相同的情况下，Q、K的冗余度比V大得多
a new building block with a sandwich layout（减少self-attention的次数）：之前是一个block self-attention->fc->self-attention->fc->self-attention->fc->...N次数；现在是一个block fc->self-attention->fc；不仅能够提升内存效率而且能够增强通道间的计算
cascaded group attention：让多头串联学习特征：第一个头学习完特征后，第二个头利用第一个头学习到的特征的基础上再去学习(原来的transformer是第二个头跟第一个头同时独立地去学习)，同理第三个头学习时也得利用上第二个头学习的结果再去学习

Efficientvit模型结构如下图所示：

a memory-efficient sandwich layout

Cascaded Group Attention：解决了原来模型中多头重复学习(学习到的特征很多都是相似的)的问题，这里每个头学到的特征都不同，而且越往下面的头学到的特征越丰富。

Q是主动查询的行为，特征比K更加丰富，所以额外做了个Token Interation

Q进行self-attention之前先通过多次分组卷积再一次学习

Parameter Reallocation

l self-attention主要在进行Q*K，而且还需要对Q/K进行reshape，所以为了运算效率更快，Q与K的维度小一点

l 而V只在后面被Q*K得到的结果进行权重分配，没那么费劲，为了学习更多的特征，所以V维度更大一些

Efficientvit变体模型结构如下表所示：

在YOLOv5项目中添加EfficientViT模型作为Backbone使用的教程：

（1）将YOLOv5项目的models/yolo.py修改parse_model函数以及BaseModel的_forward_once函数

（2）在models/backbone（新建）文件下新建EfficientViT.py，添加如下的代码：

（3）在models/yolo.py导入EfficientViT模型并在parse_model函数中修改如下：

（4）在model下面新建配置文件：yolov5-efficientvit.yaml

（5）运行验证：在models/yolo.py文件指定--cfg参数为新建的yolov5-efficientvit.yaml

上一篇：索尼为iPhone用户推出PS定制版Backbone One游戏手柄
下一篇： YOLO算法改进Backbone系列之:EdgeViT

网站首页 > 技术教程正文

YOLO算法改进Backbone系列之:EfficientViT

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术教程 正文

YOLO算法改进Backbone系列之:EfficientViT

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术教程正文

取消回复欢迎你发表评论: