YOLO 12:以注意力为中心的物体检测!
1.概述
YOLO12 引入了一种以注意力为中心的架构,它不同于以往 YOLO 模型中使用的基于 CNN 的传统方法,但仍保持了许多应用所必需的实时推理速度。该模型通过对注意力机制和整体网络架构进行新颖的方法创新,实现了最先进的物体检测精度,同时保持了实时性能。
2.主要特点
区域注意机制: 一种新的自我注意方法,可高效处理大型感受野。它可将特征图横向或纵向划分为 l 个大小相等的区域(默认为 4 个),从而避免了复杂的操作,并保持了较大的有效感受野。与标准自注意相比,这大大降低了计算成本。
剩余高效层聚合网络(R-ELAN): 基于 ELAN 的改进型特征聚合模块,旨在解决优化难题,尤其是在以注意力为中心的大规模模型中。
R-ELAN 引入了具有缩放功能的块级残差连接(类似于层缩放)。
重新设计的特征聚合方法,创建类似瓶颈的结构。
优化注意力架构: YOLO12 简化了标准注意力机制,以提高效率并与 YOLO 框架兼容。这包括
使用 FlashAttention,最大限度地减少内存访问开销。
移除位置编码,使模型更简洁、更快速。
调整 MLP 比例(从典型的 4 调整为 1.2 或 2),以更好地平衡注意力层和前馈层之间的计算。
降低堆叠区块的深度,以提高优化效果。
适当利用卷积运算,以提高计算效率。
在注意力机制中添加 7x7 可分离卷积(“位置感知器”),以隐含地编码位置信息。
全面的任务支持: YOLO12 支持一系列核心计算机视觉任务:物体检测、实例分割、图像分类、姿态估计和定向物体检测 (OBB)。
更高的效率: 与之前的许多模型相比,YOLO12 以更少的参数实现了更高的精度,在速度和精度之间实现了更好的平衡。
灵活部署: 专为在从边缘设备到云基础设施等各种平台上部署而设计。
3.支持的任务和模式
YOLO12 支持多种计算机视觉任务。下表列出了任务支持和每种任务启用的操作模式(推理、验证、训练和输出):
Model Type | Task | Inference | Validation | Training | Export |
---|---|---|---|---|---|
YOLO12 | Detection | ✅ | ✅ | ✅ | ✅ |
YOLO12-seg | Segmentation | ✅ | ✅ | ✅ | ✅ |
YOLO12-pose | Pose | ✅ | ✅ | ✅ | ✅ |
YOLO12-cls | Classification | ✅ | ✅ | ✅ | ✅ |
YOLO12-obb | OBB | ✅ | ✅ | ✅ | ✅ |
4.性能评估
在 COCO Val2017 数据集上的评估结果显示,YOLOv12 在各个模型尺度上均取得了优异的性能:
YOLOv12-N:在 640×640 的输入尺寸下,mAP 达到 40.6%,推理延迟为 1.64 毫秒,参数量为 2.6M,FLOPs 为 6.5G。
YOLOv12-S:在相同输入尺寸下,mAP 为 48.0%,推理延迟为 2.61 毫秒,参数量为 9.3M,FLOPs 为 21.4G。
YOLOv12-M:mAP 达到 52.5%,推理延迟为 4.86 毫秒,参数量为 20.2M,FLOPs 为 67.5G。
YOLOv12-L:mAP 为 53.7%,推理延迟为 6.77 毫秒,参数量为 26.4M,FLOPs 为 88.9G。
YOLOv12-X:mAP 达到 55.2%,推理延迟为 11.79 毫秒,参数量为 59.1M,FLOPs 为 199.0G。
与之前的 YOLO 版本(如 YOLOv10 和 YOLOv11)相比,YOLOv12 在精度上有显著提升。例如,YOLOv12-N 的 mAP 比 YOLOv10-N 提高了 2.1%,比 YOLOv11-N 提高了 1.2%,且推理速度相当。这种优势在其他模型尺度上同样明显。
5.全面的任务支持
YOLOv12 不仅在目标检测任务上表现出色,还支持实例分割、图像分类、姿态估计和定向目标检测(OBB)等多种计算机视觉任务。这种多任务支持使得 YOLOv12 在各类应用场景中具有广泛的适用性。
6.灵活的部署能力
YOLOv12 专为跨平台部署而设计,适用于从边缘设备到云端基础设施的各种环境。其高效的计算和内存使用,使得在资源受限的设备上也能实现高性能的目标检测。
7.总结
YOLOv12 通过引入以注意力机制为核心的架构设计,结合残差高效层聚合网络和优化的注意力机制,实现了在精度和速度上的双重提升。与之前的 YOLO 版本相比,YOLOv12 在各项指标上均有显著的改进,特别是在保持实时推理速度的同时,大幅提升了检测精度。此外,YOLOv12 的多任务支持和灵活的部署能力,使其在实际应用中具有更广泛的适用性。
总的来说,YOLOv12 的发布标志着实时目标检测技术的又一重大进步,为相关领域的研究和应用提供了更强大的工具和新的思路。