【PAMI2024】Probabilistic Contrastive Learning for Long-Tailed Visual Recognition
论文链接:https://arxiv.org/pdf/2403.06726
代码链接:https://github.com/LeapLabTHU/ProCo
长尾分布经常出现在现实世界的数据中,其中大量少数类别只包含有限的样本。这种不平衡问题严重损害了标准监督学习算法的性能,因为这些算法主要是为平衡训练集设计的。最近的研究表明,监督对比学习在缓解数据不平衡方面显示出有希望的潜力。然而,监督对比学习的性能受到一个固有挑战的困扰:它需要足够大的批量训练数据来构建覆盖所有类别的对比对,但在类不平衡数据的背景下,这个要求很难满足。为了克服这个障碍,作者提出了一种新颖的概率对比(ProCo)学习算法,该算法。实际上,使用小批量中的特征来估计所有类别的分布,特别是对于不平衡数据,是不可行的。关键想法是引入一个合理而的假设,即。首先,分布参数可以使用仅第一个样本矩来估计,这可以在不同的批次中高效地在线计算。其次,基于估算的分布,vMF分布允许我们采样无限数量的对比对,并推导出期望对比损失的封闭形式以进行高效优化。除了长尾问题外,ProCo可以直接应用于半监督学习,通过为未标记数据生成伪标签,这些伪标签随后可用于逆向估计样本的分布。理论分析了ProCo的错误界限。从经验上看,广泛的实验结果在监督/半监督视觉识别和物体检测任务上表明,ProCo在不同数据集上一致优于现有方法。
[AAAI2024]Decoupled Contrastive Learning for Long-Tailed Recognition
研究机构:北京大学
论文链接:https://arxiv.org/abs/2403.06151
代码链接:https://github.com/SY-Xuan/DSCL
有监督对比损失 (SCL) 在视觉表示学习中很受欢迎。给定一张锚点图像,SCL 会拉近两种类型的正样本,即其增强样本和同一类中的其他图像,同时推开负样本以优化学习到的嵌入。在长尾识别场景中,每个类别的样本数量不平衡,将两种类型的正样本同等对待会导致类别内距离的优化偏差。此外,负样本之间的相似关系也被 SCL 所忽略,但这些关系也提供了有意义的语义线索。为了提升长尾识别的性能,本文通过解耦训练目标来解决 SCL 的两个问题。具体来说,。进一步提出了基于补丁的自我蒸馏,以从头部类别向尾部类别传递知识,缓解尾部类别的欠表达问题。它使用基于补丁的特征来挖掘不同实例间的共享视觉模式,并利用自我蒸馏过程传递这些知识。在不同长尾分类基准上的实验证明了所提方法的优越性。例如,它在 ImageNet-LT 数据集上达到了 57.7% 的 top-1 准确率。结合基于集成的方法,性能可以进一步提升至 59.7%,这显著优于许多近期的工作。
RT-DETRv2: Improved baseline with Bag-of-Freebies for Real-Time Detection Transformer
研究机构:百度和北京大学
技术报告链接:https://arxiv.org/abs/2407.17140
代码链接:https://github.com/lyuwenyu/RT-DETR
这份报告介绍了 RT-DETRv2,这是对实时检测Transformer (RT-DETR) 的改进版本。RT-DETRv2 基于先前的尖端实时检测器 RT-DETR,并提供了一组灵活性和实用性的优化选项,同时还优化了训练策略以实现性能提升。为了提高灵活性,建议,以实现解码器的选择性多尺度特征提取。为了增强实用性,提出了一种可选的离散采样操作符,用以替代 RT-DETR 特有的 grid_sample 操作符(与 YOLOs 相比)。这消除了通常与 DETRs 相关的部署限制。对于训练策略,提出了动态数据增强和适应尺度的超参数定制,以提高性能而不会损失速度。
RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision
研究机构:百度
论文链接:https://arxiv.org/abs/2409.08475
代码链接:代码将很快发布
RT-DETR 是第一个实时端到端的基于Transformer的目标检测器。它的高效性源于框架设计和匈牙利匹配。然而,与YOLO系列等密集监督检测器相比,匈牙利匹配提供的监督稀疏得多,导致模型训练不足,难以达到最佳效果。为了解决这些问题,作者提出了一种基于 RT-DETR 的分层密集正监督方法,名为 RT-DETRv3。首先,引入了一个基于CNN的辅助分支,提供密集监督,与原始解码器协作,以增强编码器特征表示。其次,为了解决解码器训练不足的问题,提出了一种涉及自注意力扰动的新学习策略。该策略通过在多个查询组之间多样化标签分配,丰富了正样本的监督信息。此外,引入了一个共享权重的解码器分支用于密集正监督,以确保每个真实值匹配更多高质量的查询。所有上述模块仅用于训练。广泛的实验证明所提方法在 COCO val2017 上的有效性。RT-DETRv3 显著优于现有的实时检测器,包括 RT-DETR 系列和 YOLO 系列。例如,RT-DETRv3-R18 达到了48.1%的 AP(+1.6%/+1.4%),相比 RT-DETR-R18/RT-DETRv2-R18,同时保持相同的延迟。同时,它只需要一半的epochs就能达到相当的性能。此外,RT-DETRv3-R101 可以达到54.6%的AP,超过了YOLOv10-X。
FA-YOLO: Research On Efficient Feature Selection YOLO Improved Algorithm based On FMDS and AGMF Modules
研究机构:中国农业大学
论文链接:https://arxiv.org/pdf/2408.16313
代码链接:【无】
YOLO系列模型已成为目标检测领域的主要方法之一。许多研究通过修改其架构、提高数据质量和开发新的损失函数来改进这些基线模型。然而,当前模型在处理特征图时仍存在不足,例如。为了解决这些问题,本文引入了一种高效的细粒度多尺度动态选择模块(FMDS模块),该模块对细粒度多尺度特征图应用了更有效的动态特征选择和融合方法,显著提升了复杂环境中小、中、大尺寸目标的检测精度。此外,本文还提出了一种自适应门控多分支聚焦融合模块(AGMF模块),该模块利用多个并行分支对门控单元分支、FMDS模块分支和TripletAttention分支捕获的各种特征进行互补融合。这种方法进一步增强了特征融合的全面性、多样性和完整性。本文将FMDS模块和AGMF模块集成到Yolov9中,开发出一种名为FA-YOLO的新型目标检测模型。大量实验结果表明,在相同的实验条件下,FA-YOLO在PASCAL VOC 2007数据集上的mAP(平均精度)达到了66.1%,比YOLOv9的65.1%提高了1.0%。同时,FA-YOLO对小、中、大目标的检测精度分别为44.1%、54.6%和70.8%,相较于YOLOv9的42.1%、51.5%和69.9%分别提升了2.0%、3.1%和0.9%。
[ICPR 2024] DS MYOLO: A Reliable Object Detector based on SSMs for Driving Scenarios
研究机构:上海理工大学
论文链接:http://arxiv.org/abs/2409.01093
代码链接:【无】
准确的实时目标检测提高了高级驾驶辅助系统的安全性,使其成为驾驶场景中不可或缺的组成部分。随着深度学习技术的迅速发展,基于CNN的YOLO实时目标检测器受到了广泛关注。然而,CNN的局部焦点导致了性能瓶颈。为了进一步提高检测器的性能,研究人员引入了基于Transformer的自注意力机制来利用全局感受野,但其二次复杂度带来了巨大的计算成本。最近,Mamba凭借其线性复杂度和全局选择性扫描取得了显著进展。受Mamba出色表现的启发,我们提出了一种新的目标检测器:DS MY OLO。该检测器通过简化的选择扫描融合块(SimVSS Block)捕获全局特征信息,并有效地集成网络的深层特征。此外,我们还引入了一种高效的通道注意力卷积(ECAConv),在保持低计算复杂度的同时增强了跨通道特征互动。在CCTSDB 2021和VLD-45驾驶场景数据集上的广泛实验表明,DS MYOLO表现出显著的潜力和竞争优势,在类似规模的YOLO系列实时目标检测器中具有竞争力。
[2024火灾和火焰检测]EFA-YOLO: An Efficient Feature Attention Model for Fire and Flame Detection
研究机构:山东建筑大学
论文链接:https://arxiv.org/pdf/2409.12635
代码链接:【无】