根据当前搜索结果,截至2025年5月,COCO数据集上性能最佳的神经网络模型及其关键参数如下:
1. D-FINE(中科大团队)
- 性能参数:
- 在COCO数据集上以78 FPS的速度实现了59.3%的平均精度(AP),是当前实时目标检测领域的最高水平。
- 轻量化版本(D-FINE-S/M/L)在T4 GPU上分别达到287 FPS(3.49 ms)和178 FPS(5.62 ms),AP为48.5%和52.3%。
- 技术亮点:
- 细粒度分布优化(FDR):将边界框回归任务转化为概率分布优化,提升对遮挡、模糊等复杂场景的鲁棒性。
- 全局最优定位自蒸馏(GO-LSD):通过层间知识蒸馏进一步优化定位精度,AP较基线模型提升最高达5.3%。
- 支持自定义数据集训练,代码和预训练模型已开源。
2. AODGCN(太原科技大学团队)
- 性能参数:
- 在MS-COCO 2017测试集上达到51.8% mAP,较YOLOv8提升1.6%。
- 对小目标(50×50像素)的检测精度提升3.2%。
- 技术亮点:
- 动态图卷积网络(D-GCN):自适应调整邻接矩阵,适应多尺度目标。
- 内容感知注意力模块(CAAM):通过空间权重强化关键区域特征,遮挡场景下分类准确率提升2.1%。
3. InstaBoost(上海交大MVIG团队)
- 性能提升:
- 在Mask R-CNN和Cascade R-CNN等框架中应用后,COCO实例分割任务提升2.2 mAP,目标检测任务最高提升4 mAP。
- 通过改进数据增强方法(如Matting和Inpainting),增强前景与背景的融合一致性,减少过拟合。
- 优势:
- 仅需替换数据加载函数(dataloader),训练时间每轮仅增加0.03秒,适合在线训练。
4. PMD-LAMB(中科院自动化所)
- 训练效率:
- 使用超大批次(batch size=1056)训练,COCO检测任务训练时间缩短至12分钟,实例分割任务17分钟。
- 在OpenImages数据集上实现10%以上的性能提升。
- 优化方法:
- 周期性矩衰减优化策略,解决大批次训练时的收敛问题。
5. DANet(双重注意力网络)
- 应用领域:
- 主要用于场景分割任务,在COCO Stuff数据集上达到SOTA性能,平均IoU显著提升。
- 通过空间和通道维度的注意力机制建模全局依赖关系。
总结
- 性能最优模型:D-FINE以59.3% AP和78 FPS的速度成为当前COCO目标检测的标杆。
- 效率与精度平衡:PMD-LAMB和InstaBoost分别通过训练优化和数据增强显著提升模型效率与精度。
- 技术趋势:动态图卷积、注意力机制、知识蒸馏和高效数据增强是提升COCO性能的主流方向。
如需具体模型的代码或训练细节,可参考各研究的开源仓库(如D-FINE的GitHub项目)。