Yolov8和Yolov10的差异以及后处理实现

yolov8,yolov10 · 浏览次数 : 0

小编点评

本文主要介绍了Yolo模型的发展历程、数据集、模型变体以及动态/静态模型。Yolo模型自2015年以来,已经发布了多个版本,每个版本都在性能和效率上有所提高。数据集方面,COCO和Open Image V7是常用的两个数据集,分别用于训练和验证模型。模型变体方面,文章列出了几个不同版本的模型及其特点,包括针对资源受限环境的纳米版本、平衡速度和准确度的小型版本、通用用途的中型版本等。动态/静态模型则是指模型可以导出为静态模型或动态模型,前者对输入尺寸敏感,后者则没有限制。本文还对Yolo模型的后处理代码进行了简要介绍。总结来说,Yolo模型不断发展,各个版本在性能和适用场景上有所差异,用户可以根据需求选择合适的数据集和模型版本。

正文

Yolo模型可分为4个维度的概念

模型版本、数据集、模型变体(Variants)、动态/静态模型。

Yolo各模型版本进展历史

Yolov(2015年华盛顿大学的 Joseph Redmon 和 Ali Farhadi 发布)
Yolov2(2016年Joseph Redmon发布)
Yolov3(2018年Joseph Redmon发布)
Yolov4(2020年Alexey Bochkovskiy发布)
Yolov5(2018年Glen Jocher发布)
Yolov6(2022年美团团队发布)
Yolov7(2022年WongKinYiu发布)
Yolov8(2023年Ultralytics发布)
Yolov9(2023年发布)
Yolov10(2024年清华大学团队发布)
其中Yolov10是刚刚2024年5月底才刚发布的,其中v10实现了一个无NMS的架构,具有一致的双重分配,显著减少了后处理时间,并改善了整体延迟,让后处理变得更简单很多。

数据集(用于训练)

COCO(Common Objects in Context)

COCO旨在鼓励对各种对象类别的研究,通常用于对计算机视觉模型进行基准测试。
COCO 包含 330K 张图像,其中 200K 张图像带有对象检测、分割和字幕任务的注释。
该数据集仅包含 80 个对象类别,包括汽车、自行车和动物、雨伞、手提包和运动器材等常见对象。
用途主要是拿来比较各种AI模型的优劣的,不适合实际商业用途。
COCO数据集下载地址:https://cocodataset.org/#download

OIV7(Open Image V7 )

Open Image V7 是 Google 倡导的多功能、广泛的数据集。它旨在推动计算机视觉领域的研究,拥有大量标注有大量数据的图像900万张,在边界框标注的 190 万张图像中,支持涵盖 600 个对象类别,包含的 1600 万个边界框。这些边界框主要由专家手工绘制,确保高精度。数据集总体积有561GB。
数据集下载地址:https://storage.googleapis.com/openimages/web/download_v7.html

注:目前Yolov8有Open Image V7和COCO两种数据集已经有别人训练好了的权重文件。
而Yolov10因为是刚出来只找到COCO一种数据集训练好的权重文件,也就是说Yolov10只能识别80种物体,除非我们自己去训练。

模型变体(Variants)

下面只列出来我有尝试过导出了的:
YOLOv8-N / YOLOv10-N:适用于资源极其受限的环境的纳米版本。
YOLOv8-S / YOLOv10-S:平衡速度和准确度的小型版本。
YOLOv8-M / YOLOv10-M:适用于通用用途的中型版本。
YOLOv10-B:平衡版本,宽度增加,准确度更高。
YOLOv8-L / YOLOv10-L:大型版本,以增加计算资源为代价,实现更高的准确度。
YOLOv8-X / YOLOv10-X:超大型版本,可实现最大准确度和性能。
注:v10有6种,v8只有5种。
 
v8和v10的coco数据集分别占体积大小见下截图:

动态/静态模型

模型支持导出成静态模型和动态模型,静态模型是[1,3,640,640],要求宽高符合32对齐。
动态模型则没有要求,其中v8的动态模型会随着输入尺寸不同,输出的尺寸会跟着变化。
而v10输入尺寸无论怎样,输出的尺寸都是固定的[1,300,6]。
我已将动态静态两种处理方式都融合在一份代码上,根据加载后的模型推理后的输出长度是否等于1800来判断是否是v10,均可在其内部进行处理。

 

Demo截图

 

Yolov8的后处理代码:

std::vector<YoloResult> filterYolov8Detections(
    float* inputs, float confidence_threshold,
    int num_channels, int num_anchors, int num_labels,
    int infer_img_width, int infer_img_height
    )
{
    std::vector<YoloResult> detections;
    cv::Mat output =
        cv::Mat((int)num_channels, (int)num_anchors,
                CV_32F, inputs).t();

    for (int i = 0; i < num_anchors; i++) {
        auto  row_ptr    = output.row(i).ptr<float>();
        auto  bboxes_ptr = row_ptr;
        auto  scores_ptr = row_ptr + 4;
        auto  max_s_ptr  = std::max_element(scores_ptr, scores_ptr + num_labels);
        float score      = *max_s_ptr;
        if (score > confidence_threshold) {
            float x = *bboxes_ptr++;
            float y = *bboxes_ptr++;
            float w = *bboxes_ptr++;
            float h = *bboxes_ptr;

            float x0 = std::clamp((x - 0.5f * w), 0.f, (float)infer_img_width);
            float y0 = std::clamp((y - 0.5f * h), 0.f, (float)infer_img_height);
            float x1 = std::clamp((x + 0.5f * w), 0.f, (float)infer_img_width);
            float y1 = std::clamp((y + 0.5f * h), 0.f, (float)infer_img_height);

            cv::Rect_<float> bbox;
            bbox.x      = x0;
            bbox.y      = y0;
            bbox.width  = x1 - x0;
            bbox.height = y1 - y0;
            YoloResult object;
            object.object_id = max_s_ptr - scores_ptr;
            object.score = score;
            object.box = bbox;
            detections.emplace_back(object);
        }
    }
    return detections;
}

Yolov10的后处理代码:

std::vector<YoloResult> filterYolov10Detections(
    const std::vector<float> &inputs, float confidence_threshold)
{
    std::vector<YoloResult> detections;
    const int num_detections = inputs.size() / 6;
    for (int i = 0; i < num_detections; ++i)
    {
        float left = inputs[i * 6 + 0];
        float top = inputs[i * 6 + 1];
        float right = inputs[i * 6 + 2];
        float bottom = inputs[i * 6 + 3];
        float confidence = inputs[i * 6 + 4];
        int class_id = inputs[i * 6 + 5];

        if (confidence >= confidence_threshold)
        {
            cv::Rect_<float> bbox;
            bbox.x = left;
            bbox.y = top;
            bbox.width = right - left;
            bbox.height = bottom - top;
            detections.push_back({class_id, confidence, bbox});
        }
    }
    return detections;
}

 

 

与Yolov8和Yolov10的差异以及后处理实现相似的内容:

Yolov8和Yolov10的差异以及后处理实现

Yolo模型可分为4个维度的概念 模型版本、数据集、模型变体(Variants)、动态/静态模型。 Yolo各模型版本进展历史 Yolov(2015年华盛顿大学的 Joseph Redmon 和 Ali Farhadi 发布)Yolov2(2016年Joseph Redmon发布)Yolov3(20

【OpenVINO™】在 C# 中使用OpenVINO™ 部署PP-YOLOE实现物体检测

PP-YOLOE是基于PP-YOLOv2的优秀单级无锚模型,超越了各种流行的YOLO模型。PP-YOLOE有一系列型号,命名为s/m/l/x,通过宽度乘数和深度乘数进行配置。PP-YOLOE避免使用特殊的运算符,如可变形卷积或矩阵NMS,以便友好地部署在各种硬件上。 在本文中,我们将使用OpenVI...

yolov5 损失函数代码详解

模型的损失计算包括3个方面,分别是: 1. 定位损失 2. 分类损失 3. 置信度损失 本篇主要讲解yolov5中损失计算的实现,包括损失的逻辑实现,张量操作的细节等。

yolov5 筛选正样本流程 代码多图详解

正样本全称是anchor正样本,正样本所指的对象是anchor box,即先验框。 先验框:YOLO v2吸收了Faster RCNN的优点,设置了一定数量的预选框,使得模型不需要直接预测物体尺度与坐标,只需要预测先验框到真实物体的偏移,降低了预测难度。

yolov1-yolov5 网络结构&正负样本筛选&损失计算

学习yolo系列,最重要的,最核心的就是网络模型、正负样本匹配、损失函数等三个方面。本篇汇总了yolov1-yolov5等5个版本的相关知识点,主要看点是在yolo框架搭建。初学者可以通过相关篇章搭建自己的知识点框架,然后再深入各个知识点,就像攻克一个又一个山头。当大部分的知识点都了然于胸,yolo...

【jetson nano】yolov5环境配置tensorrt部署加速

安装pytorch Nano上预装的Jetpack版本为4.6.1,Python为3.6.9,CUDA环境为10.2。在PyTorch for Jetson中可以下载不同版本的torch,torch<=1.10.0。 1 安装torch1.8.0 # substitute the link URL

AI开发实践:关于停车场中车辆识别与跟踪

摘要:本案例我们使用FairMOT进行车辆检测与跟踪、yolov5进行车牌检测、crnn进行车牌识别,在停车场入口、出口、停车位对车辆进行跟踪与车牌识别,无论停车场路线多复杂,小车在你掌控之中! 本文分享自华为云社区《AI寻车》,作者:杜甫盖房子。 本案例我们使用FairMOT进行车辆检测与跟踪、y

基于ModelArts进行流感患者密接排查

摘要:针对疫情期间存在的排查实时性差、排查效率低、无法追踪密接者等问题,可以使用基于YOLOv4的行人检测、行人距离估计、多目标跟踪的方案进行解决。 本文分享自华为云社区《基于ModelArts进行流感患者密接排查》,作者:HWCloudAI。 目前流感病毒患者密接难以排查,尤其是在人流量大的区域,