位置: IT常识 - 正文

【计算机视觉】目标检测—yolov5自定义模型的训练以及加载(计算机视觉就业前景)

编辑：rootadmin

【计算机视觉】目标检测—yolov5自定义模型的训练以及加载 1.摘要

推荐整理分享【计算机视觉】目标检测—yolov5自定义模型的训练以及加载(计算机视觉就业前景)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:计算机视觉就业前景,计算机视觉的未来发展方向有哪些,计算机视觉技术的应用,计算机视觉技术,计算机视觉的未来发展方向有哪些,计算机视觉就业前景,计算机视觉技术,计算机视觉技术的应用,内容如对您有帮助，希望把文章链接给更多的朋友！

目标检测是计算机视觉主要应用方向之一。目标检测通常包括两方面的工作，首先是招到目标，然后就是识别目标。目标检测可以分为单物体检测和多物体检测。常用的目标检测方法分为两大流派：一步走（one_stage）算法：直接对输入的图像应用算法并输出类别和相应的定位，典型的算法有yolo，ssd；两步走（two_stage)算法：先产生候选区域，然后在进行CNN分类，代表的算法有R-CNN。本文重点讲述yolov5如何应用在实际项目中，主要包括两大部分，第一部分：如何使用yolov5训练自定义模型；第二部分：选练好自己的模型，如何加载并解读模型。

2.yolov5训练自定义模型【计算机视觉】目标检测—yolov5自定义模型的训练以及加载(计算机视觉就业前景)

首先，去yolov5官网（https://github.com/ultralytics/yolov5）进行下载官方文件，也可以通过克隆地址（git clone https://github.com/ultralytics/yolov5.git）进行获取，并且下载预训练权重文件，放到yolov5文件下。结果如图：下载好所有的文件后，接下来，我们需要进行配置环境，yolov5要求python>=3.7，pytorch>=1.7，我们可以通过 pip3 install -r requirements.txt进行其他安装包的安装，完成这些安装后，我们可以通过运行yolov5底下的detect.py文件来查看，环境是否配置成功。如果成功，则可以对data/image下的图片文件完成检测。原始模型可以识别80类目标，如下：通过以上，我们可以检测预训练模型里面的目标，比如：球，人，大巴车等等，那该如何训练我们自己的数据集呢？通过labelImg将图片标注好，标签格式为yolo格式标签。将标注好的数据放在datasets/dataset_new/images，标签放在datasets/dataset_new/labels，各自底下分别有train,test,val三个文件。image格式为jpg格式，labels为文本文档。一个图一个txt标注文件，每行一个物体，每行数据格式：类别id、x_center y_center width height，xywh必须归一化（0-1），其中x_center、width除以图片宽度，y_center、height除以画面高度，类别id必须从0开始计数。如下图所示。准备好datasets文件后，将yolov5同级目录。YOLO会自动将…/datasets/dataset_new/images/train/1.jpg中的/images/替换成/labels/以寻找它的标签，如…/datasets/dataset_new/labels/train/1.txt。准备好数据集后，将yolov5/data/coco128.yaml复制一份，重新命名为coco_1.yaml，并修改里面的文件路径和类别名称、数目。复制models下对应模型的yaml文件，重命名，并修改nc值。数据准备完成，模型需要修改的参数也完成了修改，接下里我们可以进行训练了train.py。我们可以对trian.py里面的参数（如下图）按照自己的想法进行修改，也可以选择默认值。训练需要一些时间，训练完成后，将得到我们需要的pt文件。下一步我们将加载与解读我们的模型。

3.模型的加载与解读

使用torch.hub.load()加载我们训练好的模型，如下，通过torch.hub.load进行加载模型，将图片导入，得到的results。可以通过results.pandas().xyxy[0]解读，结果是个张量，前四列为目标框的左上角和右下角，confidence为置信度，class为类别编号，name为类别名称。

import torch# Modelmodel = torch.hub.load('ultralytics/yolov5', 'yolov5s')# Imageim = 'https://www.yuucn.com/wp-content/uploads/2023/04/1681889905-fc0dd6fac1776eb.jpg'# Inferenceresults = model(im)results.pandas().xyxy[0]# xmin ymin xmax ymax confidence class name# 0 749.50 43.50 1148.0 704.5 0.874023 0 person# 1 433.50 433.50 517.5 714.5 0.687988 27 tie# 2 114.75 195.75 1095.0 708.0 0.624512 0 person# 3 986.00 304.00 1028.0 420.0 0.286865 27 tie

下面，是我加载自己训练模型的演示结果：

import cv2import torchimport timeimport numpy as npmodel = torch.hub.load('./yolov5', 'custom', path='./weights/yolov5n_1.pt',source='local')model.conf = 0.4cap = cv2.VideoCapture(0)fps_time = time.time()while True: ret,frame = cap.read() frame = cv2.flip(frame,1) img_cvt = cv2.cvtColor(frame,cv2.COLOR_BGR2RGB) results = model(img_cvt) # print(results.pandas().xyxy[0].to_numpy())# tensor-to-numpy results_ = results.pandas().xyxy[0].to_numpy() i = 0 for box in results_: l,t,r,b = box[:4].astype('int') confidence = str(round(box[4]*100,2))+"%" cls_name = box[6] if cls_name == "person": i += 1 cv2.rectangle(frame,(l,t),(r,b),(0,255,0),2) cv2.putText(frame,cls_name + "-" + confidence,(l,t),cv2.FONT_ITALIC,1,(255,0,0),2) cv2.putText(frame, "person:"+str(i), (10, 20), cv2.FONT_ITALIC, 1, (0, 0, 0), 2) now = time.time() fps_txt = 1/(now - fps_time) fps_time = now cv2.putText(frame,str(round(fps_txt,2)),(50,50),cv2.FONT_ITALIC,1,(0,255,0),2) cv2.imshow("result",frame) if cv2.waitKey(10) & 0xFF == ord("q"): breakcap.release()cv2.destroyAllWindows()