位置: IT常识 - 正文

Yolov7-pose 训练body+foot关键点(yolo训练参数)

编辑：rootadmin

Yolov7-pose 训练body+foot关键点一、Yolov7介绍：

推荐整理分享Yolov7-pose 训练body+foot关键点(yolo训练参数)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:yolov3训练流程,yolov3训练,yolov2训练,yolov5训练命令,yolov5训练出来参数box,yolov2训练,yolov3训练过程,yolov5训练出来参数box,内容如对您有帮助，希望把文章链接给更多的朋友！

yolov7网络由三个部分组成：input，backbone和head，与yolov5不同的是，将neck层与head层合称为head层，实际上的功能的一样的。对各个部分的功能和yolov5相同，如backbone用于提取特征，head用于预测。

根据上图的架构图走一遍网络流程：先对输入的图片预处理，对齐成640*640大小的RGB图片，输入到backbone网络中，根据backbone网络中的三层输出，在head层通过backbone网络继续输出三层不同size大小的feature map（以下简称fm），经过RepVGG block 和conv，对图像检测的三类任务（分类、前后背景分类、边框）预测，输出最后的结果。

推荐yolov7 网络架构深度解析_所向披靡的张大刀的博客-CSDN博客

github在yolov7下面的pose部分

二、数据集准备

train 数据集基于coco_whole_body_train 改造。

原始格式

${POSE_ROOT}

|-- data

`-- |-- coco

`-- |-- annotations

| |-- coco_whole_body_train2017.json

| `-- coco_whole_body_val2017.json

|-- person_detection_results

| |-- COCO_val2017_detections_AP_H_56_person.json

`-- images

|-- train2017

| |-- 000000000009.jpg

| |-- 000000000025.jpg

| |-- 000000000030.jpg

| |-- ...

`-- val2017

|-- 000000000139.jpg

|-- 000000000285.jpg

|-- 000000000632.jpg

|-- ...

Json 信息

image：包含了，宽高，地址，图像名

annotations: 包含imageid iscrowd信息还有其他关键点的信息

"bbox": [

339.88,

22.16,

153.88,

300.73

Yolo的格式

`-- |-- annotations

| |-- person_keypoints_train2017.json

| `-- person_keypoints_val2017.json

|-- person_detection_results

| |-- COCO_val2017_detections_AP_H_56_person.json

`-- images

| |-- train2017

| | |-- 000000000009.jpg

| | |-- 000000000025.jpg

| | |-- ...

| `-- val2017

| |-- 000000000139.jpg

| |-- 000000000285.jpg

| |-- ...

`-- labels

| |-- train2017

| | |-- 000000000009.txt

| | |-- 000000000025.txt #这里面图片的keypoint信息，以YOLO格式展示

| | |-- ...

| `-- val2017

| |-- 000000000139.txt

| |-- 000000000285.txt #这里面图片的keypoint信息，以YOLO格式展示

| |-- ...

`-- train2017.txt #这里面放的内容是：相对路径+图片名字

`-- val2017.txt #这里面放的内容是：相对路径+图片名字

打开一个labels 下的000000391895.txt格式

0 0.651281 0.479236 0.240437 0.835361 0.575000 0.169444 1.000000 0.576562 0.144444 2.000000 0.000000 0.000000 0.000000 0.596875 0.133333 2.000000 0.000000 0.000000 0.000000 0.575000 0.233333 2.000000 0.679688 0.225000 2.000000 0.565625 0.347222 2.000000 0.696875 0.347222 2.000000 0.562500 0.425000 2.000000 0.000000 0.000000 0.000000 0.620313 0.463889 1.000000 0.685937 0.461111 1.000000 0.576562 0.536111 2.000000 0.720313 0.650000 2.000000 0.564063 0.683333 2.000000 0.740625 0.797222 2.000000

解析为：

这里看到bbox 不一致，查看官方给的解释是归一化了，具体算法如下

img = images['%g' % x['image_id']]

h, w, f = img['height'], img['width'], img['file_name']

# The COCO box format is [top left x, top left y, width, height]

box = np.array(x['bbox'], dtype=np.float64)

box[:2] += box[2:] / 2 # xy top-left corner to center

box[[0, 2]] /= w # normalize x

box[[1, 3]] /= h # normalize y

这边手动验证下

Weigth=640 heigth=360

Bbox=[339.88,22.16,153.88,300.73]