我们先整体来看下 YOLOv7的输入输出结构,首先对输入的图片 resize 为 640x640 大小,输入到 backbone 网络中,然后经 head 层网络输出三层不同 size 大小的 feature map,并输出预测结果,这里以 coco 为例子,输出为 80 个类别,然后每个输出 即坐标位置和是否存在物体的置信度,3 是指的 anchor 数量,因此每一层的输出为 x 3 = 255再乘上 feature map 的大小就是最终的输出了。