标签归档:YOLO

深度学习之目标检测-YOLO算法(二)

上文我们介绍了目标检测和目标定位的基础知识,本文我们就正式开始介绍YOLO算法。YOLO全称是You Only Look Once,这个算法来源于Joseph Redmon等人在CVPR 2015上发表的一篇论文:You Only Look Once: Unified, Real-Time Object Detection,它不仅解决了目标边界框不精确的问题,而且算法速度也很快,下面让我们看看它是如何实现的。

基本思路

YOLO的基本思路是,把一个大的图像分割成更小更精细的n等份的网格,然后每个网格都打上标签,这个格子内是否有目标,目标的位置以及目标所属类别。为了简单起见,我们以\(3 \times 3\)的网格为例,实际使用中的表格会更精细,比如\(19 \times 19\),它们的示意图如下:

Imgur

这样一来输出层的大小就是\(3 \times 3 \times 8\)或者\(19 \times 19 \times 8\)。值得注意的是,YOLO算法是一个卷积实现,所以它的速度非常快,基本可以做到实时检测。还有一个小细节是,在计算每个格子中目标的位置时,我们不再以整张图标作为参考[……]

继续阅读

深度学习之目标检测-YOLO算法(一)

今天我们开始介绍Coursera-Deep Learning第四课卷积神经网络的week3的内容:目标检测,主要内容是YOLO算法。在详细介绍这个算法之前我们先普及一些目标检测的基本知识。

目标定位(Localization)

所谓的检测(Detection)指的是从一张图片中识别出是否存在某个目标,而目标定位(Localization)指的是在识别目标的同时,输出它在图像中的位置。我们知道使用神经网络进行目标检测是很容易的,那么如何进行目标定位呢?很简单,跟目标检测一样,我们不仅可以对图像内容打标签,还可以对它所在的位置打标签,然后通过神经网络训练,定位目标。所以,一个完整的Object Detection应该包括Detection和Localization两部分,结合起来后我们得到以下的label \(y\):

$$
y=\begin{bmatrix}
p_c\\
b_x\\
b_y\\
b_h\\
b_w\\
c_1\\
c_2\\
c_3
\end{bmatrix}
$$

其中,

  • \(p_c\)表示的是否有目标,0没有;1有
  • \(b_x\)和\(b_y\)表示该目[……]

    继续阅读