目标检测是属于计算机视觉范畴的重要研究方向,传统目标检测主要是基于统计或知识的方法,近年来,随着深度学习的发展,对目标检测的研究逐渐由传统机器视觉算法转移到深度神经网络方向。
计算机理解图像的任务表述可以分为分类、检测、语义分割、实例分割4个层次,目标检测是其中一个层次。
图1:图像理解的4个层次 图片来源:[1]
a是分类(Classification),是将图像分成不同的类别,只需输出图像对应的类别,是最基础的图像理解任务,在应用领域,人脸识别、手势识别等都可以归为分类任务。
b是检测(Detection), 检测是要根据大量预定义的类别同时获得同一帧图像中各种目标的类别信息和位置信息,需要从图像分离出目标并输出这一目标的类别和位置,检测模型的输出通常是包含类别和位置的数据列表。
c是语义分割(Semantic segmentation),语义分割是是对前背景分类的拓展,要分离开具有不同语义的图像部分,也可对图像像素级描述。
d是实例分割(Instance segmentation),实例分割是检测任务的拓展,要分离背景并描述出目标的轮廓,对图像像素级描述,适用于理解要求精细的场景。
一)传统目标检测
1、基于知识的方法
核心思想是模块化。以人脸检测为例,它将人脸划分成眼、鼻、嘴等各个模块的组合,利用先验知识来识别各个模块,同时基于各个模块之间的距离来进行人脸的识别。
2、基于统计的方法
主要基于统计学习,将整个待检测图片看作一个像素矩阵,利用其统计特性结合一些机器学习的算法进行识别,例如Fisher线性判别。
二)深度学习目标检测
1.单阶段(one-stage)检测模型
单阶段模型没有中间的区域检出过程,直接从图片获得预测结果,也被称为Region-free方法,单阶段模型只进行一次类别预测和位置回归,卷积运算的共享程度更高,拥有更快的速度和更小的内存占用。代表算法有YOLO、SSD算法等。
图2:YOLO网络架构 图片来源:[2]
YOLO论文链接:https://arxiv.org/abs/1506.02640
图3:SSD网络架构 图片来源:[3]
SSD论文链接:https://arxiv.org/abs/1512.02325
2. 两阶段(two-stage)检测模型
两阶段模型对图片分两阶段处理,也称为基于区域(Region-based)的方法。例如RCNN是先提出若干可能包含物体的候选区域(即图片的局部区域,称为Region Proposal),RCNN使用的是Selective Search算法;再在提出的这些区域上运行分类网络检测出每个区域的物体。代表算法有RCNN、Fast-RCNN、Faster-RCNN 等。
图4:RCNN网络架构 图片来源:百度
RCNN论文链接:https://arxiv.org/abs/1311.2524
图5:Fast-RCNN网络架构 图片来源:百度
Fast-RCNN论文链接:https://arxiv.org/abs/1504.08083
进入深度学习时代以来,目标检测发展主要集中在两个方向:第一种是one stage算法,如YOLO系列,这类算法会直接在网络中提取特征来预测物体分类和位置,这类算法速度快,但是准确性要低一些。第二种是two stage算法,如RCNN系列,这类算法需要先生成region proposal(目标候选框),然后再对候选框进行筛选、分类和回归,这类算法准确度较高,但是速度相对较慢。
随着科技的发展,相信计算机视觉技术可以帮助我们提取、分析和理解更多更有用的信息,使我们的生活越来越智能化。
图6:Faster-RCNN网络架构 图片来源:
Faster-RCNN论文链接:https://arxiv.org/abs/1506.01497
[1]从R-CNN到RFBNet,目标检测架构5年演进全盘点
[2] You Only Look Once:Real-Time Object Detection
[3] SSD: Single Shot Multibox Detector