图像处理与视觉感知---期末复习重点（8）-EW帮帮网

文章目录

一、图像分类流程
二、梯度方向直方图
三、SIFT

一、图像分类流程

流程：输入图像、预处理、特征提取、学习算法、类标。

在这里插入图片描述

二、梯度方向直方图

2.1 概述

1. 梯度方向直方图(Histogram of Oriented Gradient, HOG)：是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。HOG特征结合SVM分类器被广泛应用于图像识别中，尤其在行人检测。

特征描述子就是将图像抽取部分有用信息，丢掉不相关的信息。特征描述子可以将一个 $w e i g h t \times h e i g h t \times 3$ （宽×高×通道数量）的图像转换成一个长为 $n$ 的向量或矩阵。例如：一幅 $64 \times 128 \times 3$ 的图像，经过转换之后可以输出长度为 $3780$ 的图像向量，相比 $64 \times 128 \times 3$ 肯定是少了的。因为，特征描述子仅仅将所需要显示的图像保留下来了。

比如说，我们想知道一个人有没有带眼镜，在这种情况下，我们仅仅需要提取人的面部特征，并且进行边缘检测，这个时候，我们可以忽略掉图片的彩色特征，将照片转换成变成仅仅有边缘轮廓的特征图。这种特征图不仅仅数据量小，而且具有很强的目标指向性。

2. 算法思想：（1）HOG特征的核心思想是在一幅图像中，局部目标的表观和形状(appearance and shape)能够被梯度和边缘的方向密度很好地描述。（2）通过将整幅图像分为多个小的连通区域(单元，cells)，并计算每个cell的梯度或边缘方向直方图，这些直方图的组合可用于构成特征描述子，为了提高准确率，可以将局部直方图在图像更大范围内(块，block)进行对比度归一化(constrast-normalized)。

2.2 计算梯度方向直方图

2.2.1 过程

1. 预处理：patch可以是任意的尺寸，但是有一个固定的比例，比如当patch长宽比1:2，那patch大小可以是100×200、128×256或者1000×2000，但不可以是101×205（比例关系不对）。这里有张图是720×475的，我们选100*200大小的patch来计算HOG特征，把这个patch从图片里面抠出来，然后再把大小调整成64×128。

在这里插入图片描述

2. 计算梯度图像：首先我们计算水平和垂直方向的梯度，再来计算梯度的直方图。
(1) x轴方向的梯度主要凸显了垂直方向的线条；y轴方向的梯度凸显了水平方向的线条。
(2) 梯度幅值凸显了像素值有剧烈变化的地方。
(3) 图像的梯度去掉了很多不必要的信息(比如不变的背景色)，加重了轮廓。

在这里插入图片描述

3. 在每个单元（8×8大小像素）中计算梯度直方图：
(1) 图像会被分割成每个单元（ 8×8大小像素）。每个单元都会计算一个梯度直方图。
(2) 提供一个紧凑或压缩的表示：一个8×8的图像有8×8×3=192个像素值；每个像素有两个值：幅值magnitude和方向direction，3个通道只会将最大的梯度值以及方向角记录下来，加起来就是8×8×2=128。所以说实际的梯度直方图应当含有8×8×2=128个值。

在这里插入图片描述

(3) 对于64×128的这幅图像来说，每个单元（8×8大小）已经足够大来表示有趣的特征比如脸，头等等。

(4) 直方图是有9个bin的向量，角度：0,20,40,60…160。bin的值：每个角度对应的幅值之和。
以下图为例，此过程是根据梯度和角度来确定bin的过程。蓝色和红色分别是两个过程，先看蓝色。我们可以看到蓝色像素梯度值是2，方向为80°角，于是在第5个bin中加2；对于红色，角度为10、梯度值为4，但是bin中没有10，只有0和20，于是将梯度值分2份各分到bin里面的1和2当中。

在这里插入图片描述