[关闭]
@Gizmosir 2016-03-27T12:33:23.000000Z 字数 3062 阅读 1536

date: 2016-03-27
categories: Image processing
tag: [Image restoration, Denoising, Filter]
mathJax: true
博客

title: Digital Image Processing —— 理解笔记(I)

前言

Digital Image Processing (by Rafael C. Gonzalez)一书可谓图像处理领域最经典的必读书目之一,也是很多大学的首选参考书目。作为架构体系的第一本书来说再合适不过了。更多关于这本书的信息可以点击这里

概要

首先来看下目录:

基于我自己对书的内容理解,我将该书分为以下五个部分:
1. 图像基础(Image fundamentals);
2. 图像压缩(Image Compression);
3. 图像增强(Image enhancement)与图像复原(Image restoration);
4. 图像分割(Image Sementation);
5. 图像理解(Image Understanding)。

可以看到我打乱了书的组织结构,是因为我按自己的理解对上述内容进行了难度排序,将较为简单的放在前面,把较为难的或者理解内容更多的部分放在后面。那么自然而然的,Digital Image Processing的理解笔记也会分成五篇。

我想有读者一定会发现,这五个部分几乎就覆盖了所有图像处理的研究领域。没错,的确是这样子的。但由于Digital Image Processing是一本比较基础的书,所以介绍的知识正好是能够搭建知识体系的基础。

图像基础(Fundamentals)

人眼模型

首先来看下实际上图像的定义:

图像是人对视觉感知的物质再现。图像可以由光学设备获取,如照相机、镜子、望远镜及显微镜等;也可以人为创作,如手工绘画。图像可以记录、保存在纸质媒介、胶片等等对光信号敏感的介质上。随着数字采集技术和信号处理理论的发展,越来越多的图像以数字形式存储。因而,有些情况下“图像”一词实际上是指数字图像。[1]

而从这本书的名字可以看出,往后我提到图像都特指数字图像。实际上图像可以看做再现人对物体的感知图像。所以首先来看看人眼的感知模型:

回忆下初中生物知识,人眼类似于凸透镜的结构。从上图中可以发现物体经过“透镜”(晶状体)聚焦后投影到视网膜上,像距通常在20毫米左右,而物距则为人到物体的距离。

人眼视网膜上有两种细胞,一种是对颜色比较敏感视锥细胞(Cones),主要集中在视网膜的中间部位;另一种是对亮度比较敏感的视杆细胞(Rods),主要分布在视网膜的四周,如上图所示。所以人眼的中间部分对颜色(细节)变换较为敏感,而人眼的四周对亮度变换更为敏感,所以下回星星太暗看不到可以试试看用眼的“余光”。

图像采集和获取(Image Sensing/Acquisition)

从人眼模型一节中可以知道,要重现图像则需要能够模拟两个最重要的器官——“晶状体”和“视网膜”。一般摄像机使用透镜(Lens)来模拟用于聚焦物像的晶状体;使用传感器(Sensor)来模拟用于物像投影面视网膜。

通常使用摄像头模型(Camera Model)来准确反映图像与实际物体之间的关联。但是其内容多而且比较复杂,也许以后会专门做与之相关的理解笔记。

传感器采集图像的示意图如上,实际上通常说的传感器是传感器矩阵(Array sensor),它包含很多能够感知光强度的传感单元(Single imageing sensor),也就是常说的像素。人眼通过采集物体的主动发射光或者反射光的能量“感知”物体。相似的,传感单元通过将照射到每个像素尺寸上的能量转化为电压的方式来“感知”物体。

摄像机生成的图像(简称图像)一般为2维的,所以通常使用$f(x,y)来表示某个坐标(x,y)点上的亮度(Intensity)。值得注意的是:

上式中为照度,为反射程度。该式称为表面光照模型,其意义表示物体的每个点上的亮度由照射到该点的灯光照度以及该点的表面反射度共同决定。

采样与量化(Sampling/Quantization)

在上一节中提到可以使用来表示每个像素的能量强度或者图像亮度。不难理解对于物体表面来说坐标肯定是连续的,其反射能量也是连续变换的,像下图(a)所示。

然而由于我们使用传感单元矩阵来采集图像强度,也就是说每个传感单元采集到的强度都是相同的,也就是说我们在物体的空间坐标连续分布变成了数字图像的离散分布,这个过程就叫采样。

同样的,为了使用数字图像来表示连续的物体光强变换,我们需要将图像的值连续分布变成了数字图像的离散分布,这个过程叫量化。

上图清晰地表示了采样以及量化的过程。物体图像本身是连续的,如上排两个图所示,然后对连续的值进行采样,也就是减少坐标的个数,然后将值转换成固定的数量值,也就是减少了值的个数。

上图清晰地表示了原物体图像与采样与量化后的数字图像的差别。

可以留言到的,上图中的网格数量越多,能够表达光强的值越多,图像会越高清,也就是越接近原物体图像。由于显示器的限制,所以我通常只使用8位来表示,而网格数量即常说的传感器分别率。800万,1200万的意思就是一片传感器上有800/1200万传感但愿。这也是为什么传感器厂商都致力于将像素数量提高到尽可能高的原因。

色彩空间(Color space)

RGB色彩空间

到目次为止,介绍的都是光强。而正如之前提到的,物体图像是由光强信息和颜色信息组合而成的。表示颜色的方法有很多种,首先介绍最常见的RGB色彩空间。

RGB色彩空间使用3个8位的数值来分布表示红色、绿色、蓝色的颜色强弱程度。并约定所有三个值均为0时为黑色,三个值均为255为白色。

上图被称为色彩立方体。立方体中的每个点都能够使用不同的RGB三个值组合得到。值得几点注意:
1. R、G、B是三个“轴”,之前的顺序无所谓,但之间一定互相垂直;
2. 位于立体方的最对角的颜色称为互补色,如上图中的K(黑色)和W(白色),B(蓝色)和Y(黄色);
3. K到W有一天线(图中黑色),该线上的所有点RGB值都相等,也就是说该线上的所有点都是只会有灰度值而“没有颜色”。

HSV色彩空间

另外一个常用的的色彩空间是HSV色彩空间(或者HSI),其也包含三个通道值,分布是色相(Hue)、饱和度(Saturation)、明度(Value/Intensity)。其效果如下图所示:

值得注意的是:
1. 不同于RGB值均为,色相的值的范围是,而饱和度和明度的值的范围均为
2. R、G、B分布位于色相的0˚、120˚和240˚的位置;
3. 饱和度越高,颜色越鲜艳;
4. 明度越高,光强越高。

不同于RGB使用三个通道来表示颜色,并且使用三个通道的均值来表示光强信息。HSV使用色相和饱和度来表示颜色信息,使用明度来表示光强信息。这么做有个好处就是能够有效的将这两个信息分开并分别进行处理。

如上图所示,我们不能仅根据RGB色彩空间中其中一路来对图像进行轮廓提取等图像处理但是却能够在HSV中的V通道完成。另外由于人眼对于光强变换比颜色变换更为灵敏,也就是说我们可以使用更少的值来表示颜色以达到压缩图像大小的目的。使用RGB色彩空间很难做到压缩空间的同时保留光强信息,而HSV色彩空间却可以。

参考及其他

[1]: Rafael C. Gonzalez, Digital Image Processing, 3rd.

[2]: 图像-维基

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注