1 背景和意义
随着大数据时代的来临,视觉信息(图像、视频等)数据急剧增长,它们存在于相机、手机、平板电脑等设备中,可通过社交网站、直播软件等方式发布或者获取。而在实际应用领域,安防监控、图像搜索、工业视觉、人机交互、视觉导航、虚拟现实、生物医学、遥感测绘...各行各业可见其身影。视觉信息的处理过程可以简化为获取、压缩、传输、重建和处理几步,如下图所示:
计算机视觉研究课题又可以分为多种,当前比较热门的有:
人脸识别
图像分割
视觉内容自动问答
2 人类怎么“看”?
2.1 人类视觉系统(Human Visual System, HVS)
比较有名的人类视觉系统模型有两种,一个是 Laurent Itti 提出的 GIST 模型。另一个则是 Tomaso Poggio 提出的 HMAX模型 。详细的了解可以去阅读论文 [ Watson, Digital Images and Human Vision, 1993 ] [ Wandell, Foundations of vision, 1995 ] [ Marr, Vision,1982 ] 视觉信息的处理始于人眼,光刺激产生后,视网膜进行光电转码与编码,接着进行“模数”转换和产生神经脉冲。外侧膝状体(LGN)中继转发后,初级视觉大脑皮层 V1 方向选择细胞响应,从而对对象进行分类识别。
2.2 视网膜中的视觉感知器:柱状细胞 Rods vs. 锥状细胞Cones
视网膜(Rentina):视网膜是位于眼球后方负责将传入眼睛的光信号转化为生物电信号,并初步分析后将处理后的生物电信号通过视神经向外侧膝状体传递的神经网络结构。人眼在视网膜的柱状细胞和锥状细胞拥有色彩分化和深度意识的光感和光觉。
柱状细胞(Rods)和锥状细胞(Cones):锥状细胞对于亮度不敏感,主要在高亮度的时候工作,而柱状细胞可以在亮度较低时工作; 锥状细胞可以感知图像中的细节信息以及快速的变化,因为其对于刺激的响应比柱状细胞快。 锥状细胞有色觉而柱状细胞没有,它们的名称由形态决定,只是由于所含的感光色素不同才引起了不同的功能。人眼平均包含 5,000,000 个柱状细胞和 100,000,000 个锥状细胞。
图(1)显示的是显微镜下的两种细胞;图(2)表示锥状细胞在中央凹分布密集,而在视网膜周边区分布较少,中央凹处的锥状细胞与双极细胞、神经节细胞存在“单线联系”,使得中央凹对光的感受分别率高,而柱状细胞相反。直视情况下,视野中心落在中央凹上,对强光条件来说是有利的。
2.3 三原色原理
我们知道了锥状细胞对于感知颜色至关重要,Thomas Young 和 Hermann von Helmholtz 将其分为三类,它们对不同波长的色光感受能力各不相同。
上面是 S-cones / M-cones / L-cones 三种柱状细胞的波长响应,虚线为锥状细胞的波长响应。
思考:为什么人在看的时候,“盯着”的地方比较清晰,而周围的区域会模糊?
3 机器怎么“看”?
3.1 模拟图像 VS 数字图像
模拟图像是通过某种物理量的强弱变化来表现图像上各个点的颜色信息的,印刷品图像、相片、画稿上的图像都是模拟图像。数字图像则是指把图像分解成被称作像素的若干小离散点,并将各像素的颜色值用量化的离散值即整数值来表示的图像。数字图像完全是用数字的形式来表示图像上各个点的颜色信息的,它是信赖于计算机的,离开计算机就无从谈数字图像。
3.2 采样点数与图像质量之间的关系