论文部分内容阅读
人自出生以来,即靠视觉来观察周围环境并获取知识,人类有90%的信息来自视觉,视觉的损伤给人类的生活带来极大的不幸。随着全球人口的老龄化,盲人和视力低下的人数不断攀升。因此研究人员一直在不断探索用其他的感觉器官来获得视觉信息的方法。通过其他感觉器官获得视觉信息的关键是将视觉信息变成其他感觉器官能够感知的信号,完成这一功能的装置即为导盲系统。随着计算机视觉技术的进步和数字图像处理算法的完善,视频输入听觉显示(Video Input and Auditory Display, VIAD)的导盲系统以其输入信息丰富、无创伤等优点,得到了研究人员的广泛关注。而现有的VIAD导盲系统的核心算法主要存在下面两方面的问题:第一,多数以障碍物的检测为核心,忽视了图像中非障碍物的信息,也忽略了盲人对“听”到的信息的推理能力;第二,多数算法以图像的初级特征为映射对象,这种初级特征映射的方式使合成的声音很复杂,盲人很难学习和掌握。针对上述问题,本文以视频序列中的静态图像特征为映射对象,研究对于VIAD导盲系统更加有效的图像处理方法和听觉显示方式,降低盲人学习和使用导盲系统的难度,为盲人提供更加丰富的图像信息。本文主要完成了下列工作:(1)针对图像分割中目标类和背景类数目的不平衡性,提出了具有动态惩罚因子的支持向量机(Support Vector Machine with Dynamic Penalty Factors, DC-SVM)模型。将惩罚因子的选择与每一类的训练样本占总训练样本的比率直接相关。该模型能够有效提高数目较少的类的分类正确率。应用DC-SVM模型进行图像分割,去除图像中的背景信息,将图像中的目标映射为复合频率的声音信号。盲人经过学习和训练之后,能够通过听这种声音感知来自外界环境的主要信息。(2)针对各向异性扩散冲击滤波器(Anisotropic Diffusion with Shock Filter, ADSF)模型在图像增强过程中产生的图像细节模糊的问题,提出了一种梯度控制的各向异性扩散冲击滤波器(Gradient Controlled Anisotropic Diffusion with Shock Filter, GCADSF)模型。该模型通过一个随梯度的模单调递减的指数函数控制扩散项沿垂直于图像梯度方向的扩散程度,在增强边缘、滤除噪声的同时很好的保护了图像细节信息。为了满足多尺度乐音显示算法对图像的要求,将提升小波变换与GCADSF算法相结合,实现了图像的降维增强。降维增强后的图像通过多尺度乐音显示算法映射为电子音符。这种导盲算法听感良好,长时间使用不会造成疲劳。(3)根据初级视觉皮层的感受野特性,提出了一种基于边缘基函数重构的图像边缘检测方法。将图像分解为ICA基函数的线性组合,用典型的边缘图像进行训练,获得ICA边缘基函数,利用边缘基函数重构获得边缘图像。由于ICA基函数很好的模拟了初级视觉皮层的感受野特性,因此这种方法检测的边缘更加符合人眼的视觉特性。将小波变换和Canny算法相结合,提出了一种基于小波变换和Canny算法的边缘检测方法。对图像小波变换的低频成分应用Canny算法检测图像边缘,在降低图像维度的同时,有效的抑制了图像中噪声的影响。二值化的边缘图像通过MIDI乐音显示算法映射为不同音色和音调的MIDI乐音。这种导盲算法在帮助盲人识别图像中的几何图形时取得了较高的识别率。(4)将Itti视觉注意模型引入到导盲算法的研究中,认为引起人的视觉注意的区域(Region of Interest, ROI)包含图像的重要信息。提取这些ROI区域的颜色、位置和尺寸特征进行映射。根据ROI区域的颜色分布特征,提出了提取ROI区域主颜色的滤波、膨胀及颜色直方图(Filter, Dilation and Histogram, FDH)算法。并引入了声源位置作为映射参数,通过3D立体声显示算法将ROI区域的颜色、位置和尺寸特征映射为从特定方向发出的、具有一定音高的音符。这种导盲算法能为盲人选取图像中最重要的信息进行映射,是一种高效的导盲算法。