通用视觉目标识别的关键技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：yhmlivefor49

【摘要】

：

图像数据规模化发展使得图像的有效组织和分类成为迫切需要,而通用目标和场景的识别实际上是图像组织和分类任务的具体化。因此,近年来图像和场景识别作为计算机视觉领域的一

【作者】

：

黄双萍

【出处】

：

华南理工大学

【发表日期】

：

2011年期

【关键词】

：

通用视觉目标识别特征融合语义模型生物启发特征在线学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图像数据规模化发展使得图像的有效组织和分类成为迫切需要,而通用目标和场景的识别实际上是图像组织和分类任务的具体化。因此,近年来图像和场景识别作为计算机视觉领域的一个重要组成部分而异常活跃。计算机视觉理想化的最终目标是无限接近甚至在某些方面超越人类视觉能力。人类视觉在进行类别识别时有如下特性:能识别的目标种类数高达30,000类,对新类的识别只需要少量的样本,新类别识别过程迅速,对类内变化,旋转等因素都具有很强的不变性。因此,上述人类视觉特性也成为计算机视觉领域研究者孜孜以求的目标。近年来,目标和场景分类取得了一定的成果,但无论从数据规模,识别性能,算法的通用性和效率等方面都远远达不到“通用”识别的要求,该课题的研究空间还很大。论文从通用视觉目标识别的两个主要环节“特征分析”和“分类模型”展开研究,致力于研究特征描述语义化、生物启发特征、多特征融合、多核机器学习、在线学习、多示例多标注识别等视觉目标识别领域中关键技术,主要工作包括:1.提出基于PLSA语义模型的多示例包生成器,并将之应用于多示例多标注识别系统中,取得了优异的识别性能。在多示例多标注识别系统中,多示例图像包生成器是该系统中的图像表达形式,也是决定系统性能的重要环节。本论文对目前主流的多示例包生成器“基于像素块的包生成器”,“基于滤波输出的包生成器”,“ImaBag”,“JSEG-Bag”,“Attention-Bag”等进行全面的比较研究,总结出多示例包生成器的设计应考虑的两个要素:示例区域提取和示例表达,其中示例区域提取应覆盖图像中的语义区域,而示例描述应反映关键鉴别信息,对噪声有一定容错能力,并从底层像素级特征描述向中间语义级发展。在此基础上我们提出利用PLSA语义模型,训练得到示例的中间语义表达,形成图像的多示例语义包,进行多示例多标注场景的识别。该方法与目前性能最好的ImaBag方法比较,平均识别精度提升8.9%。2.提出融合简单颜色或形状特征来改善生物启发特征的识别性能。生物启发特征(BIM)是一种基于灵长类动物视觉皮层机理的特征提取方式,该特征模拟人类视觉皮层的前向和分层工作模式,取得了良好的图像分类效果。然而,BIM特征形成过程中的随机学习造成了该特征的不足。当试图增大原型数换取特征性能鲁棒时,特征提取过程计算复杂度提高,特征维剧增,这将加重后续分类器的负荷。另外,特征中含有大量的冗余信息,反倒劣化BIM特征的识别性能。因此,论文提出选取合适的原型数目,通过集成简单颜色或形状特征,来改善识别系统的性能,取得了良好的效果。例如,我们将该方法用于OT场景数据库时,识别性能提高了10.4%。3.提出一种融合颜色或形状特征与BIM特征以进行多标注视觉目标识别的方法。该方法在多示例包生成器框架下进行多特征融合的探索工作。实验证明,将BIM引入到多示例多标注系统中,与颜色,形状等信息进行加权融合生成多示例包,取得了较好的多标注系统的识别效果。对场景识别平均识别精度提高将近6%,对多标注目标识别提高16.3%。4.提出了在线式高效优化异质特征融合机(OLHFFM)学习算法。异质特征融合机是一种基于多核概念,但超越多核学习的一种模型。本文实现该模型的批处理式优化算法“组坐标梯度下降算法”(BCGD),并在目标和场景识别中进行大量的实验验证,实验表明了该方法在异质特征融合上的有效性,并摸索出细致的异质特征核融合规律。然而,BCGD算法对大规模数据和在线式样本获取的工作模式下无效。因此,本文提出了在线式学习算法OLHFFM,高效优化HFFM模型。该算法给出了“基于多核的groupLASSO正则化模型”的通用在线式解法,我们可以方便地采用该算法求解一类通用多核模型,即损失函数可以是可导的任意函数(例如Logistic函数、Square loss函数等),同时可以方便地将其推广到“稀疏groupLASSO”等更多的正则化情形下。论文将该算法在较大规模的视觉目标场景图像识别上进行实验验证,取得了很好的识别结果。通过多Pass策略模拟了“万”级规模的样本数,在67类的场景数据库上进行实验验证,均取得了较好的识别性能。在通用视觉目标识别领域,图像表达的语义化趋势、多特征融合趋势、识别方法(包括特征提取和分类器)基于生物机理的趋势、在线式学习趋势等是通用视觉目标的重要技术发展方向,值得进一步深入研究。

其他文献

哲学视域下的人工智能假设探析

人工智能与哲学紧密联系,人工智能中的算法与逻辑学密切相关,智能机器的意向性问题与心灵哲学相关等等。但人工智能发展之初学者关心的是技术问题,对哲学思考略显薄弱,随着人

期刊

人工智能人工智能哲学形式化意向性

闾丘露薇:“战地玫瑰”坚信爱情再披婚纱

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

凤凰卫视主持人巴格达哈佛大学伊拉克

上海优质医疗资源应均衡布局

医疗卫生关系到全民健康，是一项重大民生问题，因此必须对医疗资源公平性进行长期关注，不断推进公平和谐的医疗卫生服务体系的建立与健全，让广大百姓公平分享与经济发展和社会文明

报纸

原发性癫痫患者脑脊液气体分析对临床治疗的意义(附129例报告)

我院于1987年8月～1989年8月对124例难治性原发痫癫患者,在接受脑立体定向术中取脑脊液进行气体分析,共测定pH值,氧分压(PO_2),二氧化碳分压(PCO_2),碳酸氢根(HCO_3),二氧化碳

期刊

原发性癫痫震颤麻痹小发作抗癫痛药物气体分析临床治疗

搜寻外星人加密信息

日前,澳大利亚天体生物学家戴维斯在最新一期<新科学家>杂志上发表了一个惊人观点:外星文明也许早将他们的信息写进了人类的细胞DNA中.这一消息的刊出,无异于一石激起千层浪,

期刊

信息外星人加密搜寻《新科学家》外星文明生物学家澳大利亚物质世界DNA戴维斯

沥青混凝土路面施工中的质量控制措施

首先阐述了沥青混凝土路面常见病害及原因,通过对路面不平和路面破损两种病害形式的原因进行了分析,其主要是由施工不规范和材料质量问题引起的。然后从摊铺机械和材料的使用

期刊

沥青混凝土路面碾压施工

骨代谢与免疫功能的相互调节

骨骼与免疫系统在细胞起源、空间分布、功能及调控等方面存在许多相似性,尤其是近年来对OPG/RANKL/RANK系统研究的深入,使我们对骨与免疫系统间的相互作用机制有了更进一步

期刊

骨保护素肿瘤坏死因子核因子κB免疫系统细胞分化

通用视觉目标识别的关键技术研究

其他学术论文