内容简介
《多源夜视图像认知计算理论与方法——认知计算与挖掘学习(第二版)》较全面地论述认知计算在夜视图像处理中的前沿理论与方法。主要内容包括仿生视觉感知机理、夜视图像视觉增强、夜视图像视觉特征提取、夜视图像显著检测、非训练夜视目标认知检测、时-空-谱夜视目标识别定位、数据驱动的多源夜视增强与信息融合感知等。《多源夜视图像认知计算理论与方法——认知计算与挖掘学习(第二版)》反映了国内外发展现状和*新成果,也包含了作者近年来在这一领域的主要研究成果。
目录
目录
前言
第1章 绪论 1
1.1 多源夜视图像视觉认知学习的研究内容 2
1.2 夜视图像融合与视觉认知计算 3
1.3 仿生视觉认知计算模型方法 5
1.3.1 元胞自动机理论.7
1.3.2 非**感受野机制 8
1.3.3 视觉稀疏感知特性理论 10
1.3.4 视觉注意机制 11
1.3.5 What/Where视觉感知过程 13
1.3.6 视觉层次认知学习过程 14
1.3.7 脑认知过程 15
1.4 视觉认知计算的夜视应用 18
1.4.1 基于稀疏表示的图像降噪 19
1.4.2 基于非**感受野的轮廓提取 20
1.4.3 基于视觉特征的超分辨率重建 21
1.4.4 基于视觉注意的显著检测 22
1.4.5 基于稀疏分类的目标识别 25
1.4.6 基于层次化认知的目标检测定位 26
1.4.7 基于多模态深度特征增强的全天时视觉感知 28
1.5 本书概述 30
参考文献 31
第2章 夜视图像视觉增强 41
2.1 夜视图像特性分析 41
2.1.1 微光图像噪声分析 41
2.1.2 红外图像特征分析 43
2.2 基于局部稀疏结构的降噪增强模型 46
2.2.1 局部结构保持稀疏编码 46
2.2.2 核化局部结构保持稀疏编码 48
2.2.3 编码实现 49
2.2.4 局部稀疏结构降噪模型 54
2.3 基于分层的红外图像增强模型 58
2.3.1 图像结构层 59
2.3.2 图像纹理层 60
2.3.3 基于结构约束的图像层整合 62
2.4 基于元胞自动机的红外图像增强模型 62
2.4.1 基于梯度分布的先验知识 63
2.4.2 基于梯度分布残差的先验知识 64
2.4.3 迭代准则 64
2.5 实验结果与分析 65
2.5.1 基于局部稀疏结构降噪模型 65
2.5.2 基于分层的红外图像增强模型 75
2.5.3 基于元胞自动机的红外图像增强模型 79
2.6 本章小结 82
参考文献 82
第3章 夜视图像视觉特征提取 86
3.1 活动轮廓模型 86
3.1.1 SLGS模型 86
3.1.2 LBF模型 88
3.2 基于nCRF的夜视图像显著轮廓提取 89
3.2.1 基于WKPCA同质度校正nCRF抑制模型的微光图像显著轮廓提取 90
3.2.2 基于nCRF复合模型的复杂场景下夜视图像显著轮廓提取 105
3.2.3 两种模型对降噪前后微光图像轮廓提取效果比较 120
3.3 基于主动轮廓模型的光谱图像分割 121
3.3.1 自适应的基于多维特征的主动轮廓模型 121
3.3.2 基于空间–光谱信息的主动轮廓分割模型 134
3.4 本章小结 144
参考文献 145
第4章 数据驱动的夜视增强与特性建模 149
4.1 基于照明场重建的低照度图像增强 149
4.1.1 重照明原理与定义 149
4.1.2 光线传播与渲染过程 151
4.1.3 照明场重建网络设计 152
4.1.4 算法结果分析 154
4.2 基于频率感知退化的红外图像增强 157
4.2.1 图像退化模型 158
4.2.2 IFADGAN-SR网络框架 159
4.2.3 红外频域感知退化 160
4.2.4 基于退化生成的红外增强网络 163
4.2.5 实验测试与参数分析 164
4.3 基于位姿感知的红外视图渲染与场景重建 167
4.3.1 位姿感知优化 168
4.3.2 高频不变注意力增强 169
4.3.3 实验测试与参数分析 171
4.4 本章小结 177
参考文献 178
第5章 夜视图像显著检测 181
5.1 视觉注意和显著分析181
5.1.1 视觉感知系统 181
5.1.2 数据驱动的显著模型 183
5.1.3 任务驱动的显著模型 184
5.2 基于动态各向异性感受野的显著模型 184
5.2.1 离散型C-S模型 185
5.2.2 基于离散型C-S的显著检测算法 185
5.2.3 实验结果与分析 187
5.3 基于纹理显著性的微光图像目标检测 188
5.3.1 局部纹理粗糙度 188
5.3.2 纹理显著性度量 197
5.3.3 实验结果与分析 200
5.4 多模型互作用的视觉显著检测 203
5.4.1 基于布尔图和前景图的显著模型 204
5.4.2 基于图论布尔图的显著模型 210
5.4.3 实验结果与分析 214
5.5 本章小结 227
参考文献 227
第6章 非训练夜视目标认知检测 230
6.1 非训练夜视目标检测方法 230
6.2 基于局部与全局LARK特征的匹配模型的目标检测算法 231
6.2.1 LARK算子232
6.2.2 局部LARK特征和全局热扩散结合的红外目标检测模型 237
6.2.3 基于LARK特征和布尔图结合的红外目标检测模型 241
6.2.4 实验结果与分析 244
6.3 基于相似结构统计和近邻结构约束 LARK 特征的匹配模型 255
6.3.1 局部相似结构统计匹配模型.256
6.3.2 近邻结构匹配模型 261
6.3.3 实验结果分析 267
6.4 基于局部稀疏结构匹配模型的夜视目标鲁棒检测 275
6.4.1 局部稀疏结构匹配模型 275
6.4.2 LSSM模型分析与夜视目标检测效果 279
6.5 本章小结 289
参考文献 289
第7章 时--空--谱夜视目标识别定位 292
7.1 WWN模型生物机理 292
7.1.1 基于What和Where信息的视觉感知模型 293
7.1.2 现有WWN模型综述 296
7.1.3 WWN模型的延伸 297
7.2 3D-LARK特征算子 298
7.2.1 基于空间-光谱的3D-LARK 298
7.2.2 基于空间-时间的3D-LARK 300
7.2.3 其他特征算子与3D-LARK的比较 301
7.3 基于金字塔分层模型的多光谱目标识别 303
7.3.1 基于3D-LARK和分层模型的多光谱目标检测 303
7.3.2 基于局部和近邻结构特征约束的目标检测模型 315
7.4 基于空间–时间结构约束的3D-LARK视频动作识别 329
7.4.1 邻域高斯结构时空统计匹配 329
7.4.2 双层结构融合的运动目标检测模型 331
7.4.3 实验测试与参数分析 338
7.5 本章小结 349
参考文献 350
第8章 基于深度学习的多源夜视信息融合 353
8.1 基于对抗性语义引导的红外–可见光图像融合 353
8.1.1 基于对抗性语义引导的图像融合网络结构 354
8.1.2 网络约束与损失函数设计 358
8.1.3 实验结果及评价 360
8.2 基于多模态自编码的跨模态图像立体匹配 362
8.2.1 跨模态数据特征一致性提取 363
8.2.2 跨模态图像立体匹配网络设计 368
8.2.3 实验测试与参数分析 371
8.3 基于多源时空一致性的自监督点云补全 374
8.3.1 基于多模态时序约束的自监督框架设计 375
8.3.2 时序深度–光度一致性约束 376
8.3.3 基于自动特征点提取的位姿估计 380
8.3.4 网络训练与测试 381
8.4 本章小结 384
参考文献 384
第9章 基于信息融合的夜视目标感知 387
9.1 基于注意力特征融合的夜视图像语义分割 387
9.1.1 注意力特征融合的语义分割网络 388
9.1.2 残差增强与注意力增强 389
9.1.3 实验分析 394
9.2 基于噪声感知的多波段信息挖掘目标检测 395
9.2.1 基于噪声感知的目标检测算法网络 396
9.2.2 跨模态特征融合 397
9.2.3 实验分析 401
9.3 基于特征级与决策级融合注意的双模态跟踪 406
9.3.1 基于特征级与决策级融合注意的目标跟踪网络 407
9.3.2 双级平衡设计 410
9.3.3 实验测试与参数分析 413
9.4 本章小结 416
参考文献 417
试读
第1章绪论
夜视技术作为一门延伸人类活动范围、突破人类视觉极限的技术,无论是在军事还是民用领域都获得了极大重视和广泛应用,如光照变化和低照度条件下的观察、监视和检测等。夜视仪器研究主要包括微光夜视、红外热成像、紫外成像、主动近红外成像系统等。
夜视系统从出现发展到现在,已经具备相当完整的理论和相对成熟的技术。然而夜视环境复杂,并且可能存在伪装目标、单一波段信息减弱和辐射波段移动等因素,会造成成像系统难以探测到目标或探测准确度下降。因此,通过传统单一波段图像传感器准确地感知和描述外界环境几乎不可能。西方强国在军事和民用领域,为提高系统对低照度环境的观察能力和多应用场景下的适应能力,较早地提出了多源多光谱夜视成像探测的概念,相关情况见图1.1。
多源夜视技术使得多传感器信息相互补充,可以解决单一成像传感器信息不全面或不准确的问题。但是如何从多传感器的输出中提取(识别)有用信息,并融合显示给观察者成为新的难题。为此须将不同传感器所提供的信息加以综合,消除多源信息间可能存在的冗余和矛盾,形成对目标完整一致的信息描述,并且在合成图像中不损失各波段图像的重要信息或者造成图像质量下降。
随着夜视技术及其应用需求的发展,针对复杂场景环境的新型多源多光谱夜视信息处理理论与技术将成为智能化夜视场景理解、目标感知的研究热点。为了准确描述复杂夜视环境、有效检测跟踪可能存在的目标以及提高目标识别率,多源夜视感知理解理论与技术研究在国内外均有所开展。本书立足于多光谱夜视成像和信息融合技术,探索研究一系列基于仿生视觉认知学习机理的多光谱夜视环境感知、目标探测识别模型方法,显著提高复杂场景下的多源夜视图像理解能力。
上述理论与技术研究可为各种夜视信息探测和处理提供新的技术途径,在公安、国防及相关工业技术领域具有重要的科学价值与广阔的应用前景。
1.1多源夜视图像视觉认知学习的研究内容
多源夜视技术是提高夜视探测能力的有效方法,多传感器信息可提供更加全面、准确的夜视目标和场景信息(图1.1.1(a)),然而如何解决各传感器信息使用的充分性和多维信息提取的复杂性成为新的难题丨图1.1.1(b));并且由于环境干扰、场景复杂以及目标本身可能发生的姿态、残缺、模糊、遮挡变化和视角变换等问题,夜视场景准确理解、目标鲁棒检测识别难以获得理想效果(图1.1.1(c))。因此需要引入新型技术思想和研究手段,以解决复杂场景下各波段夜视图像目标精确、高效认知问题,实现多维夜视数据的智能解析。
在众多的生物系统中人脑是*有效的生物智能系统,它具有感知、识别、学习、联想、记忆、推理等功能。据统计,人类感知的信息有80%来自视觉,为此,研究生物的视知觉功能,解析其内在机理并计算实现,成为科学研究领域的一个重要内容。视知觉过程的研究有助于深入理解生物神经的工作机制和人类认知规律,为模拟这些机制与规律、开发智能化夜视信息处理模式开拓新的途径,为提高多源夜视系统的智能化、增强夜视系统解决问题的能力提供新的思路。
本书的研究内容受启发于高效的生物视觉机理和高智能的认知计算与挖掘学习方法,旨在结合夜视图像特性,实现基于仿生视觉建模的紫外、微光和红外等多光谱夜视图像智能感知。在视觉建模中,受生物视觉感知启发的计算模型包括特征提取、视觉增强、显著检测和目标识别等方面。从夜视信息处理的关键技术角度出发,多源夜视图像视觉认知学习研究内容包括:
(1)对多光谱图像进行预处理,如微光图像降噪、红外图像增强。严重噪声干扰、低对比度影响下的图像修复增强有利于场景理解和信息提取,是夜视感知*须解决的一项重要技术。
(2)对多光谱图像进行有效特征提取和显著分析,如显著轮廓提取、显著区域检测。复杂场景下的有效背景抑制、感兴趣区域检测和显著轮廓提取能够加强场景描述与理解精度,提供各目标候选区域以减少特征选择过程中的计算量,提高系统探测效率,从而成为夜视分析的一项关键技术。
(3)进一步对潜在目标进行高层次视觉特征描述、识别和理解。具有抗干扰和泛化能力的夜视目标鲁棒检测和准确识别定位是目前夜视目标探测的技术难点。
(4)在此基础上,设计高效算法架构,构建软硬件成像计算系统。有效集成多个核心处理模块,优化具有层次性、并行性和反馈性的计算模型,是实现多源夜视智能认知学习系统理论和技术应用的关键。
因此,本书将立足于提高多源夜视系统对非结构化视听觉感知信息的理解能力和多维异构信息的处理效率,克服多光谱夜视图像信息处理所面临的困难,借助心理学、神经生理学、生物学、计算机科学和数理科学的交叉优势,从图像降噪增强、特征提取、显著检测、目标识别定位等多个方面,研究夜视基于仿生视觉的多源多光谱热点理论技术问题和新型认知计算与挖掘学习模型方法。
1.2夜视图像融合与视觉认知计算
通过目标、背景光谱特性研究和分析可知,它们在不同波段具有反射、辐射特性差异,夜视图像融合可充分利用各波段相互间的光谱信息差异性和相关性,实现多源数据整合、解析。图像信息融合由低到高分为三个层次:底层处理是在严格配准的条件下,对各传感器输出的原始图像信号进行综合与分析,为高层处理提供丰富、精确、可靠的细节信息。中间层处理是对源图像进行预处理、特征提取和信息综合,旨在保留重要信息,以进行系统判决。高层处理在各波段图像完成了目标提取与分类之后,根据一定的准则以及不同决策的可信度做出具有容错能力的判别。从本质上看,融合的这种层次化思想与生物认知功能是契合一致的。
图像融合技术*早被应用于遥感图像的分析和处理中,随其发展,这一技术也逐渐被引入到夜视成像探测领域,20世纪80年代,美国得克萨斯仪器公司将通用组件红外系统、焦平面阵列前视红外系统和三代微光夜视系统的视频信号进行融合,取得了有益的结果[3]。20世纪90年代,中国台湾研制出3~5[xm和8~12[xm双谱红外图像融合系统。进入21世纪,美国开始将微光与非制冷红外双谱图像融合夜视镜(ENVG)、数字图像融合武器/观察瞄准镜(DIF/OS-5)等正式列入装备研制计划需求。此外还有关于特征级、决策级融合等研究成果的报道。彩色融合效果如图1.2.1所示。
图像融合技术能够综合多波段、多光谱夜视信息,有效提高多传感器夜视系统成像探测能力,但也面临着新的挑战,即多源夜视带来的信息复杂化和数据膨胀。一方面,由于多光谱夜视图像的复杂多样,现有的图像融合方法尚不能达到理想效果,也就是说,目前夜视系统中计算机对场景图像的处理与理解能力远逊于人类,须有效模拟人类视觉的结构和功能,改善现有夜视系统的感知计算水平。另一方面,时一空一谱夜视数据维度扩张,如何高效、充分提取利用多维信息中有价值的模式、规则等,须对数据处理及知识获取的相关技术进行革新,以保障系统工作的实时性。
当前诸多领域内图像处理分析方法已发生积极、有效的变革,多种新型理论技术思想被提出,其中视觉仿生和认知科学计算*具典型性。视觉认知计算模型或方法的思路来源于生物视觉机理。随着生物生理学、神经计算学和脑科学理论的发展,国内外众多学者受生物学启发、针对不同应用环境建立了多种仿生机制视觉计算模
型。例如,Marr提出源于生物视觉机理的视觉计算理论模型,并将视觉过程归结为一个信息处理过程;Grigorescu等的非**感受野抑制(Non-Classical Receptive Field Inhibition)模型,分析图像中心与周围的关系,可用于轮廓检测Li等的递归网络模型神经动力学(Neural Dynamics in a Recurrent Network Model)模型,采用初级视觉皮层(PrimaryVisualCortex)的简单单元,解决了将边缘段集成为轮廓的问题;Ilya等提出一种视觉注意机制模型,该模型分析人类视觉注意机制,在视觉显著性检测方面的效果比较突出;Micheal的计算知觉注意(Computational Perceptual Attention)模型,通过分析生物视觉的注意机制,建立了表达和执行注意策略的计算感知注意模型;Wang等的局部兴奋全局抑制振荡网络(Locally Excitatory Globally Inhibitory Oscillator Network)模型,指出大脑皮层不同区域存在“同步振荡”的现象,代表不同特征的神经元可以通过振荡时间上的同步而联系起来表示某一目标;Lecun等提出一种神经卷积网络模型,该模型拥有强大的仿生能力,在目标识别方面展现较强的性能Fukushima的用于手写体字符识别的视觉神经网络模型(Neural Network Models for Vision)此外,其他基于生物视觉认知机理的模型和方法也得到进一步发展。
目前,国内外已对生物视觉功能和智能信息处理机制的计算模型和学习方法进行了大量的研究,这些方法在视觉处理和智能感知方面与常规方法相比具有明显优势。然而针对多光谱夜视图像视觉计算和认知学习方面的研究工作较少,基于生物学启发的计算机视觉建模研究可应用于夜视图像处理的各个关键技术领域,为夜视技术发展注入新的活力,同时也是对认知计算科学的延伸。
另外,从研究方法和技术手段上认知计算技术与图像融合具有本质区别,两者从不同角度解释图像信息,具有一定的互补性;但在同一图像处理层面上的功能又具有相似性,两者相互结合可促进各层次理论模型和计算方法的完善。因此本书立足于团队在多光谱夜视图像融合技术上的一系列研究成果,构建新型多源夜视认知计算模型,拓展视觉感知机理在夜视层面的应用,深化夜视信息的智能理解技术。
1.3仿生视觉认知计算模型方法
视觉中枢神经系统对视网膜所传递的视觉信号进行处理,主要包含侧膝体(LGN)处理和视皮层处理,如图1.3.1所示。侧膝体是丘脑的一个感觉中继核团,通过视觉神经元,侧膝体与大部分视网膜的节细胞轴突触相连,接收来自视网膜的电信号,同时侧膝体与视皮层相连,接收来自视皮层的反馈信息。因此,侧膝体在视觉信息处理中起到中转站作用,对来自视网膜的电信号进行一定的控制与处理,然后传递给视皮层。
视皮层负责视觉信息的高级处理,主要包括初级视皮层(Primary Visual Cortex)和纹外皮层(Extrastriate Cortex)。视皮层腹侧流涉及VI、V2、V4以及IT功能区,它们分别对视觉信息的处理起到不同的作用:VI区*先接收来自侧膝体的视觉信息并提取局部特征,如提取图像的结构、色彩、运动等信息;经处理后的信息将传递到V2、V4及IT区进行下一步处理,如图像内容的模式匹配、识别、理解、记忆等。在视觉皮层中,视觉信息通过不同视皮层通路进行信息加工处理,获得视觉认知所需的特征,提髙信息处理效率,如图1.3.2所示。
认知计算模型或方法的思路来源于生物视觉机理。图1.3.3是一种具有视皮层生理解剖功能特性的典型图像理解计算模型:右边为视觉的不同层次特征表示,由初级、中级特征以及高级的识别行为组成;中间为模拟生物视觉的目标识别计算模型,由5层不同的特征功能组成。下面结合视觉感知过程,阐述几种认知计算机理模型,它们是本书多源夜视图像理解的理论基础。