大连理工大学、浙江大学合作团队在《电子与信息学报》发表最新文章:《基于事件相机的图像重构综述》。
文章从事件相机出发,简述了事件相机的现状、发展过程、优势与挑战,介绍了各种类型事件相机的工作原理和一些基于事件相机的图像重构算法,并阐述了事件相机面对的挑战和未来趋势。
原文:
徐齐, 邓洁, 申江荣, 唐华锦, 潘纲. 基于事件相机的图像重构综述[J]. 电子与信息学报. 预出版.
doi: 10.11999/JEIT221456
1 引言
如今传统相机已经广泛应用在人类生活的各个领域,包含军事国防、航天航空、船舶运输、道路交通、体育、自动驾驶等领域。传统的基于帧的视觉传感器可以获取丰富的图像信息,在深度学习的助力下,计算机视觉领域相关算法蓬勃发展。然而,传统相机由人工创建的定时和控制信号驱动,以固定速率和固定曝光时间输出强度图像,即便像素值未发生变化,也会重复曝光,降低了数据传输效率、膨胀了数据体积,导致数据处理延迟和数据冗余等问题。此外,在记录快速运动物体时易产生运动模糊,在高动态范围场景下易出现过曝或者欠曝的情况,这些都会导致细节信息的丢失。事件相机与传统相机有着不同的工作方式,由视野中发生的事件驱动,输出各个像素上的亮度变化。在像素阵列中,当像素级亮度变化超出一定阈值时,事件相机每个像素以微秒级分辨率独立地输出,输出的异步稀疏数据被称为“事件”(event),包括事件的像素位置、时间戳以及极性。事件相机能够发送具有高动态范围、高时间分辨率和低延迟的异步事件流,可以在高速运动和具有挑战性的光照条件下发挥强大优势。基于事件相机的图像重构算法是一种利用事件相机获得的事件流数据来重构场景图像的算法。这种算法可以通过快速响应的事件相机来获得高速移动场景的信息,同时避免了传统图像采集方法中的模糊和失真问题。通过图像重构获得亮度图像可以解决现有算法受限问题,能够将重构图像直接用于现有的计算机视觉任务中,因此重构具有更高动态范围和更少模糊伪影的高分辨率图像具有十分重要的意义。同时,事件表示连续图像帧之间的强度变化,与传统图像提供的信息相关联,能够生成具有超分辨率的高帧率视频,在工业界有非常强的应用前景。
2 事件相机的种类
最早的事件相机可以追溯到1992年,被称作硅视网膜,是Mahowald等人基于脊椎动物视网膜模型设计的,在此研究中提出了新型集成电路通信协议——地址事件协议,异步输出带地址的数字脉冲来响应光照强度的变化。
然而,硅视网膜不同像素之间的响应存在相当大的失配问题,且像素面积太大,因此,只能作为演示设备,无法用于实践。随后十几年,基于神经形态的视觉传感器不断发展,研究者们相继研发出了时间对比度传感器、基于梯度的传感器、边缘方向敏感传感器和光流传感器。但是,这些传感器由于噪声、像素面积、对比度灵敏性以及电路复杂性等原因,在实际任务的应用中仍存在很大问题。
直到2006年,Delbruck团队研发出动态视觉传感器(DVS),使事件相机的发展进入新阶段。后续,为了满足可视化的要求,Posh等人在2008年研发出了基于异步时间的图像传感器(ATIS),可以输出事件信息和灰度信息。
2013年,Delbruck团队又提出了动态主动像素视觉传感器(DAVIS),在2017年被扩展为彩色版本DAVIS346,2018年5月在机器人和自动化国际会议上DAVIS346首次展示给顶尖的研究人员,标志着适用于真实环境的高分辨率、高性能传感器的诞生。
不同于Delbruck团队的工作,南洋理工大学的陈教授团队开发了一种新型动态视觉传感器CeleX,不仅能够显示物体的运动变化,还能够重构纹理。2018年北大的黄铁军教授团队研发了一款具有独特视频捕捉方案的脉冲相机——Vidar,该传感器可以重构任意时刻的图像,从而实现高速运动回放。
事件相机现在主要的生产企业有:Samsung, IniVation, Prophesee, CelePixel 等。
Samsun开发DVS-Gen系列动态视觉传感器不具有亮度值的输出,有DVS Gen1、DVS Gen2、DVS Gen3、DVS Gen4。
Prophesee的前身为Chronocam,是4代基于事件的传感器的发明者和供应商,该公司专注于工业、移动物联网和汽车应用。
IniVation总部位于苏黎世,是一家快速发展的公司,热门型号包括:DAVIS346 Color/Mono、DVXplorer、DVXplorer Lite/Mini等。
Celepixel是一家中国公司,目前的CeleX系列有:CeleX-IV,CeleX-V,支持多种输出模式,CeleX-V是当前分辨率最高的DVS传感器。
表1 几种事件相机的性能比较
3 图像重构算法与应用
目前,已经有很多研究针对基于事件相机的图像重构算法进行了探索。其中一些研究主要关注于设计高效的事件相机数据采集方法和数据处理算法,以提高图像重构的精度和速度。另外一些研究则着重于开发新的深度学习模型和算法,以更好地利用事件流数据来实现图像重构。
根据论文的模型中所处理的数据类型,分为纯事件流以及事件流与图像结合两类,对基于事件相机的图像重构算法做详细介绍,在表 2 和表 3 中进行了不同重构算法的比较。
基于纯事件流的重构方法
将一些典型的输入为纯事件流的重构模型按照时间排序,如图 1 所示。
图1 模型输入为纯事件流的重构方法
早期的研究使用了各种方法,如流形正则化、光流和异步滤波器等,随着深度学习的发展,基于卷积神经网络的工作取得了非常优秀的重构效果。
2019 年,Rebecq 等人提出了一种新颖的重构模型 E2VID,采用循环网络架构 UNet。该模型的重构函数由递归卷积神经网络实现,训练网络的事件数据是由事件模拟器合成。这种带循环连接的网络不需要在每个时间步从头开始重构新图像,而只需要使用新的事件序列 增量更新以前的重构。
之后 Rebecq 对 E2VID 进行了改进,提出的新网络具有记忆功能, 会从任意长的过去事件序列中更新,而不是只使用最后几张图像。其次,新网络使用了堆叠的 ConvLSTM,这可以防止长序列在时间反向传播期间梯度消失,增加了网络处理可变数 量事件的能力,也适用于更长事件序列的训练。但上述工作在实现视频重构时使用的神经网 络模型结构较为复杂且计算成本高昂。
2020 年,Scheerlinck 等人提出一种新的神经网络架构 FireNet,从事件中执行快速图 像重构。FireNet 比 E2VID 小得多,需要更少的参数(38 k vs 10 M),更少的内存(0.16 MB vs 43 MB)和更少的浮点运算数(12.6 G vs 147.2 G),运行速度比 E2VID 快3倍。FireNet 是一个完全卷积的网络,它依赖于循环连接来随着时间的推移建立一个状态,在较小的网络上重用 以前的结果,能在非常小的循环网络上快速运行。
2019 年,Wang 等人提出了基于事件相机的条件生成对抗网络,学习观测图像与随机噪 声到输出图像之间的映射关系,将纯事件信息转换为高动态范围图像和高帧率视频。2020 年 Wang 等人又提出了一种端到端的模型EventSR,从低质量事件流中重构低质量强度图 像,然后再从低质量强度图像中重构超分辨强度图像。整个模型分3个阶段进行训练,首先从事件流中重构低质量图像,然后增强图像质量,最后对增强的图像进行上采样。该方法在没有真实高分辨图像的情况下进行无监督训练,并且部署对抗学习。此外,为了训练 EventSR,论文提出了包含真实场景和模拟场景的开放数据集。2021 年作者又将论文中的方法扩展到了高动态范围和彩色的图像重构,并且证明了该论文的成果可以作为高级任务事件的中间表示,如语义分割,对象识别和检测。
基于传统神经网络的事件图像重构模型的一个潜在缺点是计算成本,这与事件相机低功 耗和低延迟的特性不符,无法充分发挥事件相机的优势。而 SNN 作为仿生神经网络,异步输出二进制脉冲,相较于传统神经网络在功耗和计算成本上有很大优势,因此,一些学者将其应用在事件相机的图像重构领域。
2020 年 Zhu 等人提出了一种新的3层脉冲神经模型对脉冲相机的输出重构。该模型由局部运动激发层、脉冲细化层和视觉重构层组成,这些层由 Leaky integrate-and-fire 神经元 组成,神经元之间的突触连接采用的是脉冲时序依赖可塑性规则。局部运动激发层接收脉冲 并标记神经元的运动状态:静止或运动,然后脉冲细化层根据每个神经元的运动状态调整不 应期,最后的视觉重构层采用自适应机制,将每个神经元的动态阈值映射到灰度图像中作为 输出。
2021 年 Zhu 等人提出了一种基于深度 SNN 的视频重构框架 EVSNN。为了更好的利 用时间信息,作者提出了自适应膜电位神经元 PA-EVSNN,可以根据输入的脉冲自适应地 更新膜电位。作者提出的基于 SNN 的视频重构方法达到了与基于 ANN 的模型相当的性能, 并且在能耗和计算效率上有着更好的表现。
2021 年 Duwek 等人提出了一个 CNN 与 SNN 相结合的神经网络。第1阶段的 CNN 被 训练进行拉普拉斯预测,第2阶段将经过训练的 CNN 转换为 SNN 进行推理,在推理过程 中,第1阶段的拉普拉斯被驱动到 SNN 中进行泊松积分。每个事件数据都转换为事件帧张量,每个事件帧都应用空间中值滤波器进行预处理,使用卷积核降低噪声。该方法从 CNN 开始,CNN 预测给定帧张量的拉普拉斯,然后利用泊松积分优化的 SNN 来处理,将事件帧划分为多个块,分别预测和重构每个块,最后将它们拼接在一起合成完整的图像。
表2 基于纯事件流的不同重构的比较
[1] Kim H, Handa A, Benosman R, et al. Simultaneous mosaicing and tracking with an event camera[J]. J. Solid State Circ, 2008, 43: 566-576.
[2] Belbachir A N, Schraml S, Mayerhofer M, et al. A novel hdr depth camera for real-time 3d 360 panoramic vision[C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops. IEEE, 2014: 425-432.
[3] Lagorce X, Orchard G, Galluppi F, et al. Hots: a hierarchy of event-based time-surfaces for pattern recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(7): 1346-1359.
[4] Munda G, Reinbacher C, Pock T. Real-time intensity-image reconstruction for event cameras using manifold regularisation[J]. International Journal of Computer Vision, 2018, 126(12): 1381-1393.
[5] Barua S, Miyatani Y, Veeraraghavan A. Direct face detection and video reconstruction from event cameras[C]. 2016 IEEE winter conference on applications of computer vision (WACV). IEEE, 2016: 1-9.
[6] Rebecq H, Ranftl R, Koltun V, et al. Events-to-video: Bringing modern computer vision to event cameras[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 3857-3866.
[7] Rebecq H, Ranftl R, Koltun V, et al. High speed and high dynamic range video with an event camera[J]. IEEE transactions on pattern analysis and machine intelligence, 2019, 43(6): 1964-1980.
[8] Scheerlinck C, Rebecq H, Gehrig D, et al. Fast image reconstruction with an event camera[C]. The IEEE/CVF Winter Conference on Applications of Computer Vision. 2020: 156-163
[9] Wang L, Ho Y S, Yoon K J. Event-based high dynamic range image and very high frame rate video generation using conditional generative adversarial networks[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 10081-10090.
[10] Wang L, Kim T K, Yoon K J. Eventsr: From asynchronous events to image reconstruction, restoration, and super-resolution via end-to-end adversarial learning[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 8315-8325
[11] Wang L, Kim T K, Yoon K J. Joint framework for single image reconstruction and super-resolution with an event camera[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 44(11): 7657-7673.
[12] Zhu L, Dong S, Li J, et al. Retina-like visual image reconstruction via spiking neural model[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 1438-1446.
基于事件流和帧的重构方法
将一些典型的输入为事件流和帧的重构模型按照时间排序,如图2所示。
图2 模型输入为事件流和帧的重构方法
2014 年,Brandli 等人将 DAVIS 相机输出的图像帧与事件流结合,提出了第1个针对DAVIS 的实时事件数据解压缩算法,动态估计每个事件的时间对比度阈值来计算两帧之间 的强度信息。所提出的算法任务分为两部分:基于事件的图像解压缩和强度估计。每一帧的 新图像都会重置强度信息,防止整合误差的过度增长,但也丢弃了重要的累积信息。
2017 年,Liu 等人使用仿射运动模型重构高速静态背景视频,能够恢复快速运动的场景,例如下落或旋转的物体以及弦的振动。
2018 年 Scheerlinck 等人提出了基于事件强度估计的连续时间公式,使用互补滤波将图 像帧与事件结合,滤波器采取异步的、事件驱动的更新方案,以合并最新的事件信息,消除 窗口延迟,不依赖于运动模型,可以在高动态、复杂的环境中运行。连续时间公式不是随着 新帧的到来重置强度估计值,而是保留来自事件的高动态范围信息,保持比图像帧具有更大 时间分辨率和动态范围的图像状态。
2019 年 Pan 等人提出了一种基于事件的双积分(EDI)模型,从单个模糊图像及其事件数据中重构高帧率的、清晰的视频。为了减少事件累积的噪 声,作者将积分限制在曝光时间中心周围的时间间隔内,能够重构较短的视频片段,将片段 拼接获得最终视频。但是,当相机和物体具有较大的相对运动时,会导致闪烁。因此,2020 年作者将 EDI 模型扩展到多重双积分(mEDI),以处理视频片段边界处的不连续性,作者进行了大量实验,此方法可以在不同条件下(例如低光照和复杂的动态场景)生成高质量、 高帧率的视频,但极端的照明变化会降低该方法的性能,此外,事件误差积累也会降低重构图像的质量。
使用事件流和强度图像,二者之间相互作用,在重构图像上可以获得较好的效果,但无 法解决图像帧模糊的问题,重构高帧率视频时,会有一定的模糊。Shedligeri 等人对相机和 观察到的场景之间的相对运动进行编码,在一定程度上改善了模糊帧导致的图像退化问题, 充分利用了编码的运动信息进行高帧率视频的重构。
表3 基于事件流和帧的不同重构的比较
[13] Liu H C, Zhang F L, Marshall D, et al. High-speed video generation with an event camera[J]. The Visual Computer, 2017, 33: 749-759.
[14] Scheerlinck C, Barnes N, Mahony R. Continuous-time intensity estimation using event cameras[C]. Asian Conference on Computer Vision. Springer, Cham, 2018: 308-324.
[15] Pan L, Scheerlinck C, Yu X, et al. Bringing a blurry frame alive at high frame-rate with an event camera[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6820-6829.
[16] Pan L, Hartley R, Scheerlinck C, et al. High frame rate video reconstruction based on an event camera[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
4 挑战和展望
事件相机是一种神经形态视觉传感器,随着事件相机的不断发展,在硬件和算法上的不 断进步,有关事件相机的研究已经取得阶段性进展,但想要比肩人类视觉系统在复杂交互环 境中的感知能力,还面临着巨大的挑战,本节讨论事件相机所面临的挑战以及未来发展方向。
在硬件方面,事件相机是一类受人脑启发创建的神经形态视觉传感器。人脑具有速度快、 能耗低、可扩展等优点,但是,让硅电路模仿细胞复杂且丰富的机制,使其能像大脑一样不 断调整以适应复杂多变的环境是十分困难的。受外界环境因素的影响,晶体管电流的可变性会限制相机的精度,同时电路内部的元器件之间也会产生不必要地响应。神经形态芯片研发人员需要进行巧妙的电路和系统设计来降低这些干扰,以提高事件相机的输出精度,减少输出的噪声。
数据集对模型的训练至关重要,而且在大规模数据集上实验得到的结果更具有说服力。当前,基于事件相机的数据集主要是针对分类和识别任务,这些数据集场景简单且数据规模较小。尽管各个研究机构正在尝试收集更多的数据,但是由于事件流是时间和空间上的异步 点阵,无法直接手工标注,只能借助其他传感器进行辅助标注,这导致上述数据集规模不够, 无法直接利用标签学习方法实现大模型的训练。因此,亟需开发一个更大规模的事件相机数据集,以提升模型在实现相关任务时的学习能力。
在事件流的图像重构方面,对事件数据的处理方式主要有两类,一类是逐事件处理,另 一类是将事件聚合成帧的形式。第一种逐个事件的数据处理方式虽然可以实现较小的延迟, 但是每个事件携带的信息量少,而且受噪声影响,计算量较大,算法的实用性低。第二种将 事件流累积成帧的数据处理方式,牺牲了事件相机低延时的特性。因此,现阶段迫切需要研究能有效提高运算效率且保留事件相机低延迟低功耗特性的事件流处理算法。
科研团队介绍 1 关于团队
课题组于 2022 年 9 月成立,目前课题组在站博士后 1 人,在读博士生 1 人,硕士生 4 人,所指导的硕士/博士已发表多篇 CCF A、中科院一区及 IEEE/ACM trans 论文。课题组成员在多项国家自然科学基金、基础加强计(173)、科技创新 2030-新一代 人工智能、脑科学与类脑研究重大项目、国家 973 及国自然重点项目等国家级项目的支持 下开展大规模深度脉冲神经网络模型构建、突触权重学习、神经信号编解码和类脑芯片软硬 件协同设计等方面的研究。课题组与北京大学、清华大学、浙江大学及英国利兹大学、莱斯 特大学、瑞士苏黎世联邦学院等保持良好的合作关系。
2 研究方向
(1) 脑机混合智能
类脑计算(脉冲神经网络模型构建);
类脑视觉(图像增强、去噪、超分辨率重建) ;
类脑强化学习(多智能体博弈) 。
(2) 人工智能
深度学习(检测、识别、跟踪);
机器学习(无监督、半监督、小样本) 。
3 研究成员
负责人:徐齐 博士,副教授,硕士生导师
通信邮箱:xuqi@dlut.edu.cn
研究方向:人工智能、类脑计算、神经形态计算、神经信号编解码等
学术研究:在 CCF A 类或中科院一区 SCI 期刊发表包括 IJCAI, AAAI, CVPR, IEEE TNNLS, TCYB, TIM, Neural Networks, IJCNN, EMBC 等二十余篇论文,谷歌学术显示 引用 500+ 成员
申江荣:女,浙江大学助理研究员,研究方向为类脑计算、神经形态计算、神经信号编解码。
周冬冬:男,助理研究员,研究方向为睡眠分期、脑认知信号处理。
罗海华:男,博士生,研究方向为基于脉冲神经网络的睡眠分期研究。
邓 洁:女,硕士生,研究方向为事件相机,脉冲神经网络。
李雅馨:女,硕士生,研究方向为神经信号编解码,脉冲神经网络。
方炫烨:男,硕士生,研究方向为脉冲神经网络时序数据分析。
高毓源:男,硕士生,研究方向为基于突触可塑性的脉冲神经网络结构研究。
4 研究成果
Qi Xu, Yaxin Li, Jiangrong Shen, Jian K Liu, Huajin Tang, Gang Pan. Constructing Deep Spiking Neural Networks from Artificial Neural Networks with Knowledge Distillation[C]. Proceedings of the IEEE conference on computer vision and pattern recognition, 2023. (Accepted)
Jiangrong Shen, Qi Xu, Jian K. Liu, Yueming Wang, Gang Pan, Huajin Tang. ESL-SNNs: An Evolutionary Structure Learning Strategy For Spiking Neural Networks[C]. Proceedings of the AAAI Conference on Artificial Intelligence 37, 2023. (Accepted)
Qi Xu, Yaxin Li, Jiangrong Shen, Pingping Zhang, Jian K Liu, Huajin Tang, Gang Pan. Hierarchical Spiking-based Model for Efficient Image Classification With Enhanced Feature Extraction and Encoding[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022.
Qi Xu, Jianxin Peng, Jiangrong Shen, Huajin Tang, Gang Pan. Deep CovDenseSNN: A hierarchical event-driven dynamic framework with spiking neurons in noisy environment[J]. Neural Networks, 2020, 121: 512-519.
Qi Xu, Yu Qi, Hang Yu, Jiangrong Shen, Huajin Tang, Gang Pan. Csnn: an augmented spiking based framework with perceptron-inception[C]//IJCAI. 2018: 1646-1652.
编辑 | 电子与信息学报融媒体工作室
声 明:本文系《电子与信息学报》独家稿件,内容仅供学习交流,版权属于原作者。欢迎评论、转载,转载请与本号联系授权,标注原作者和信息来源。
本号发布信息旨在传播交流。如涉及文字、图片、版权等问题,请在20日内与本号联系,我们将第一时间处理。