遥感数据任务统一!首个时间-光谱-空间维度统一的遥感密集预测模型TSSUN
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
随着遥感技术的进步,多源遥感数据在城市监测、土地覆盖分类、灾害评估等多种密集预测任务中发挥着关键作用。然而,遥感影像在时间(Temporal)、光谱(Spectral)和空间(Spatial)三个维度上存在高度异质性,例如时序长度、光谱通道数和空间分辨率各不相同。
当前的深度学习模型通常为固定的遥感图像输入输出配置而设计,即针对特定的数据维度与任务类型(如语义分割、语义变化检测、二元变化检测)。这种设计上的刚性导致模型泛化能力差,一旦数据维度或任务类型发生变化,模型性能会显著下降甚至完全不适用,需要进行额外的训练或微调,从而引入了巨大的计算与时间成本。
为解决上述问题,本研究提出了一个时间-光谱-空间统一网络(Temporal-Spectral-SpatialUnifiedNetwork,TSSUN),它通过解耦并统一输入与输出的多维度表示,使单一模型能够灵活处理任意维度组合的输入数据与输出要求。同时,它成功地统一了语义分割、语义变化检测和二元变化检测等多种任务类型,并支持灵活的输出类别数量,如下图所示。
实验结果表明,单个TSSUN模型无需针对特定数据进行重新训练,即可适应具有不同时间、光谱、空间特征的异构输入和输出数据。在多个数据集上的广泛实验证明,TSSUN的性能稳定达到甚至超越了当前先进的专用模型。
TSSUN是一个简单而强大的遥感密集预测模型,能够适应在时间-光谱-空间维度上存在差异的多种输入和输出,统一了语义分割、语义变化检测和二元变化检测任务,并且支持多种类别数量的遥感密集预测。
TSSUN的网络结构和代码实现非常简单,在它的基础上能够集成各种模块和加入各种设计,进行广泛的研究探索。
代码已开源,觉得有帮助的话希望能在github给个star
点击“阅读原文”即可跳转到arxiv论文链接
随着遥感技术的不断进步和数据采集方法日益多样化,遥感领域已进入快速发展阶段。海量、多源的遥感数据被广泛应用于各种密集预测任务,在语义分割、语义变化检测和二元变化检测任务中大放异彩。然而,遥感影像在时间、光谱和空间三个关键维度上表现出高度的异质性,由于在实际应用中时间序列长度、光谱通道数量和空间分辨率的变化,给统一处理带来了巨大挑战。
从任务角度看,遥感领域的密集预测主要包括三类核心任务:语义分割、语义变化检测和二元变化检测。这些任务可以形式化地定义如下:给定一个形状为(T1,C1,H1,W1)的遥感影像,深度学习模型应生成一个形状为(T2,C2,H2,W2)的预测结果。其中,T1和T2分别表示输入和输出的时间长度,C1是输入通道数,C2是输出类别数,而(H1,W1)和(H2,W2)分别代表输入和输出的空间维度,通常情况下H1=H2且W1=W2。
在语义分割中,模型对单个时间点的影像进行多类别地物提取,对应于T2=1和C2≥2。
在语义变化检测中,模型提取每个时间点的地物信息以分析任意两个时间点之间的语义差异,对应于T2=T1和C2≥2。
在二元变化检测中,模型识别相邻时间点之间是否发生变化,对应于T2=T1−1和C2=2。
近年来,在日益丰富的遥感数据支持下,深度学习方法在密集预测任务中取得了显著成功,催生了各类任务中众多高性能模型。然而,现有模型通常是为固定的输入输出配置设计的,即特定的(T1,C1,H1,W1)和(T2,C2,H2,W2)。这些维度中任何一个的微小变化都可能导致模型性能显著下降甚至完全不兼容。具体来说,T1、C1和(H1,W1)的变化反映了遥感数据在时间-光谱-空间(Temporal-Spectral-Spatial,TSS)维度上的多样性;T2的变化对应于不同的任务类型;而C2的差异则与不同的分类需求相关。鉴于遥感应用在这些维度上常常存在差异,在一个场景下训练的模型通常难以泛化到其他场景,需要额外的训练或微调,这带来了巨大的计算和时间成本。
为了解决这些问题,本研究提出了一个时间-光谱-空间统一网络(Temporal-Spectral-SpatialUnifiedNetwork,TSSUN),该网络能够实现遥感数据在时间、光谱和空间维度上的统一表示和建模,如下图所示。TSSUN具有高度的灵活性,能够处理任意组合的(T1,C1,H1,W1)输入和(T2,C2,H2,W2)输出。它支持不同时间长度、光谱波段和空间分辨率的输入和输出,并统一了所有三种密集预测任务。此外,它还能生成任意数量语义类别的输出,并在各种配置下保持强大的性能。
具体而言,我们引入了时间-光谱-空间统一策略(Temporal-Spectral-SpatialUnifiedStrategy,TSSUS)来解耦和统一TSS维度上的输入和输出表示。在输入阶段,TSSUS利用固有的光谱和空间特性实现遥感影像的统一编码。在输出阶段,TSSUS利用遥感密集预测任务在光谱和空间维度上的结构化特性,通过建模类间相关性实现对任意类别数的预测。
为了进一步提升模型捕捉多样化TSS组合的能力,我们设计了一种局部-全局窗口注意力(Local-GlobalWindowAttention,LGWA)机制。该模块通过三个不同形状的重叠窗口注意力块高效提取局部特征,并由一个全局注意力块在全局层面聚合信息。这种设计在计算效率和表达能力之间取得了平衡,实现了局部和全局特征的协同建模。
总之,本工作的主要贡献如下:
提出了一个时间-光谱-空间统一网络(TSSUN),实现了遥感密集预测在时间、光谱和空间维度上的统一建模。TSSUN支持任意TSS输入输出配置,并能适应语义分割、语义变化检测和二元变化检测等多种任务,同时支持灵活的输出类别设置。
设计了一种局部-全局窗口注意力(LGWA)机制,以有效捕捉局部和全局上下文特征,从而提升模型在各种遥感预测任务中的性能。
在多个具有不同TSS配置的建筑和土地利用/覆盖场景的数据集上进行了广泛实验。结果表明,单个TSSUN模型能够适应异构输入,统一多种任务类型和灵活的输出类别设置,并持续达到或超越最先进的性能。
遥感领域的密集预测任务通常指在像素级别对输入影像进行结构化的语义推断。本研究将语义分割、语义变化检测和二元变化检测这三个典型任务统一表述为一个张量映射问题。设输入遥感影像为一个四维张量,其中T1表示时间序列长度,C1代表光谱通道数,H1和W1分别是影像的高度和宽度。模型输出表示为张量,其中T2代表输出时间维度,C2是语义类别数,H2和W2为输出影像的空间维度。
基于此表示,本研究涉及的三个任务可统一描述如下:
语义分割:模型对给定时间点的遥感影像进行像素级多类别分类。对应设置T1=1,T2=1和C2≥2。
语义变化检测:模型预测每个时间点的语义标签,以分析任意两个时间点间的语义变化。对应设置T2=T1和C2≥2。
二元变化检测:模型检测连续时间点之间是否发生变化,而不区分具体的变化类别。对应设置T2=T1−1和C2=2。
为应对输入数据在时间长度T1、光谱通道C1和空间尺度(H1,W1)上的显著差异,我们提出了一个统一的建模框架,旨在学习一个映射函数θ,使得:
θ
该函数能够适应任何输入配置,并输出满足目标任务要求的密集预测结果。
所提出的时间-光谱-空间统一网络(TSSUN)是一个统一的建模框架,如下图所示。TSSUN采用TSSUS策略,将输入对齐、特征提取和输出解码系统地整合到一个连贯的处理流程中。
输入阶段:引入光谱-空间统一模块(Spectral-SpatialUnifiedModule,SSUM),将异构的光谱和空间数据编码为统一的表示。
特征提取阶段:采用局部-全局窗口注意力(LGWA)机制作为主要的特征建模单元,有效捕捉TSS输入中的多尺度特征。
编码器-解码器连接处:融合时间统一模块(TemporalUnificationModule,TUM),专注于时间特征的融合,根据任务需求调整输出的时间长度。
输出阶段:再次引入SSUM,在解码过程中进一步加强光谱-空间的一致性,实现对任意类别数和多分辨率空间重建的统一建模。
TSSUS旨在解耦和统一时间、光谱和空间维度上输入和输出的表示。为实现从原始数据空间到不同维度统一特征空间的映射,TSSUS引入了维度统一模块(DimensionUnifiedModule,DUM),它是TUM和SSUM的基础实现。DUM利用TSS变量子集的元数据为线性层生成自适应的权重和偏置,从而实现自适应的特征映射。如上图的右上子图所示,给定输入张量及其元数据,DUM通过超网络生成过程将输入张量映射为统一特征。其详细流程如下:
元数据嵌入:对元数据M进行位置编码和词元化,并前置一个可学习的类别词元[ CLS]。
跨变量关系建模:词元序列通过多个Transformer块处理,以捕捉元数据词元间的潜在关系。
自适应参数生成:[CLS]词元被线性投影以生成偏置参数,而其余词元被投影以产生权重矩阵。生成的W和b构成一个线性层,将输入X从(D1,H,W)重塑为(L,D1)后,通过该线性层处理,得到形状为(L,D2)的输出。
为解决全局注意力在处理大规模遥感数据时计算复杂度高且忽视局部特征的问题,本研究提出了局部-全局窗口注意力(LGWA)模块。LGWA采用三种可选的、具有不同尺寸和配置的窗口注意力形状,能够同时提取遥感图像的局部和全局特征,能够有效的进行遥感密集预测任务,如下图所示。
为验证TSSUN对任意时间-光谱-空间输入输出的适应性,及其并发执行语义分割、语义变化检测和二元变化检测任务并支持可变输出类别数的能力,我们在建筑和土地覆盖/土地利用分类(LULC)两大场景下的总共六个数据集上进行了实验。对于每个场景,我们使用该场景内所有数据集的组合训练集来训练一个统一的TSSUN模型,并在它们各自的测试集上评估其性能。
在建筑场景中,我们选择了WHU、WHU-CD、LEVIR-CD和TSCD数据集。这些数据集在输入和标签数据的通道数上相同,但在时间和空间维度上存在差异,导致了密集预测任务类型的不同,具体如下表所示。建筑场景下的多数据集实验主要旨在验证TSSUN在该情境下对任意时空维度输入输出的适应性,并确认其同时处理语义分割、语义变化检测和二元变化检测任务的能力。
在LULC场景中,我们选择了LoveDAUrban和DynamicEarthNet数据集。这些数据集在输入和标签数据的时间、光谱维度上均有不同。LoveDAUrban数据集对应于一个7类LULC的单时相语义分割任务,而DynamicEarthNet数据集则用于多时相的语义变化检测、语义分割和二元变化检测任务,包含6个LULC类别,详见下表。LULC场景的数据集主要用于验证TSSUN对任意时谱维度输入输出的适应性,并证明其在支持灵活输出类别数的同时,并发管理语义分割、二元变化检测和语义变化检测任务的能力。
我们在四个基准遥感数据集上对所提出的TSSUN进行了严格评估:用于单时相语义分割的WHU数据集,用于双时相语义变化检测的WHU-CD数据集,用于双时相二元变化检测的LEVIR-CD数据集,以及用于多时相二元变化检测的TSCD数据集。TSSUN与几种最先进的方法进行了比较,定量结果总结在下面四张表中。
在WHU数据集上,如上表所示,TSSUN获得了最高的IoU(91. 00%)和F1分数(95. 29%)。
对于WHU-CD数据集上的双时相语义变化检测任务,TSSUN表现出领先于其他SOTA方法的性能,如下图所示。
在LEVIR-CD数据集上,下图显示TSSUN取得了最高的F1分数(91. 59%)和IoU(84. 49%)。
最后,在TSCD数据集上,TSSUN取得了最佳结果,如下图所示所示,F1分数为66. 48%,IoU为49. 79%。
在LoveDA和DynamicEarthNet这两个具有挑战性的LULC数据集上,对所提出的TSSUN与SOTA方法进行了严格评估。
在LoveDA数据集上,TSSUN表现出卓越的性能,取得了最高的OA(71. 82%)和mIoU(65. 73%),如下图所示。
对于多时相的DynamicEarthNet数据集,TSSUN再次超越了现有方法,在所有报告的指标上均取得了最高分:SCS分数为29. 9,BC为38. 9,mIoU为54. 7,如下图所示。