8月20日,在中国图象图形大会的华为昇思MindSpore技术论坛上,中国科学院空天信息创新研究院(以下简称“空天院”

8月20日,在中国图象图形大会的华为昇思MindSpore技术论坛上,中国科学院空天信息创新研究院(以下简称“空天院”)发布了首个面向跨模态遥感数据的生成式预训练大模型“空天.灵眸”(RingMo,Remote Sensing Foundation Model)。

“空天.灵眸”大模型现场发布图

“空天.灵眸”大模型是空天院联合北京昇腾人工智能生态创新中心技术团队,基于人工智能计算中心的昇腾AI澎湃算力训练而完成。在昇腾AI基础软硬件平台的支持下,尤其是依托昇思MindSpore AI框架原生支持大模型的能力,“空天.灵眸”大模型的并行训练及下游任务开发得以加速实现,已在8个国际标准数据集上达到领先水平,填补了跨模态生成式预训练模型在遥感领域的空白。

 

云图片

 

在模型设计、模型训练、推理优化等方向均进行了独特的技术创新,“空天.灵眸”大模型

深入结合光学、SAR(合成孔径雷达)等跨模态遥感数据的成像机理和目标特性,并在场景分类、检测定位、细粒度识别、要素提取及变化检测等典型下游任务中得到有效验证。

总体来看,“空天.灵眸”大模型具备如下四大亮点:

1)以遥感特性为研发驱动

不同于现有遥感预训练模型大都采用有监督或者对比式学习的模式,基于昇腾AI的“空天.灵眸”大模型依托掩膜自编码结构,是面向复杂场景且更具通用表征能力的遥感生成式自监督预训练模型。

由于采用的是ViT和Swin Transformer等Transformer类骨干网络,该大模型可对遥感数据的局部和全局特征的依赖关系进行有效建模,并结合目标特性引导的自监督学习方法,通过引入几何、电磁、目标结构等多特性约束,让遥感地物通用特征可被自动提取。

 

云图片

 

2)拥有跨模态遥感数据集

为提升遥感预训练模型的特征表达能力,“空天.灵眸”大模型的数据集包含了200多万幅分辨率为0.1m到30m的遥感影像,分别来源于中国遥感卫星地面站、航空遥感飞机等平台,以及高分系列卫星、吉林卫星、QuickBird卫星等。

同时,在数据集中包含了1亿多具有任意角度分布的目标实例,覆盖全球150多个典型城市、乡镇以及常用机场、港口等场景。所用样本数据具备遥感专业特色,且整个样本集都无需标注,能大幅节省训练数据标注成本。

 

云图片

 

3)具备应用任务泛化能力

“空天.灵眸”大模型具备遥感数据理解、复原能力,可实现对跨模态遥感数据的共性语义空间进行表征。

针对不同的下游任务仅需修改预测头部网络,即可灵活快速迁移到不同领域的下游任务中,进行简单微调后可适应多目标细粒度分类、小目标检测识别、复杂地物提取等任务。

 

云图片

 

(4)广泛的产业应用方向

从目标检测识别、地物要素分类等任务的实测比较看,相对于业界通用的视觉模型,“空天.灵眸”大模型对遥感数据应用效果的提升是显著的。

可预见,在未来,基于昇腾AI的“空天.灵眸”大模型的应用不止于在实景三维等领域,或将进一步推广至国土资源、住建交通、水利环保等更多行业,为天临空地一体化应用提供整套解决方案。

“空天.灵眸”大模型的相关成果已在遥感领域顶刊《IEEE Transactions on Geoscience and Remote Sensing》上公开发表。

相关论文信息:

“RingMo: A Remote Sensing Foundation Model with Masked Image Modeling,” in IEEE Transactions on Geoscience and Remote Sensing, 2022, doi: 10.1109/TGRS.2022.3194732.

论文链接:https://ieeexplore.ieee.org/abstract/document/9844015

Loading

作者 yinhua