摘要
本发明公开了基于大语言模型先验的多模态融合图像翻译方法及系统,该方法包括:获取配准后的红外‑可见光融合图像以及对应的语义掩码和文本描述并进行数据预处理,得到融合图像特征、语义掩码视觉特征与文本语义特征序列;基于文本‑视觉状态空间块与三维选择性扫描块,构建多模态融合图像模态翻译模型;基于多模态融合图像模态翻译模型对融合图像特征、语义掩码视觉特征与文本语义特征序列进行图像翻译处理,得到翻译后的具有可见光分布特性的目标图像。本发明能够通过文本、掩码和图像之间的交互捕捉长期依赖关系,提升多模态融合图像翻译的精度。本发明作为基于大语言模型先验的多模态融合图像翻译方法及系统,可广泛应用于图像处理技术领域。
技术关键词
融合图像特征
图像翻译方法
视觉特征
语义特征
翻译模型
文本
大语言模型
多模态特征融合
可见光
序列
线性
图像重建
图像翻译系统
注意力
检测损失
系统为您推荐了相关专利信息
内容抽取方法
逻辑
表格区域识别
一致性检测
文档图像处理技术
缺陷检测方法
残差模块
特征融合网络
特征提取网络
通道注意力机制
图像修复方法
级联
卷积解码器
卷积编码器
注意力
序列预测模型
序列预测方法
变量
计算机设备
编码器