基于大语言模型先验的多模态融合图像翻译方法及系统

正文

推荐专利

申请号：CN202510937899

申请日期：2025-07-08

公开号：CN120430931B

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开了基于大语言模型先验的多模态融合图像翻译方法及系统，该方法包括：获取配准后的红外‑可见光融合图像以及对应的语义掩码和文本描述并进行数据预处理，得到融合图像特征、语义掩码视觉特征与文本语义特征序列；基于文本‑视觉状态空间块与三维选择性扫描块，构建多模态融合图像模态翻译模型；基于多模态融合图像模态翻译模型对融合图像特征、语义掩码视觉特征与文本语义特征序列进行图像翻译处理，得到翻译后的具有可见光分布特性的目标图像。本发明能够通过文本、掩码和图像之间的交互捕捉长期依赖关系，提升多模态融合图像翻译的精度。本发明作为基于大语言模型先验的多模态融合图像翻译方法及系统，可广泛应用于图像处理技术领域。

技术关键词

融合图像特征图像翻译方法视觉特征语义特征翻译模型文本大语言模型多模态特征融合可见光序列线性图像重建图像翻译系统注意力检测损失

系统为您推荐了相关专利信息

一种基于深度学习的PDF文档智能识别与内容抽取方法

内容抽取方法逻辑表格区域识别一致性检测文档图像处理技术

一种基于增强RTDETR的PCB缺陷检测方法

缺陷检测方法残差模块特征融合网络特征提取网络通道注意力机制

一种基于级联可变形卷积的图像修复方法

图像修复方法级联卷积解码器卷积编码器注意力

用于筛选目标客户群体的分析方法、装置、设备及介质

分层客户层级节点互补特征

步态序列预测方法、装置、计算机设备、存储介质和产品

序列预测模型序列预测方法变量计算机设备编码器

基于大语言模型先验的多模态融合图像翻译方法及系统

站点导航

APP 下载