基于大语言模型先验的多模态融合图像翻译方法及系统

AITNT
正文
推荐专利
基于大语言模型先验的多模态融合图像翻译方法及系统
申请号:CN202510937899
申请日期:2025-07-08
公开号:CN120430931B
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了基于大语言模型先验的多模态融合图像翻译方法及系统,该方法包括:获取配准后的红外‑可见光融合图像以及对应的语义掩码和文本描述并进行数据预处理,得到融合图像特征、语义掩码视觉特征与文本语义特征序列;基于文本‑视觉状态空间块与三维选择性扫描块,构建多模态融合图像模态翻译模型;基于多模态融合图像模态翻译模型对融合图像特征、语义掩码视觉特征与文本语义特征序列进行图像翻译处理,得到翻译后的具有可见光分布特性的目标图像。本发明能够通过文本、掩码和图像之间的交互捕捉长期依赖关系,提升多模态融合图像翻译的精度。本发明作为基于大语言模型先验的多模态融合图像翻译方法及系统,可广泛应用于图像处理技术领域。
技术关键词
融合图像特征 图像翻译方法 视觉特征 语义特征 翻译模型 文本 大语言模型 多模态特征融合 可见光 序列 线性 图像重建 图像翻译系统 注意力 检测损失
系统为您推荐了相关专利信息
1
一种基于深度学习的PDF文档智能识别与内容抽取方法
内容抽取方法 逻辑 表格区域识别 一致性检测 文档图像处理技术
2
一种基于增强RTDETR的PCB缺陷检测方法
缺陷检测方法 残差模块 特征融合网络 特征提取网络 通道注意力机制
3
一种基于级联可变形卷积的图像修复方法
图像修复方法 级联 卷积解码器 卷积编码器 注意力
4
用于筛选目标客户群体的分析方法、装置、设备及介质
分层 客户 层级 节点 互补特征
5
步态序列预测方法、装置、计算机设备、存储介质和产品
序列预测模型 序列预测方法 变量 计算机设备 编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号