摘要
本发明公开一种多模态引导的高保真度图像压缩方法、系统及介质,本发明首先通过预训练好的文本编码器和音频编码器提取与图像特征对齐的文本和音频特征,然后将它们与图像特征输入到多模态特征融合模块中进行融合。该多模态特征融合模块利用仿射变换的方法从空间和通道两个维度提取并融合多模态特征。通过在编码器端使用多模态特征融合方式进行引导,不仅增强了特征的提取和表达能力,还可以更好地预测潜在特征的分布。此外,本发明设计了鉴别器以进行多模态引导的生成对抗训练,从而获得高保真度的图像。
技术关键词
图像压缩方法
多模态特征融合
音频编码器
音频特征
图像编码器
紧凑特征
无损解码
语音特征
文本编码器
融合特征
融合多模态特征
模块
设计特征
嵌入特征
图像压缩系统
系统为您推荐了相关专利信息
发电功率预测方法
深度神经网络
预测残差
神经网络结构
生成场景
销售数据管理
电子元件
动态知识图谱
时效性
强化学习算法
网络安全检测方法
网络安全检测系统
风险挖掘
时序预测模型
指纹
分辨率
脑电特征提取
图像嵌入
脑电图数据
多模态
语义特征
文字特征
视觉特征
视频检索方法
图像匹配