一种多模态引导的高保真度图像压缩方法、系统及介质

正文

推荐专利

申请号：CN202510020886

申请日期：2025-01-06

公开号：CN119906827B

公开日期：2025-10-10

类型：发明专利

摘要

本发明公开一种多模态引导的高保真度图像压缩方法、系统及介质，本发明首先通过预训练好的文本编码器和音频编码器提取与图像特征对齐的文本和音频特征，然后将它们与图像特征输入到多模态特征融合模块中进行融合。该多模态特征融合模块利用仿射变换的方法从空间和通道两个维度提取并融合多模态特征。通过在编码器端使用多模态特征融合方式进行引导，不仅增强了特征的提取和表达能力，还可以更好地预测潜在特征的分布。此外，本发明设计了鉴别器以进行多模态引导的生成对抗训练，从而获得高保真度的图像。

技术关键词

图像压缩方法多模态特征融合音频编码器音频特征图像编码器紧凑特征无损解码语音特征文本编码器融合特征融合多模态特征模块设计特征嵌入特征图像压缩系统

系统为您推荐了相关专利信息

基于深度神经网络的波浪能发电功率预测方法及系统

发电功率预测方法深度神经网络预测残差神经网络结构生成场景

一种电子元件线上销售数据管理及维护系统

销售数据管理电子元件动态知识图谱时效性强化学习算法

基于机器学习的网络安全检测系统及方法

网络安全检测方法网络安全检测系统风险挖掘时序预测模型指纹

一种基于多模态扩散模型从大脑活动重建图像的方法

分辨率脑电特征提取图像嵌入脑电图数据多模态

一种多模态组合视频检索方法及装置

语义特征文字特征视觉特征视频检索方法图像匹配

一种多模态引导的高保真度图像压缩方法、系统及介质

站点导航

APP 下载