一种融合多模态特征的编码器架构优化方法及系统

正文

推荐专利

申请号：CN202510109645

申请日期：2025-01-23

公开号：CN120088346B

公开日期：2025-07-22

类型：发明专利

摘要

本发明提供一种融合多模态特征的编码器架构优化方法及系统，涉及数据处理技术领域，所述方法包括：训练过程中动态调整宫格数量，并允许同一合成图像内子图的大小不完全相同，以提升模型对不同粒度patch token的处理能力，并将其推广到视频编码；推理阶段，将多个任务请求对应的子图(子视频)合成为一张大图像(大视频)输入模型，通过分组注意力机制为每组子图(子视频)生成CLS token，与文本编码器输出的向量计算余弦相似度，并对所有组的损失取平均作为最终结果。本发明提升了不同尺度多模态特征融合的效果并极大的提高了模型推理的速度。

技术关键词

融合多模态特征编码器架构注意力机制文本编码器动态图像编码器多模态特征融合分辨率文本特征向量遗传算法词嵌入模型音频样本视频

系统为您推荐了相关专利信息

一种用于图像语义分割的可调节多尺度编码器增强方法

特征提取模块图像语义分割多尺度编码器索引

一种基于对偶图神经网络的代码注释生成方法和系统

代码注释生成方法抽象语法树生成自然语言解码器编码器

一种基于DDIM的红外图像生成系统、方法及应用

图像生成方法图像生成系统引入注意力机制后处理模块模型训练模块

一种耕地质量动态监测点位库构建方法

动态监测点耕地监测单元景观土地利用现状

电力用户碳排放监测方法、计算机设备和可读存储介质

碳排放监测方法电力能源消耗统计数据特征值生成建议

一种融合多模态特征的编码器架构优化方法及系统

站点导航

APP 下载