摘要
本发明提供一种融合多模态特征的编码器架构优化方法及系统,涉及数据处理技术领域,所述方法包括:训练过程中动态调整宫格数量,并允许同一合成图像内子图的大小不完全相同,以提升模型对不同粒度patch token的处理能力,并将其推广到视频编码;推理阶段,将多个任务请求对应的子图(子视频)合成为一张大图像(大视频)输入模型,通过分组注意力机制为每组子图(子视频)生成CLS token,与文本编码器输出的向量计算余弦相似度,并对所有组的损失取平均作为最终结果。本发明提升了不同尺度多模态特征融合的效果并极大的提高了模型推理的速度。
技术关键词
融合多模态特征
编码器架构
注意力机制
文本编码器
动态
图像编码器
多模态特征融合
分辨率
文本特征向量
遗传算法
词嵌入模型
音频
样本
视频
系统为您推荐了相关专利信息
代码注释生成方法
抽象语法树
生成自然语言
解码器
编码器
图像生成方法
图像生成系统
引入注意力机制
后处理模块
模型训练模块
碳排放监测方法
电力
能源消耗统计数据
特征值
生成建议