一种融合多模态特征的编码器架构优化方法及系统

AITNT
正文
推荐专利
一种融合多模态特征的编码器架构优化方法及系统
申请号:CN202510109645
申请日期:2025-01-23
公开号:CN120088346B
公开日期:2025-07-22
类型:发明专利
摘要
本发明提供一种融合多模态特征的编码器架构优化方法及系统,涉及数据处理技术领域,所述方法包括:训练过程中动态调整宫格数量,并允许同一合成图像内子图的大小不完全相同,以提升模型对不同粒度patch token的处理能力,并将其推广到视频编码;推理阶段,将多个任务请求对应的子图(子视频)合成为一张大图像(大视频)输入模型,通过分组注意力机制为每组子图(子视频)生成CLS token,与文本编码器输出的向量计算余弦相似度,并对所有组的损失取平均作为最终结果。本发明提升了不同尺度多模态特征融合的效果并极大的提高了模型推理的速度。
技术关键词
融合多模态特征 编码器架构 注意力机制 文本编码器 动态 图像编码器 多模态特征融合 分辨率 文本特征向量 遗传算法 词嵌入模型 音频 样本 视频
系统为您推荐了相关专利信息
1
一种用于图像语义分割的可调节多尺度编码器增强方法
特征提取模块 图像语义分割 多尺度 编码器 索引
2
一种基于对偶图神经网络的代码注释生成方法和系统
代码注释生成方法 抽象语法树 生成自然语言 解码器 编码器
3
一种基于DDIM的红外图像生成系统、方法及应用
图像生成方法 图像生成系统 引入注意力机制 后处理模块 模型训练模块
4
一种耕地质量动态监测点位库构建方法
动态监测点 耕地 监测单元 景观 土地利用现状
5
电力用户碳排放监测方法、计算机设备和可读存储介质
碳排放监测方法 电力 能源消耗统计数据 特征值 生成建议
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号