摘要
本发明涉及一种基于实时共享Transformer的多模态特征级融合方法,涉及多模态数据处理技术领域。该方法包括:将图像信息、文本信息、语音信息分别传入到映射模块,得到三种编码切片的嵌入向量;将三种编码切片的嵌入向量分别传入到普通transformer编码模块,得到三种编码令牌;将三种编码令牌同时传入到实时共享transformer编码模块,得到三种共享编码;三种共享编码传入自适应性融合模块,得到一个包含所有模态信息的联合特征表示。该方法通过将多模态数据转换为嵌入向量,进行特征提取和编码之后,进行跨模态信息共享,最后在自适应性融合模块中整合所有模态的信息,实现将多模态信息更加全面有机地融合。
技术关键词
图像编码
语音编码
令牌
模态特征
融合方法
切片
文本
音频编码
编码模块
前馈神经网络
编码特征
注意力机制
多模态
数据处理技术
融合系统
系统为您推荐了相关专利信息
数据特征提取
彩色图像
机器人操作系统
机器人模仿学习
多模态特征
复发预测方法
射频消融术
频谱特征分析
房颤
轨迹聚类算法
数据辅助标注方法
图像分割模型
语义
图像特征向量
标签