摘要
本发明提供了一种多模态数据的特征融合方法、系统、设备及介质,包括:获取文本数据和视频数据,对文本数据和视频数据进行特征提取,分别得到文本特征和图像特征;将文本特征和图像特征分别划分多个文本片段和多个图像片段;构建记忆单元,使用记忆单元生成每个文本片段或图像片段的历史信息;将所有文本片段和图像片段以及对应的历史信息输入到特征提取模型中进行特征提取,得到深度文本特征和深度图像特征;将深度文本特征和深度图像特征进行融合,得到融合特征。本发明解决了现有技术中存在的对具有长距离依赖且时空特征明显的动态特征提取困难,以及多模态特征融合时,简单的特征拼接或加权平均会损失关键信息的问题。
技术关键词
特征融合方法
文本
记忆单元
特征提取模型
图像
融合特征
多层感知机
关键帧
特征融合系统
多模态特征融合
动态特征提取
视频
编码模块
数据特征提取
位置编码器
存储计算机程序
处理器
系统为您推荐了相关专利信息
拍摄图像数据
电力设备
图像生成方法
种子
深度学习算法
异常事件
行车记录仪
数据处理方法
数据处理系统
对象
生成对抗网络
VGG网络
感知损失函数
样本
监测预警方法