摘要
本发明实施例公开了一种数据多模态表征方法、装置、电子设备及存储介质,该方法包括:获取待处理数据;基于待处理数据和预先训练得到的多模态表征模型,确定与待处理数据相对应的多模态表征向量;其中,多模态表征模型中包括视频处理子模型、文本处理子模型以及多模态解码器,视频处理子模型用于对视频帧序列和提示文本处理,文本处理子模型用于对文本内容和提示文本处理,多模态解码器用于对视频处理子模型和文本处理子模型输出的结果进行融合处理,得到建立视频帧序列和文本内容之间关联关系的多模态表征向量。通过本发明实施例的技术方案,以实现便捷、高效地建立视频帧序列和文本内容之间准确关联关系的多模态表征向量的技术效果。
技术关键词
多模态
文本
视频帧
解码器
表征方法
序列
样本
计算机可执行指令
视频编码
关系
电子设备
表征装置
视频流
数据获取模块
标签
处理器
注意力
存储装置
系统为您推荐了相关专利信息
识别系统
图像处理单元
可视化界面
限位框
输液监控仪
分析电力系统
编码器
训练样本数据
暂态稳定分析
解码器
三维图像处理
三维图像数据
图像结构
自然语言
矩阵
注意力
特征融合网络
参数转换方法
检测网络模型
模块