摘要
本发明公开了一种基于层次化选择框架的视频问答建模方法,其特征在于,首先进行视频数据和文本数据预处理,得到视频片段特征、物体特征、物体特征、问题特征、问题词特征和候选答案特征作为视频问答模型的输入;根据时间跨度和空间跨度从大到小层次化地选择视频片段特征、视频帧特征和物体特征,然后与问题特征进行特征融合,实现对答案的预测。本发明方法可以和不同的预训练模型结合训练与微调,即插即用;能够层次化地选择与问题相关的视频片段、视频帧和物体特征,实现问题相关关键特征的提取,以及对无关冗余信息的过滤。
技术关键词
视频帧特征
词特征
建模方法
物体
问答模型
答案
语言编码器
视觉特征
模块
框架
融合特征
数据
跨模态
矩阵
线型
文本
图像
线性
系统为您推荐了相关专利信息
优化BP神经网络
主轴热误差
建模方法
神经网络模型
高速电主轴
机器人脚部
机器人运动控制方法
加速度
关节
计算机存储介质
空间网格结构
装配式节点
有限元分析模型
参数化生成方法
杆件尺寸
三维地质模型
土体参数
建模方法
网格
协方差矩阵