摘要
本发明公开了一种基于预训练模型的视频问答系统及方法,系统包括:数据集处理模块、空间特征融合模块、语义增强模块、时序增强模块和视频问答模块;数据集处理模块用于获取数据集中的文本形式的问题,并将问题对应的视频进行视频帧提取,得到若干输入图像;空间特征融合模块用于提取输入图像的全局视觉特征和局部视觉特征,并通过注意力机制进行融合,得到融合视觉特征;语义增强模块用于提取文本形式的问题的文本特征,并基于文本特征和融合视觉特征得到增强文本特征;时序增强模块基于融合视觉特征得到增强视觉特征,并基于增强视觉特征预测后一帧的视觉特征;视频问答模块用于基于增强文本特征和视觉特征输出相关答案,完成视频问答。
技术关键词
融合视觉特征
预训练模型
视频问答方法
输出特征
问答系统
注意力机制
局部视觉特征
全局视觉特征
模块
文本编码器
局部空间特征
时序
语义
视频帧
解码器
系统为您推荐了相关专利信息
非金属夹杂物
掩膜
后处理模块
夹杂物信息
分类神经网络
跌倒检测方法
活动特征
注意力
分类器
前馈神经网络
LED二极管
诊断方法
故障自诊断系统
因子
实时数据
时间序列预测方法
时间序列数据处理
编码器
残差结构
多尺度特征提取
机动车驾驶教学
动态知识图谱
智能推理
消息队列遥测传输
实时路况