摘要
本发明公开基于问题理解和时序引导的视频问答方法及系统,属于视频问答技术领域;方法包括:用视频编码器从原始视频中提取视频特征,使用文本编码器从给定问题和候选答案中提取问题‑答案特征;通过负样本筛选策略构建负样本问题,并使用负样本问题训练视频问答模型;对视频类型进行划分,通过时序扰乱方法构建负样本视频,并使用负样本视频训练视频问答模型;将视频、问题和候选答案输入训练好的视频问答模型,预测答案;视频问答模型包括:视频编码器、文本编码器,以及一个包含自注意力层、交叉注意力层和前向传播层的跨模态特征提取器,跨模态特征提取器将问题‑答案特征作为查询向量,将视频特征作为键值向量进行跨模态交互。
技术关键词
视频问答方法
问答模型
答案
文本编码器
视频编码器
时序扰乱方法
样本
跨模态
特征提取器
注意力
融合特征
问答技术
通信接口
键值
计算机存储介质
特征提取模块
问答系统
分类器
系统为您推荐了相关专利信息
可见光图像
融合方法
滑动窗口
语义特征
交叉模块
问答模型
答案
数据处理方法
计算机程序产品
思维导图形式
分布式传感器网络
特征提取模型
识别方法
对齐模块
多模态传感器