摘要
本申请实施例一种视频问答方法、装置、设备和存储介质。该方法包括:对用户问题和待分析视频进行编码处理,得到所述用户问题对应的问题编码和所述待分析视频对应的多个连续视频帧编码;根据预训练的关键信息查询向量从所述问题编码中确定目标关键信息;根据所述目标关键信息和多个所述连续视频帧编码生成多个基于用户问题引导的视频帧编码,并基于所述目标关键信息对多个所述基于用户问题引导的视频帧编码进行融合处理,得到目标编码信息;将所述目标编码信息与所述问题编码输入至预训练语言模型,得到所述预训练语言模型输出的响应答案,节省了计算资源,提高了处理效率。
技术关键词
视频帧
编码
视频问答方法
计算机执行指令
预训练语言模型
计算机存储介质
空间结构
答案
问答装置
注意力
存储器
处理器
矩阵
模块
系统为您推荐了相关专利信息
轴承故障预测方法
编码器
传动链
指标
故障预测模型
自动化分析方法
无监督机器学习
重构模型
半监督机器学习
样本
图像生成方法
噪声图像
微调方法
样本
差分隐私机制
视频字幕生成方法
情感特征
情感类别
视频帧
编码模块