一种基于预训练模型的视频问答系统及方法

正文

推荐专利

一种基于预训练模型的视频问答系统及方法

申请号：CN202510936451

申请日期：2025-07-08

公开号：CN120853081A

公开日期：2025-10-28

类型：发明专利

摘要

本发明公开了一种基于预训练模型的视频问答系统及方法，系统包括：数据集处理模块、空间特征融合模块、语义增强模块、时序增强模块和视频问答模块；数据集处理模块用于获取数据集中的文本形式的问题，并将问题对应的视频进行视频帧提取，得到若干输入图像；空间特征融合模块用于提取输入图像的全局视觉特征和局部视觉特征，并通过注意力机制进行融合，得到融合视觉特征；语义增强模块用于提取文本形式的问题的文本特征，并基于文本特征和融合视觉特征得到增强文本特征；时序增强模块基于融合视觉特征得到增强视觉特征，并基于增强视觉特征预测后一帧的视觉特征；视频问答模块用于基于增强文本特征和视觉特征输出相关答案，完成视频问答。

技术关键词

融合视觉特征预训练模型视频问答方法输出特征问答系统注意力机制局部视觉特征全局视觉特征模块文本编码器局部空间特征时序语义视频帧解码器

系统为您推荐了相关专利信息

基于背景重建的钢中非金属夹杂物检测方法和系统

非金属夹杂物掩膜后处理模块夹杂物信息分类神经网络

一种基于Wi-Fi信号的复合活动跌倒检测方法

跌倒检测方法活动特征注意力分类器前馈神经网络

LED二极管故障自诊断方法及系统

LED二极管诊断方法故障自诊断系统因子实时数据

一种基于长短期特征的时间序列预测方法

时间序列预测方法时间序列数据处理编码器残差结构多尺度特征提取

一种面向机动车驾驶教学知识图谱的问答系统与构建方法

机动车驾驶教学动态知识图谱智能推理消息队列遥测传输实时路况

一种基于预训练模型的视频问答系统及方法

站点导航

APP 下载