一种基于预训练模型的视频问答系统及方法

AITNT
正文
推荐专利
一种基于预训练模型的视频问答系统及方法
申请号:CN202510936451
申请日期:2025-07-08
公开号:CN120853081A
公开日期:2025-10-28
类型:发明专利
摘要
本发明公开了一种基于预训练模型的视频问答系统及方法,系统包括:数据集处理模块、空间特征融合模块、语义增强模块、时序增强模块和视频问答模块;数据集处理模块用于获取数据集中的文本形式的问题,并将问题对应的视频进行视频帧提取,得到若干输入图像;空间特征融合模块用于提取输入图像的全局视觉特征和局部视觉特征,并通过注意力机制进行融合,得到融合视觉特征;语义增强模块用于提取文本形式的问题的文本特征,并基于文本特征和融合视觉特征得到增强文本特征;时序增强模块基于融合视觉特征得到增强视觉特征,并基于增强视觉特征预测后一帧的视觉特征;视频问答模块用于基于增强文本特征和视觉特征输出相关答案,完成视频问答。
技术关键词
融合视觉特征 预训练模型 视频问答方法 输出特征 问答系统 注意力机制 局部视觉特征 全局视觉特征 模块 文本编码器 局部空间特征 时序 语义 视频帧 解码器
系统为您推荐了相关专利信息
1
基于背景重建的钢中非金属夹杂物检测方法和系统
非金属夹杂物 掩膜 后处理模块 夹杂物信息 分类神经网络
2
一种基于Wi-Fi信号的复合活动跌倒检测方法
跌倒检测方法 活动特征 注意力 分类器 前馈神经网络
3
LED二极管故障自诊断方法及系统
LED二极管 诊断方法 故障自诊断系统 因子 实时数据
4
一种基于长短期特征的时间序列预测方法
时间序列预测方法 时间序列数据处理 编码器 残差结构 多尺度特征提取
5
一种面向机动车驾驶教学知识图谱的问答系统与构建方法
机动车驾驶教学 动态知识图谱 智能推理 消息队列遥测传输 实时路况
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号