一种基于多模态注意力机制的视频问答方法和系统

正文

推荐专利

申请号：CN202510467075

申请日期：2025-04-15

公开号：CN120611063A

公开日期：2025-09-09

类型：发明专利

摘要

本发明提供一种基于多模态注意力机制的视频问答方法和系统，方法包括：获取视频数据和文本数据；文本数据至少包括：问题文本和视频数据对应的描述文本；分别从视频数据和文本数据中提取视觉特征和文本特征，并对视觉特征进行投影，与文本特征对齐；基于注意力机制将投影后的视觉特征与文本特征进行融合，生成多模态融合特征；对多模态融合特征进行编码，得到编码特征；将编码特征输入预训练的自然语言模型，自然语言模型输出问题的最终答案；本发明能够有效整合视频和文本模态的信息，显著增强了模态之间的交互能力，显著提升模型对多模态语义关系的理解能力，并能够自动聚焦于视觉和文本模态中最重要的信息，以实现更准确的问答任务。

技术关键词

视频问答方法多模态注意力自然语言模型文本融合特征编码特征注意力机制视觉特征提取特征提取器多模态数据采集适配器结构答案编码器

系统为您推荐了相关专利信息

融合别名库和文本相似度的烟草实体链接方法及系统

实体链接方法命名实体识别模型文本键值实体链接系统

基于文档图像的问答方法、装置、设备、存储介质及程序产品

图像特征信息标识问答模型计算机执行指令图文

一种车端控制模型的优化方法、装置、设备及介质

云端文本指令语音可读存储介质

一种基于跨模态充电桩维护知识库的诊断方法

跨模态诊断方法文本编码器图像编码器注意力

基于深度学习和合成数据的物体位姿估计方法及相关设备

物体位姿估计方法注意力机制融合特征图像多层感知机

一种基于多模态注意力机制的视频问答方法和系统

站点导航

APP 下载