一种基于多模态注意力机制的视频问答方法和系统

AITNT
正文
推荐专利
一种基于多模态注意力机制的视频问答方法和系统
申请号:CN202510467075
申请日期:2025-04-15
公开号:CN120611063A
公开日期:2025-09-09
类型:发明专利
摘要
本发明提供一种基于多模态注意力机制的视频问答方法和系统,方法包括:获取视频数据和文本数据;文本数据至少包括:问题文本和视频数据对应的描述文本;分别从视频数据和文本数据中提取视觉特征和文本特征,并对视觉特征进行投影,与文本特征对齐;基于注意力机制将投影后的视觉特征与文本特征进行融合,生成多模态融合特征;对多模态融合特征进行编码,得到编码特征;将编码特征输入预训练的自然语言模型,自然语言模型输出问题的最终答案;本发明能够有效整合视频和文本模态的信息,显著增强了模态之间的交互能力,显著提升模型对多模态语义关系的理解能力,并能够自动聚焦于视觉和文本模态中最重要的信息,以实现更准确的问答任务。
技术关键词
视频问答方法 多模态注意力 自然语言模型 文本 融合特征 编码特征 注意力机制 视觉特征提取 特征提取器 多模态数据采集 适配器结构 答案 编码器
系统为您推荐了相关专利信息
1
融合别名库和文本相似度的烟草实体链接方法及系统
实体链接方法 命名实体识别模型 文本 键值 实体链接系统
2
基于文档图像的问答方法、装置、设备、存储介质及程序产品
图像特征信息 标识 问答模型 计算机执行指令 图文
3
一种车端控制模型的优化方法、装置、设备及介质
云端 文本 指令 语音 可读存储介质
4
一种基于跨模态充电桩维护知识库的诊断方法
跨模态 诊断方法 文本编码器 图像编码器 注意力
5
基于深度学习和合成数据的物体位姿估计方法及相关设备
物体位姿估计方法 注意力机制 融合特征 图像 多层感知机
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号