摘要
本发明涉及视频描述领域,具体涉及一种基于多模态记忆知识的密集视频描述方法,包括:提取输入视频的视觉特征和音频特征并进行跨模态融合,生成最终音频编码和最终视觉编码;基于最终音频编码和最终视觉编码,从输入视频中确定多个候选事件的事件视觉特征和事件音频特征;对于每个候选事件,基于其对应的事件视觉特征和事件音频特征,从外部记忆知识库中检索其匹配的外部知识,生成其对应的多模态外部记忆知识;基于每个候选事件的多模态外部记忆知识、事件视觉特征和事件音频特征,通过自回归机制逐步构建单词嵌入序列,生成输入视频的描述。本发明能够从更全面的信息中学习事件与描述之间的对应关系,显著提升了生成描述的准确性和丰富性。
技术关键词
音频特征
视觉特征
注意力
跨模态
音频编码
生成输入视频
多模态
压缩特征
sigmoid函数
记忆特征
文本
序列
代表
聚类
自然语言
系统为您推荐了相关专利信息
情绪识别模型
多模态
训练系统
教师
生成对抗网络