基于多模态记忆知识的密集视频描述方法

正文

推荐专利

基于多模态记忆知识的密集视频描述方法

申请号：CN202510540965

申请日期：2025-04-27

公开号：CN120318740B

公开日期：2025-11-14

类型：发明专利

摘要

本发明涉及视频描述领域，具体涉及一种基于多模态记忆知识的密集视频描述方法，包括：提取输入视频的视觉特征和音频特征并进行跨模态融合，生成最终音频编码和最终视觉编码；基于最终音频编码和最终视觉编码，从输入视频中确定多个候选事件的事件视觉特征和事件音频特征；对于每个候选事件，基于其对应的事件视觉特征和事件音频特征，从外部记忆知识库中检索其匹配的外部知识，生成其对应的多模态外部记忆知识；基于每个候选事件的多模态外部记忆知识、事件视觉特征和事件音频特征，通过自回归机制逐步构建单词嵌入序列，生成输入视频的描述。本发明能够从更全面的信息中学习事件与描述之间的对应关系，显著提升了生成描述的准确性和丰富性。

技术关键词

音频特征视觉特征注意力跨模态音频编码生成输入视频多模态压缩特征 sigmoid函数记忆特征文本序列代表聚类自然语言

系统为您推荐了相关专利信息

数字人生成方法、装置、设备及介质

姿态特征情感特征音频特征融合特征训练特征

一种支气管镜导航方法及系统

三维模型特征点云支气管镜节点时序

用于多模态的情绪识别模型训练系统

情绪识别模型多模态训练系统教师生成对抗网络

歌曲表征输出模型的训练方法、歌曲处理方法

样本文本音频编码计算机程序产品处理器

基于大模型智能体的事件线索动态研判方法

线索量子态研判方法注意力数值

基于多模态记忆知识的密集视频描述方法

站点导航

APP 下载