基于多模态记忆知识的密集视频描述方法

AITNT
正文
推荐专利
基于多模态记忆知识的密集视频描述方法
申请号:CN202510540965
申请日期:2025-04-27
公开号:CN120318740B
公开日期:2025-11-14
类型:发明专利
摘要
本发明涉及视频描述领域,具体涉及一种基于多模态记忆知识的密集视频描述方法,包括:提取输入视频的视觉特征和音频特征并进行跨模态融合,生成最终音频编码和最终视觉编码;基于最终音频编码和最终视觉编码,从输入视频中确定多个候选事件的事件视觉特征和事件音频特征;对于每个候选事件,基于其对应的事件视觉特征和事件音频特征,从外部记忆知识库中检索其匹配的外部知识,生成其对应的多模态外部记忆知识;基于每个候选事件的多模态外部记忆知识、事件视觉特征和事件音频特征,通过自回归机制逐步构建单词嵌入序列,生成输入视频的描述。本发明能够从更全面的信息中学习事件与描述之间的对应关系,显著提升了生成描述的准确性和丰富性。
技术关键词
音频特征 视觉特征 注意力 跨模态 音频编码 生成输入视频 多模态 压缩特征 sigmoid函数 记忆特征 文本 序列 代表 聚类 自然语言
系统为您推荐了相关专利信息
1
数字人生成方法、装置、设备及介质
姿态特征 情感特征 音频特征 融合特征 训练特征
2
一种支气管镜导航方法及系统
三维模型 特征点云 支气管镜 节点 时序
3
用于多模态的情绪识别模型训练系统
情绪识别模型 多模态 训练系统 教师 生成对抗网络
4
歌曲表征输出模型的训练方法、歌曲处理方法
样本 文本 音频编码 计算机程序产品 处理器
5
基于大模型智能体的事件线索动态研判方法
线索 量子态 研判方法 注意力 数值
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号