一种基于时序对齐和语义增强的多模态视频摘要生成方法

正文

推荐专利

申请号：CN202411730016

申请日期：2024-11-29

公开号：CN119202313B

公开日期：2025-03-28

类型：发明专利

摘要

本发明属于计算机视觉技术领域，涉及一种基于时序对齐和语义增强的多模态视频摘要生成方法，设计了基于时序对齐和语义增强的多模态视频摘要生成模型，根据视频数据输出相应的视频摘要；该模型包括特征提取模块、双尺度注意力模块和视频摘要生成模块，其中，特征提取模块用于提取视觉特征和文本特征，双尺度注意力模块包括条件自注意力网络和协作交互跨模态注意力网络，分别在局部和全局两个尺度上对视觉特征和文本特征进行对齐和融合；该模型利用反向传播算法进行训练，在损失函数中引入了分类损失、基于不同尺度的动态时间规整损失和语义增强铰链损失。与现有技术相比，本发明可以进一步提高视频摘要的生成效果。

技术关键词

视频摘要生成方法动态时间规整语义视觉特征文本时序特征提取模块矩阵跨模态传播算法注意力机制截断奇异值网络计算机视觉技术铰链预训练模型

系统为您推荐了相关专利信息

一种模型训练方法、图像生成方法、装置及电子设备

图像生成模型体貌特征基础噪声偏差对象

贷后动态提醒方法、装置、设备、存储介质及产品

自然语言技术计算机执行指令随机森林模型客户文本

基于语义保持扰动的大模型不确定度估计方法及其系统

度估计方法语义干预方法文本自然语言

一种基于无人机采集图像与图像识别的树木建模方法

三维点云模型树木建模方法无人机采集图像语义标签特征点

一种基于人工智能的对话训练方法及系统

员工客户对话生成模型意图识别模型能力评价模型

一种基于时序对齐和语义增强的多模态视频摘要生成方法

站点导航

APP 下载