摘要
本发明属于计算机视觉技术领域,涉及一种基于时序对齐和语义增强的多模态视频摘要生成方法,设计了基于时序对齐和语义增强的多模态视频摘要生成模型,根据视频数据输出相应的视频摘要;该模型包括特征提取模块、双尺度注意力模块和视频摘要生成模块,其中,特征提取模块用于提取视觉特征和文本特征,双尺度注意力模块包括条件自注意力网络和协作交互跨模态注意力网络,分别在局部和全局两个尺度上对视觉特征和文本特征进行对齐和融合;该模型利用反向传播算法进行训练,在损失函数中引入了分类损失、基于不同尺度的动态时间规整损失和语义增强铰链损失。与现有技术相比,本发明可以进一步提高视频摘要的生成效果。
技术关键词
视频摘要生成方法
动态时间规整
语义
视觉特征
文本
时序
特征提取模块
矩阵
跨模态
传播算法
注意力机制
截断奇异值
网络
计算机视觉技术
铰链
预训练模型
系统为您推荐了相关专利信息
自然语言技术
计算机执行指令
随机森林模型
客户
文本
三维点云模型
树木建模方法
无人机采集图像
语义标签
特征点
员工
客户
对话生成模型
意图识别模型
能力评价模型