一种基于时序对齐和语义增强的多模态视频摘要生成方法

AITNT
正文
推荐专利
一种基于时序对齐和语义增强的多模态视频摘要生成方法
申请号:CN202411730016
申请日期:2024-11-29
公开号:CN119202313B
公开日期:2025-03-28
类型:发明专利
摘要
本发明属于计算机视觉技术领域,涉及一种基于时序对齐和语义增强的多模态视频摘要生成方法,设计了基于时序对齐和语义增强的多模态视频摘要生成模型,根据视频数据输出相应的视频摘要;该模型包括特征提取模块、双尺度注意力模块和视频摘要生成模块,其中,特征提取模块用于提取视觉特征和文本特征,双尺度注意力模块包括条件自注意力网络和协作交互跨模态注意力网络,分别在局部和全局两个尺度上对视觉特征和文本特征进行对齐和融合;该模型利用反向传播算法进行训练,在损失函数中引入了分类损失、基于不同尺度的动态时间规整损失和语义增强铰链损失。与现有技术相比,本发明可以进一步提高视频摘要的生成效果。
技术关键词
视频摘要生成方法 动态时间规整 语义 视觉特征 文本 时序 特征提取模块 矩阵 跨模态 传播算法 注意力机制 截断奇异值 网络 计算机视觉技术 铰链 预训练模型
系统为您推荐了相关专利信息
1
一种模型训练方法、图像生成方法、装置及电子设备
图像生成模型 体貌特征 基础 噪声偏差 对象
2
贷后动态提醒方法、装置、设备、存储介质及产品
自然语言技术 计算机执行指令 随机森林模型 客户 文本
3
基于语义保持扰动的大模型不确定度估计方法及其系统
度估计方法 语义 干预方法 文本 自然语言
4
一种基于无人机采集图像与图像识别的树木建模方法
三维点云模型 树木建模方法 无人机采集图像 语义标签 特征点
5
一种基于人工智能的对话训练方法及系统
员工 客户 对话生成模型 意图识别模型 能力评价模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号