摘要
本发明公开了一种基于异构图的多模态教学视频摘要生成方法,包括:获取若干个视频样本形成训练集;建立多模态摘要生成模型并利用训练集训练,模型执行如下操作:分别将视频帧序列和句子序列输入视觉特征提取模型和语言模型,得到视觉特征向量集合和文本特征向量集合形成多模态特征表示;初始化邻接矩阵;将模态内约束矩阵、模态间约束矩阵、邻接矩阵进行哈达玛积,获得优化异构图;执行双阶段融合策略;利用训练好的多模态摘要生成模型输出的多模态统一表示筛选关键视频帧节点集合和关键句子节点集合,并对应保留在优化异构图内的连接关系作为子邻接矩阵,获得多模态摘要图。该方法可生成语义一致、内容丰富的教学视频摘要,泛化能力强。
技术关键词
视频摘要生成方法
视频帧
节点
三元组
样本
文本特征向量
联合损失函数
异构
矩阵
多模态特征
语义
关系
注意力
锚点
视觉特征提取
教学
元素
系统为您推荐了相关专利信息
神经网络预测模型
工况参数
GAN模型
流场特征
三维模型
综合治理方法
人工智能技术
智能探针
决策
综合治理系统
节点特征
数据
LightGBM模型
XGBoost模型
可读存储介质
信息补全方法
数据驱动模型
数据补全技术
故障诊断系统
配电网系统