摘要
本发明公开了一种模型训练方法、视频定位方法、系统、设备、产品及介质,涉及视频数据处理领域,用于解决定位音频事件时将视频模态视作噪声导致定位不准确的问题。获取训练数据集;根据视觉特征得到第一知识图结构,根据音频特征得到第二知识图结构;根据两个知识图结构对第一神经网络模型优化得到目标神经网络模型,目标神经网络模型用于对待处理视频数据进行类别标签定位。本发明通过构建视觉特征和音频特征对应的知识图结构,使用知识图结构优化第一神经网络模型,并未将视觉信息视为噪声,能捕捉和利用音频与视频间的复杂关联关系,能够更好地整合和利用多模态数据,提高得到的目标神经网络模型的定位精度和可靠性。
技术关键词
神经网络模型
音频特征
视觉特征
模型训练方法
视频定位方法
矩阵
邻居
非易失性存储介质
样本
存储计算机程序
模型训练系统
数据
参数
标签
计算机程序产品
节点
处理器
系统为您推荐了相关专利信息
动态监测方法
气象
光谱仪
PLS模型
神经网络模型
手语动画
电视显示界面
深度神经网络模型
音频
同步显示字幕
碳复合材料
热传导方程
增广拉格朗日
物理
误差方法
模糊测试方法
种子
深度学习模型
转换后图像
队列
短期预测方法
新型电力系统
特征提取算法
复合多尺度
归一化方法