摘要
本发明公开了一种模型训练方法、视频定位方法、系统、设备、产品及介质,涉及视频定位领域,用于解决传统方法中因忽略上下文信息而导致的事件定位准确性不足的问题。该方案通过获取训练视频数据,根据每个视觉片段和音频片段的起始时间和结束时间确定视觉拓展片段和音频拓展片段,并根据视觉拓展片段和音频拓展片段优化视频定位模型,得到目标视频定位模型,目标视频定位模型用于对待处理视频数据进行类别标签定位。通过引入拓展片段,更全面地考虑事件在时间和空间上的延续性,有效地避免了局部信息的限制,使得模型能够更全面地理解和分析视频中的事件,提升了事件定位的精度和鲁棒性。
技术关键词
模型训练方法
预测类别
融合视觉特征
视频定位方法
标签
序列
音频特征
拓展单元
非易失性存储介质
模型训练系统
注意力机制
存储计算机程序
数据
分支
计算机程序产品
系统为您推荐了相关专利信息
图标生成方法
关键词
生成图标
生成程序
加密数据
非对称加密算法
传输方法
无人机遥控器
加密模块
非瞬时性计算机可读存储介质
知识图谱构建方法
家具
知识图谱架构
推荐系统
构建用户画像