摘要
本发明公开了一种基于深度神经网络的多模态视频定位方法,该方法首先将用户输入的句子S分解,对于句子中的每个单词依据词性分类,使用独热编码表示分类结果,并对句子S初始化获得词特征矩阵。其次根据词特征矩阵,得到语言查询特征矩阵,根据独热编码提取实体信息特征和动作信息特征。然后基于用户输入视频,生成视觉特征,结合实体信息特征,获取实体的视觉特征。最后基于实体的视觉特征,通过全连接层计算视频帧的动作相关得分,通过双分支网络预测目标动作片段的起始边界和结束边界,得到定位结果,并构建损失函数进行反向训练。本发明解决视频定位中预测精度低的技术问题,提高视频中动作边界预测的准确性。
技术关键词
视频定位方法
视觉特征
深度神经网络
矩阵
查询特征
词特征
实体
双分支网络
融合视觉
编码
元素
带温度
模块
视频帧
注意力
运动
关系
时序
系统为您推荐了相关专利信息
精度补偿方法
参数
动作反馈信号
序列
工业控制系统
超声波发生器
参数调控方法
调控模型
智能调控
特征值
页岩储层脆性
地震预测方法
岩石参数
误差函数
数据体
全双工双向通信
速率最大化方法
预编码向量
拉格朗日对偶
IRS辅助通信系统