一种基于深度神经网络的多模态视频定位方法

正文

推荐专利

申请号：CN202411473451

申请日期：2024-10-22

公开号：CN119445439A

公开日期：2025-02-14

类型：发明专利

摘要

本发明公开了一种基于深度神经网络的多模态视频定位方法，该方法首先将用户输入的句子S分解，对于句子中的每个单词依据词性分类，使用独热编码表示分类结果，并对句子S初始化获得词特征矩阵。其次根据词特征矩阵，得到语言查询特征矩阵，根据独热编码提取实体信息特征和动作信息特征。然后基于用户输入视频，生成视觉特征，结合实体信息特征，获取实体的视觉特征。最后基于实体的视觉特征，通过全连接层计算视频帧的动作相关得分，通过双分支网络预测目标动作片段的起始边界和结束边界，得到定位结果，并构建损失函数进行反向训练。本发明解决视频定位中预测精度低的技术问题，提高视频中动作边界预测的准确性。

技术关键词

视频定位方法视觉特征深度神经网络矩阵查询特征词特征实体双分支网络融合视觉编码元素带温度模块视频帧注意力运动关系时序

系统为您推荐了相关专利信息

一种用于工业控制的压力传感器数据精度补偿方法及系统

精度补偿方法参数动作反馈信号序列工业控制系统

一种超声波发生器的智能参数调控方法及系统

超声波发生器参数调控方法调控模型智能调控特征值

一种基于改进的BP神经网络的页岩储层脆性指数地震智能预测方法

页岩储层脆性地震预测方法岩石参数误差函数数据体

一种自来水检测方法、系统及存储介质

数据初始聚类中心溶解氧自来水指令

一种基于IRS辅助全双工双向通信的速率最大化方法

全双工双向通信速率最大化方法预编码向量拉格朗日对偶 IRS辅助通信系统

一种基于深度神经网络的多模态视频定位方法

站点导航

APP 下载