一种基于深度神经网络的多模态视频定位方法

AITNT
正文
推荐专利
一种基于深度神经网络的多模态视频定位方法
申请号:CN202411473451
申请日期:2024-10-22
公开号:CN119445439A
公开日期:2025-02-14
类型:发明专利
摘要
本发明公开了一种基于深度神经网络的多模态视频定位方法,该方法首先将用户输入的句子S分解,对于句子中的每个单词依据词性分类,使用独热编码表示分类结果,并对句子S初始化获得词特征矩阵。其次根据词特征矩阵,得到语言查询特征矩阵,根据独热编码提取实体信息特征和动作信息特征。然后基于用户输入视频,生成视觉特征,结合实体信息特征,获取实体的视觉特征。最后基于实体的视觉特征,通过全连接层计算视频帧的动作相关得分,通过双分支网络预测目标动作片段的起始边界和结束边界,得到定位结果,并构建损失函数进行反向训练。本发明解决视频定位中预测精度低的技术问题,提高视频中动作边界预测的准确性。
技术关键词
视频定位方法 视觉特征 深度神经网络 矩阵 查询特征 词特征 实体 双分支网络 融合视觉 编码 元素 带温度 模块 视频帧 注意力 运动 关系 时序
系统为您推荐了相关专利信息
1
一种用于工业控制的压力传感器数据精度补偿方法及系统
精度补偿方法 参数 动作反馈信号 序列 工业控制系统
2
一种超声波发生器的智能参数调控方法及系统
超声波发生器 参数调控方法 调控模型 智能调控 特征值
3
一种基于改进的BP神经网络的页岩储层脆性指数地震智能预测方法
页岩储层脆性 地震预测方法 岩石参数 误差函数 数据体
4
一种自来水检测方法、系统及存储介质
数据 初始聚类中心 溶解氧 自来水 指令
5
一种基于IRS辅助全双工双向通信的速率最大化方法
全双工双向通信 速率最大化方法 预编码向量 拉格朗日对偶 IRS辅助通信系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号