摘要
本发明公开了一种基于预训练大模型自适应静态增强的视频片段定位方法,首先构建训练样本集,构建视频片段定位模型,先根据动态查询生成静态查询,再分别编码得到动态查询特征和静态查询特征,对视频进行分割后编码得到视频特征,采用基于记忆增强的动态静态交互机制对以上特征进行融合,得到动态交互特征和动态‑静态交互特征,先推理得到时刻查询和初始预测时间段,然后采用根据动态交互特征、动态‑静态交互特征和时刻查询对初始预测时间段进行微调,生成最终的预测时间段,采用训练样本集对视频片段定位模型,采用训练好的视频片段定位模型进行视频片段定位。本发明可以显著提升视频片段定位的准确率。
技术关键词
交互特征
视频片段定位方法
时间段
查询特征
文本编码器
解码器
动态标识符
交叉注意力机制
模块
语义特征
矩阵
交互机制
训练样本集
参数
记忆
描述符
系统为您推荐了相关专利信息
混凝土温度场
LSTM模型
重构方法
温度场重构
DNN模型
参数
神经网络模型训练
BP神经网络模型
功率
养殖工船技术
交通拥堵状态
导航路线规划方法
多模态交互
路段
车辆
存储器
子模块
资源调度系统
基板管理控制器
资源调度方法