摘要
本申请属于视频时刻定位技术领域,公开了一种视频时刻定位的方法、装置、设备及介质,方法包括步骤:利用对比损失函数对VTG模型进行训练,获取目标VTG模型;利用目标VTG模型生成多个候选框及第一粗粒度分数;构建目标视频‑文本模型,并利用目标视频‑文本预训练模型提取各候选框的视频特征及文本特征;根据所述视频特征及文本特征计算各候选框的细粒度分数,根据第一粗粒度分数及细粒度分数计算所述候选框的总得分,利用所述总得分对各个候选框进行细粒度排序;根据所述细粒度排序对输入视频进行视频时刻定位。实施本发明,解决了导致正负样本不平衡问题,改善了模型的鲁棒性。提高了细粒度排序对下游任务的匹配,增强了对候选框的准确排序。
技术关键词
视频
文本
计算机可读指令
转换器模块
样本
关键帧
可读存储介质
预训练模型
适配器
定位技术
处理器
计算机设备
定位模块
分类器
存储器
鲁棒性
注意力
系统为您推荐了相关专利信息
分块策略
序列
滑动窗口
非暂态计算机可读存储介质
语义向量
搬运方法
承重梁
变压器
相机模块
融合多传感器数据
三维网格模型
节点
视频采集设备
逃生路径规划方法
烟雾