摘要
本申请提供了一种基于多模态理解的场景时序位置检测方法、装置、存储介质及电子设备,涉及多模态视频理解和深度学习领域,所述方法包括:将视频切分为多个镜头片段,并标注出镜头片段切换的入出点时码信息及标签,构建训练集和验证集;基于时码信息的文本特征、镜头片段的视觉特征以及设计的提示文本拼接组合生成输入特征序列;构建预训练模型;采用有监督微调策略利用训练集对预训练模型进行训练,优化预训练模型参数;将所述输入特征序列输入至预训练模型并利用组相对策略优化强化学习算法梯度优化预训练模型;利用验证集对预训练模型进行全面评估。本方法解决了现有技术在复杂视频场景下标签提取精度低、效率差的核心问题。
技术关键词
预训练模型
强化学习算法
视觉特征
位置检测方法
镜头
文本
多模态
输出特征
视频场景识别
标签
策略
计算机
序列
电子设备
位置检测装置
时序
参数
存储器
系统为您推荐了相关专利信息
结构编码器
预训练模型
跨模态
分子预测方法
序列
FMCW雷达
跌倒预测方法
网络
交叉注意力机制
数据