一种基于多模态理解的场景时序位置检测方法、装置、存储介质及电子设备

正文

推荐专利

申请号：CN202510998908

申请日期：2025-07-21

公开号：CN120510555B

公开日期：2025-10-28

类型：发明专利

摘要

本申请提供了一种基于多模态理解的场景时序位置检测方法、装置、存储介质及电子设备，涉及多模态视频理解和深度学习领域，所述方法包括：将视频切分为多个镜头片段，并标注出镜头片段切换的入出点时码信息及标签，构建训练集和验证集；基于时码信息的文本特征、镜头片段的视觉特征以及设计的提示文本拼接组合生成输入特征序列；构建预训练模型；采用有监督微调策略利用训练集对预训练模型进行训练，优化预训练模型参数；将所述输入特征序列输入至预训练模型并利用组相对策略优化强化学习算法梯度优化预训练模型；利用验证集对预训练模型进行全面评估。本方法解决了现有技术在复杂视频场景下标签提取精度低、效率差的核心问题。

技术关键词

预训练模型强化学习算法视觉特征位置检测方法镜头文本多模态输出特征视频场景识别标签策略计算机序列电子设备位置检测装置时序参数存储器

系统为您推荐了相关专利信息

一种基于深度强化学习的多机器人协同围捕方法

围捕方法多机器人协同混合网络阶段参数

基于缺失模态生成的多模态药物分子预测方法

结构编码器预训练模型跨模态分子预测方法序列

基于FMCW雷达的双通道深度强化学习跌倒预测方法及系统

FMCW雷达跌倒预测方法网络交叉注意力机制数据

一种房屋估价方法及装置

特征提取模块训练样本集房屋估价方法基础

基于信息瓶颈训练的小分子虚拟筛选方法及装置

虚拟筛选方法样本编码器分子预训练模型

一种基于多模态理解的场景时序位置检测方法、装置、存储介质及电子设备

站点导航

APP 下载