一种基于多模态理解的场景时序位置检测方法、装置、存储介质及电子设备

AITNT
正文
推荐专利
一种基于多模态理解的场景时序位置检测方法、装置、存储介质及电子设备
申请号:CN202510998908
申请日期:2025-07-21
公开号:CN120510555B
公开日期:2025-10-28
类型:发明专利
摘要
本申请提供了一种基于多模态理解的场景时序位置检测方法、装置、存储介质及电子设备,涉及多模态视频理解和深度学习领域,所述方法包括:将视频切分为多个镜头片段,并标注出镜头片段切换的入出点时码信息及标签,构建训练集和验证集;基于时码信息的文本特征、镜头片段的视觉特征以及设计的提示文本拼接组合生成输入特征序列;构建预训练模型;采用有监督微调策略利用训练集对预训练模型进行训练,优化预训练模型参数;将所述输入特征序列输入至预训练模型并利用组相对策略优化强化学习算法梯度优化预训练模型;利用验证集对预训练模型进行全面评估。本方法解决了现有技术在复杂视频场景下标签提取精度低、效率差的核心问题。
技术关键词
预训练模型 强化学习算法 视觉特征 位置检测方法 镜头 文本 多模态 输出特征 视频场景识别 标签 策略 计算机 序列 电子设备 位置检测装置 时序 参数 存储器
系统为您推荐了相关专利信息
1
一种基于深度强化学习的多机器人协同围捕方法
围捕方法 多机器人协同 混合网络 阶段 参数
2
基于缺失模态生成的多模态药物分子预测方法
结构编码器 预训练模型 跨模态 分子预测方法 序列
3
基于FMCW雷达的双通道深度强化学习跌倒预测方法及系统
FMCW雷达 跌倒预测方法 网络 交叉注意力机制 数据
4
一种房屋估价方法及装置
特征提取模块 训练样本集 房屋 估价方法 基础
5
基于信息瓶颈训练的小分子虚拟筛选方法及装置
虚拟筛选方法 样本 编码器 分子 预训练模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号