摘要
本申请涉及视频处理技术领域,公开一种用于视频分镜打标的方法及装置、电子设备,其中,方法包括:根据视频画面的变化程度,对原始视频进行切分,获得多个视频分镜;在每个视频分镜中,提取多模态特征信息;基于多模态大语言模型,根据每个视频分镜的多模态特征信息分别进行标签内容提取,实现对每个视频分镜的标注。根据视频画面的变化程度来切分视频分镜,能够对视频内容进行精确的切分。在每个视频分镜中从多个维度对视频内容进行分析,提取多模态特征信息,全面反映视频内容的特性。最后基于多模态大语言模型对多模态特征信息进行标签内容提取,能够更准确地理解视频内容,灵活地适应不同的视频内容和标注需求,实现更高精度的视频分镜打标。
技术关键词
视频
多模态特征
电子设备本体
大语言模型
自定义标签
画面
文本
视觉
图像分析
语音
分段
处理器
程序
指令
语义
音频
系统为您推荐了相关专利信息
自动烹饪设备
人工智能模型
系统接口模块
客户端
热传递
网络安全漏洞
分析方法
大语言模型
网络系统
矩阵
葡萄种植系统
水肥一体机
数据管理系统
二氧化碳监控系统
预警管理系统