基于深度学习的任意长度视频全自动多模态机器标注方法

正文

推荐专利

申请号：CN202411559490

申请日期：2024-11-04

公开号：CN119763002A

公开日期：2025-04-04

类型：发明专利

摘要

本发明涉及一种基于深度学习的任意长度视频全自动多模态机器标注方法，包括如下步骤：获取待标注长视频，通过对镜头变化进行分析识别得到镜头切换点，基于镜头切换点将所述待标注长视频进行分割，得到多个语义独立的视频片段；针对每个视频片段，通过捕捉视频的空间时序生成视频描述信息并翻译为与视频字幕相匹配的语种，通过主题分类得到所述待标注长视频的分类标签；针对待标注长视频，通过音频转录，生成包括时间戳的视频字幕信息；针对每个视频片段，将视频描述信息和视频字幕信息作为提示，推理得到多模态标注文本，实现多模态机器标注。本发明具有标注效果好、适用于任意长度的视频、融合多模态信息实现自动标注等优点。

技术关键词

视频标注方法字幕融合多模态信息镜头边界检测自动语音识别主题文本音频标签语义时序电子设备程序可读存储介质存储器处理器指令

系统为您推荐了相关专利信息

一种录像视频的处理方法及装置

关键帧录像视频拼接技术序列图像处理技术

一种基于AI大模型的电厂员工违章智能识别方法及系统

违章智能识别系统虚拟电厂模型基准定位器巡检机器人缓存管理单元

基于群组列车运行控制的多地实验平台联动系统和方法

列车运行控制平台数据中心理论数字孪生模型

一种多模态模拟诊疗数据采集方法、设备及存储介质

诊疗数据采集多模态数据采集语音识别模型计算机可读指令人体关键点

视频生成方法、视频生成模型的训练方法及装置

视频生成模型噪声样本特征提取工具约束特征

基于深度学习的任意长度视频全自动多模态机器标注方法

站点导航

APP 下载