摘要
本发明涉及一种基于深度学习的任意长度视频全自动多模态机器标注方法,包括如下步骤:获取待标注长视频,通过对镜头变化进行分析识别得到镜头切换点,基于镜头切换点将所述待标注长视频进行分割,得到多个语义独立的视频片段;针对每个视频片段,通过捕捉视频的空间时序生成视频描述信息并翻译为与视频字幕相匹配的语种,通过主题分类得到所述待标注长视频的分类标签;针对待标注长视频,通过音频转录,生成包括时间戳的视频字幕信息;针对每个视频片段,将视频描述信息和视频字幕信息作为提示,推理得到多模态标注文本,实现多模态机器标注。本发明具有标注效果好、适用于任意长度的视频、融合多模态信息实现自动标注等优点。
技术关键词
视频
标注方法
字幕
融合多模态信息
镜头边界检测
自动语音识别
主题
文本
音频
标签
语义
时序
电子设备
程序
可读存储介质
存储器
处理器
指令
系统为您推荐了相关专利信息
违章智能识别系统
虚拟电厂模型
基准定位器
巡检机器人
缓存管理单元
诊疗数据采集
多模态数据采集
语音识别模型
计算机可读指令
人体关键点