基于深度学习的任意长度视频全自动多模态机器标注方法

AITNT
正文
推荐专利
基于深度学习的任意长度视频全自动多模态机器标注方法
申请号:CN202411559490
申请日期:2024-11-04
公开号:CN119763002A
公开日期:2025-04-04
类型:发明专利
摘要
本发明涉及一种基于深度学习的任意长度视频全自动多模态机器标注方法,包括如下步骤:获取待标注长视频,通过对镜头变化进行分析识别得到镜头切换点,基于镜头切换点将所述待标注长视频进行分割,得到多个语义独立的视频片段;针对每个视频片段,通过捕捉视频的空间时序生成视频描述信息并翻译为与视频字幕相匹配的语种,通过主题分类得到所述待标注长视频的分类标签;针对待标注长视频,通过音频转录,生成包括时间戳的视频字幕信息;针对每个视频片段,将视频描述信息和视频字幕信息作为提示,推理得到多模态标注文本,实现多模态机器标注。本发明具有标注效果好、适用于任意长度的视频、融合多模态信息实现自动标注等优点。
技术关键词
视频 标注方法 字幕 融合多模态信息 镜头边界检测 自动语音识别 主题 文本 音频 标签 语义 时序 电子设备 程序 可读存储介质 存储器 处理器 指令
系统为您推荐了相关专利信息
1
一种录像视频的处理方法及装置
关键帧 录像 视频拼接技术 序列 图像处理技术
2
一种基于AI大模型的电厂员工违章智能识别方法及系统
违章智能识别系统 虚拟电厂模型 基准定位器 巡检机器人 缓存管理单元
3
基于群组列车运行控制的多地实验平台联动系统和方法
列车运行控制 平台 数据中心 理论 数字孪生模型
4
一种多模态模拟诊疗数据采集方法、设备及存储介质
诊疗数据采集 多模态数据采集 语音识别模型 计算机可读指令 人体关键点
5
视频生成方法、视频生成模型的训练方法及装置
视频生成模型 噪声 样本 特征提取工具 约束特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号