摘要
本申请提供一种基于自监督学习的视频内容分析方法及相关装置,涉及软件技术领域,预先以自监督学习的方式训练获得不同模型。对待处理的目标视频进行视频分段得到第一说话人对应的第一视频片段;通过音频检测模型将第一视频片段中的音频转换为第一音频文本,通过字幕检测模型和文本识别模型提取第一视频片段中的第一字幕文本,以及,通过视频编码器提取第一视频片段的视觉向量表示;以第一音频文本和第一字幕文本构建提示词,对提示词进行分词得到第一视频片段的文本向量表示;将文本向量表示与视觉向量表示拼接后送入大语言模型中,以获得大语言模型输出的视频内容分析结果。本申请通过无监督学习提高模型的泛化性,实现不同视频内容分析任务。
技术关键词
视频内容分析方法
文本识别模型
字幕
视频编码器
音频
大语言模型
内容分析装置
计算机可读指令
电子设备
分段
视频帧
语音活动检测
视觉
无监督学习
计算机存储介质
多模态
存储计算机程序
分词
系统为您推荐了相关专利信息
声学特征
显示设备
音频输入接口
唤醒词检测方法
唤醒语音助手
综合测试系统
控制设备主机
单板
综合测试方法
信号
模型训练方法
音频评价方法
文本
计算机可执行指令
音乐
耳声发射检测系统
耳声发射检测探头
音频编解码
数模转换电路
主控芯片