一种基于自监督学习的视频内容分析方法及相关装置

AITNT
正文
推荐专利
一种基于自监督学习的视频内容分析方法及相关装置
申请号:CN202510122390
申请日期:2025-01-26
公开号:CN119600519B
公开日期:2025-05-09
类型:发明专利
摘要
本申请提供一种基于自监督学习的视频内容分析方法及相关装置,涉及软件技术领域,预先以自监督学习的方式训练获得不同模型。对待处理的目标视频进行视频分段得到第一说话人对应的第一视频片段;通过音频检测模型将第一视频片段中的音频转换为第一音频文本,通过字幕检测模型和文本识别模型提取第一视频片段中的第一字幕文本,以及,通过视频编码器提取第一视频片段的视觉向量表示;以第一音频文本和第一字幕文本构建提示词,对提示词进行分词得到第一视频片段的文本向量表示;将文本向量表示与视觉向量表示拼接后送入大语言模型中,以获得大语言模型输出的视频内容分析结果。本申请通过无监督学习提高模型的泛化性,实现不同视频内容分析任务。
技术关键词
视频内容分析方法 文本识别模型 字幕 视频编码器 音频 大语言模型 内容分析装置 计算机可读指令 电子设备 分段 视频帧 语音活动检测 视觉 无监督学习 计算机存储介质 多模态 存储计算机程序 分词
系统为您推荐了相关专利信息
1
显示设备、服务器及唤醒词检测方法
声学特征 显示设备 音频输入接口 唤醒词检测方法 唤醒语音助手
2
一种轨道车运行控制设备自动化综合测试系统及方法
综合测试系统 控制设备主机 单板 综合测试方法 信号
3
音频评价模型训练方法、音频评价方法、设备及程序产品
模型训练方法 音频评价方法 文本 计算机可执行指令 音乐
4
一种无线耳声发射检测系统
耳声发射检测系统 耳声发射检测探头 音频编解码 数模转换电路 主控芯片
5
基于多模态模型的代答行为检测方法、装置、设备及介质
动作特征 多模态 音频 音视频 静态特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号