一种基于自监督学习的视频内容分析方法及相关装置

正文

推荐专利

申请号：CN202510122390

申请日期：2025-01-26

公开号：CN119600519B

公开日期：2025-05-09

类型：发明专利

摘要

本申请提供一种基于自监督学习的视频内容分析方法及相关装置，涉及软件技术领域，预先以自监督学习的方式训练获得不同模型。对待处理的目标视频进行视频分段得到第一说话人对应的第一视频片段；通过音频检测模型将第一视频片段中的音频转换为第一音频文本，通过字幕检测模型和文本识别模型提取第一视频片段中的第一字幕文本，以及，通过视频编码器提取第一视频片段的视觉向量表示；以第一音频文本和第一字幕文本构建提示词，对提示词进行分词得到第一视频片段的文本向量表示；将文本向量表示与视觉向量表示拼接后送入大语言模型中，以获得大语言模型输出的视频内容分析结果。本申请通过无监督学习提高模型的泛化性，实现不同视频内容分析任务。

技术关键词

视频内容分析方法文本识别模型字幕视频编码器音频大语言模型内容分析装置计算机可读指令电子设备分段视频帧语音活动检测视觉无监督学习计算机存储介质多模态存储计算机程序分词

系统为您推荐了相关专利信息

显示设备、服务器及唤醒词检测方法

声学特征显示设备音频输入接口唤醒词检测方法唤醒语音助手

一种轨道车运行控制设备自动化综合测试系统及方法

综合测试系统控制设备主机单板综合测试方法信号

音频评价模型训练方法、音频评价方法、设备及程序产品

模型训练方法音频评价方法文本计算机可执行指令音乐

一种无线耳声发射检测系统

耳声发射检测系统耳声发射检测探头音频编解码数模转换电路主控芯片

基于多模态模型的代答行为检测方法、装置、设备及介质

动作特征多模态音频音视频静态特征

一种基于自监督学习的视频内容分析方法及相关装置

站点导航

APP 下载