摘要
本发明公开了一种长视频高光点检测方法、装置、计算机设备及存储介质,涉及视频技术领域。该方法包括:根据语音识别算法对待检测长视频进行语音识别,到字幕信息集合;通过视频语言大模型提取待检测长视频的视频描述信息集合;基于时间轴将字幕信息集合和视频描述信息集合进行融合,得到融合文本信息集合;通过自然语言大模型根据高光提示词对融合文本信息集合进行检测,得到高光点时间段及其对应的高光内容信息。这样,通过提取待检测长视频的字幕信息和视频描述信息进行高光点检测,从而不需要依赖数据集训练就可以获得视频高光点信息,并且可以根据高光提示词提取符合用户需求的高光点内容。
技术关键词
音频块
语音识别算法
字幕
自然语言
文本
短视频
计算机设备
时间段
参数
处理器
识别模块
可读存储介质
存储器
数据
系统为您推荐了相关专利信息
视频生成方法
噪声特征
变分自动编码器
视频生成系统
高频特征
数字金融业务
推送方法
生成用户画像
构建用户画像
画像模型
文字转语音模块
语音对话方法
身份验证机制
语音对话系统
语音识别模块
智能评估方法
数据模式匹配
处理单元
多模态
计算机可存储介质