摘要
本发明提供一种多模态的视频字幕识别方法、系统、电子设备及存储介质,涉及视频处理技术领域,该方法包括:对待识别视频进行音视频轨道分离,获得音频文件和视频文件;对音频文件进行人声轨道和背景声轨道分离,获得人声轨道音频;采用带时间戳的自动语音识别方法对人声轨道音频进行字幕识别,获得第一字幕文本;根据视觉语言模型对视频文件进行字幕区域检测,获得字幕区域外接边框;根据字幕区域外接边框采用光学字符识别方法对视频文件进行逐帧字幕识别,获得第二字幕文本;将第一字幕文本和第二字幕文本根据时间轴进行字幕融合,获得字幕识别结果。本发明提高了字幕识别的完整性和精确度。
技术关键词
视频字幕识别方法
自动语音识别方法
光学字符识别方法
人声
文本
轨道
音频
视觉
带时间
短时傅里叶变换
视频帧
音视频
多模态
存储结构
序列
误差
识别模块
系统为您推荐了相关专利信息
服饰搭配推荐方法
模特
视觉特征
多模态特征融合
文本编码器
数据管理系统
生成会议记录
墨水
会议现场
发言人