多模态的视频字幕识别方法、系统、电子设备及存储介质

正文

推荐专利

申请号：CN202511269949

申请日期：2025-09-08

公开号：CN120769109A

公开日期：2025-10-10

类型：发明专利

摘要

本发明提供一种多模态的视频字幕识别方法、系统、电子设备及存储介质，涉及视频处理技术领域，该方法包括：对待识别视频进行音视频轨道分离，获得音频文件和视频文件；对音频文件进行人声轨道和背景声轨道分离，获得人声轨道音频；采用带时间戳的自动语音识别方法对人声轨道音频进行字幕识别，获得第一字幕文本；根据视觉语言模型对视频文件进行字幕区域检测，获得字幕区域外接边框；根据字幕区域外接边框采用光学字符识别方法对视频文件进行逐帧字幕识别，获得第二字幕文本；将第一字幕文本和第二字幕文本根据时间轴进行字幕融合，获得字幕识别结果。本发明提高了字幕识别的完整性和精确度。

技术关键词

视频字幕识别方法自动语音识别方法光学字符识别方法人声文本轨道音频视觉带时间短时傅里叶变换视频帧音视频多模态存储结构序列误差识别模块

系统为您推荐了相关专利信息

一种面向AI模特的可解释服饰搭配推荐方法及系统

服饰搭配推荐方法模特视觉特征多模态特征融合文本编码器

一种基于墨水屏电子会议本的会议数据管理系统及其方法

数据管理系统生成会议记录墨水会议现场发言人

一种智能笔的英语作文评阅控制系统、方法及智能笔

纠错文本纠错模块英语控制系统语音播放模块

一种利用大语言模型增强语义和兴趣感知的推荐方法

大语言模型兴趣推荐方法画像推荐系统

图生视频方法、设备、存储介质及程序产品

视频轨迹图像类别运动音频

多模态的视频字幕识别方法、系统、电子设备及存储介质

站点导航

APP 下载