多模态的视频字幕识别方法、系统、电子设备及存储介质

AITNT
正文
推荐专利
多模态的视频字幕识别方法、系统、电子设备及存储介质
申请号:CN202511269949
申请日期:2025-09-08
公开号:CN120769109A
公开日期:2025-10-10
类型:发明专利
摘要
本发明提供一种多模态的视频字幕识别方法、系统、电子设备及存储介质,涉及视频处理技术领域,该方法包括:对待识别视频进行音视频轨道分离,获得音频文件和视频文件;对音频文件进行人声轨道和背景声轨道分离,获得人声轨道音频;采用带时间戳的自动语音识别方法对人声轨道音频进行字幕识别,获得第一字幕文本;根据视觉语言模型对视频文件进行字幕区域检测,获得字幕区域外接边框;根据字幕区域外接边框采用光学字符识别方法对视频文件进行逐帧字幕识别,获得第二字幕文本;将第一字幕文本和第二字幕文本根据时间轴进行字幕融合,获得字幕识别结果。本发明提高了字幕识别的完整性和精确度。
技术关键词
视频字幕识别方法 自动语音识别方法 光学字符识别方法 人声 文本 轨道 音频 视觉 带时间 短时傅里叶变换 视频帧 音视频 多模态 存储结构 序列 误差 识别模块
系统为您推荐了相关专利信息
1
一种面向AI模特的可解释服饰搭配推荐方法及系统
服饰搭配推荐方法 模特 视觉特征 多模态特征融合 文本编码器
2
一种基于墨水屏电子会议本的会议数据管理系统及其方法
数据管理系统 生成会议记录 墨水 会议现场 发言人
3
一种智能笔的英语作文评阅控制系统、方法及智能笔
纠错文本 纠错模块 英语 控制系统 语音播放模块
4
一种利用大语言模型增强语义和兴趣感知的推荐方法
大语言模型 兴趣 推荐方法 画像 推荐系统
5
图生视频方法、设备、存储介质及程序产品
视频 轨迹 图像类别 运动 音频
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号