摘要
本申请提供了一种视频字幕提取方法、装置及电子设备,在从原始视频文件中提取图像数据和音频数据后,为了从视频图像中准确提取多样性的字幕,将对图像数据进行多尺度字幕图像特征提取,相对于传统OCR识别,提高了字幕识别结果的准确性,与此同时,本申请对原始视频文件中的音频数据进行语音识别,由于得到的语音识别结果不受图像质量的影响,使其能够弥补视频画质较差时从其图像数据中提取到的字幕识别结果的不足,提高弥补后的视频字幕的准确性和完整性,从而使基于语音识别结果,对字幕识别结果进行校正后生成的字幕文件,可靠满足观众对视频理解的辅助需求或其他对视频字幕的处理需求。
技术关键词
视频字幕提取方法
多尺度
高频特征
深度学习卷积神经网络
音频
特征提取网络
电子设备
光学字符识别
文本校正
图像特征提取
语音识别模块
数据获取模块
系统为您推荐了相关专利信息
倾斜监测方法
杆塔结构
点云
三维模型
趋势预测模型
时空卷积神经网络
核聚变等离子体
量子退火算法
动态优化方法
多物理场协同
耕地
子模块
特征金字塔网络
注意力
采样模块结构
康复护理系统
萤火虫优化算法
LSTM模型
风湿
患者
图像去噪模型
智能导诊方法
语音识别模型
人脸识别模型
音视频设备