摘要
本发明涉及语音识别技术领域,具体公开了一种用于合成视频的语音识别方法,其先获取目标合成视频,并对目标合成视频进行多模态特征提取,得到多模态特征数据,然后根据多模态特征数据,建立多模态特征向量,之后根据多模态特征向量对目标合成视频内容进行领域识别,得到目标合成视频的内容领域分类数据,最后基于内容领域分类数据对目标合成视频进行语音识别,得到语音识别结果。相比于现有技术,发明通过对合成视频进行多模态特征提取的方式,识别出视频的专业领域,然后根据视频的具体领域优化语音识别以提高语音识别在特定专业领域下的准确性,解决了现有的语音识别技术在面对领域过于专业的合成视频时准确度不高的问题。
技术关键词
语音识别方法
多模态特征
合成视频内容
图像特征提取
指数
语音识别技术
像素
神经网络模型
纹理
数据
视频帧
语音识别系统
对象
周期
专业
程序
系统为您推荐了相关专利信息
能源管理系统
物联网技术
时间段
数据预测模型
指标
智能标注方法
DBSCAN算法
语义分割模型
激光雷达点云数据
无监督分类