摘要
本申请提供了一种模型训练方法、语音识别方法、装置及存储介质,包括:获取多个语音图像对数据,多个语音图像对数据中的目标语音图像对数据包括:对应内容一致的目标语音数据和目标图像数据;针对多个语音图像对数据中的任一目标语音图像对数据,通过语音特征提取模型对目标语音数据进行特征提取,得到目标语音数据的语音特征,语音特征包括:语音全局特征和/或语音局部特征;通过视觉特征提取模型对目标图像数据进行特征提取,得到目标图像数据的图像特征,图像特征包括:图像全局特征和/或图像局部特征;根据语音特征和图像特征,训练语音特征提取模型,提高语音特征的提取准确性和语音识别结果的准确性。
技术关键词
语音特征提取
识别语音数据
语音识别模型
图像全局特征
图像局部特征
视觉特征提取
语音识别方法
模型训练方法
特征提取模块
噪声图像
计算机程序产品
语音识别装置
模型训练装置
样本
电子设备
处理器
系统为您推荐了相关专利信息
现场视频图像
图像局部特征
数据存储管理
视频帧
分析模块
样本
文本检索方法
文本编码器
图像全局特征
图像局部特征
机器人控制方法
构建语音识别模型
声道
多特征信息融合
特征值
识别语音信号
低功耗嵌入式设备
样本
语音识别方法
语音特征