摘要
本申请提供一种语音识别模型训练方法、装置及可读存储介质,所述方法包括:数据准备:通过外部知识库进行多源信息融合修正以及特征提取处理,得到训练数据;模型构建,包括:改进的Whisper编码器、判别器网络、改进的Whisper解码器以及多模态编码器;模型训练:通过训练数据对构建的模型进行训练,得到训练模型;模型评估:通过多维度指标对训练模型进行评估,得到评估结果。本申请可以提高模型的鲁棒性和泛化能力,提高识别精度,提升模型的综合性能,提升模型在多模态任务中的性能。
技术关键词
编码器
多源信息融合
注意力
数据
语音识别模型
多模态
分布式训练
跨模态
解码器
语音识别准确率
语义
训练装置
指标
模型超参数
网络
模型训练模块
韵律特征
多层次
可读存储介质
系统为您推荐了相关专利信息
校验方法
验证计算结果
路网拓扑结构
执行噪声
边缘提取算法
转向控制系统
无人驾驶汽车
最佳行驶路径
动态障碍物
神经网络模型
机械臂关节
振动抑制方法
负载转动惯量
电机转动惯量
阻尼
电梯故障预测方法
大数据技术
核主成分分析
序列
电梯运行状态