摘要
本公开涉及增强混合语言的语音转文本性能。本公开实施例训练混合语言语音识别模型,从而由模型执行的语音识别可以得到增强。模型管理器可以控制模型的训练和/或操作。混合语言数据生成管理器可以生成增强的混合语言数据集,其可以增强模型的训练。微调器可以便于配置模型的超参数。基于音频的信息和代表数据集的转录可以应用于模型,以便于模型训练。FAL评估器可以确定模型对基于音频的信息和转录执行语音识别的保真度、准确性和延迟。基于这种确定,可以更新混合语言数据生成过程和/或超参数,以增强对模型的进一步训练,从而增强关于模型的语音识别性能的保真度、准确性和/或延迟。模型管理器可以控制模型训练的一次或多次迭代。
技术关键词
语音识别模型
文本
度量
计算机可执行程序
执行语音识别
数据项
非暂时性机器可读介质
内容项
主题数据
解码
音频
管理器
关键词
参数
处理器
生成语音
编码
系统为您推荐了相关专利信息
数字孪生模型
损伤识别方法
桥梁结构
有限元仿真模拟
深度量子神经网络
表面缺陷检测方法
图像分割网络
表面缺陷图像
输出特征
注意力机制
图像生成模型
图像生成网络
文本编码器
景深信息
图像生成方法
手写笔设备
输入设备
模式
图像数据处理
电子设备