增强混合语言的语音转文本性能

正文

推荐专利

增强混合语言的语音转文本性能

申请号：CN202411491348

申请日期：2024-10-24

公开号：CN119889291A

公开日期：2025-04-25

类型：发明专利

摘要

本公开涉及增强混合语言的语音转文本性能。本公开实施例训练混合语言语音识别模型，从而由模型执行的语音识别可以得到增强。模型管理器可以控制模型的训练和/或操作。混合语言数据生成管理器可以生成增强的混合语言数据集，其可以增强模型的训练。微调器可以便于配置模型的超参数。基于音频的信息和代表数据集的转录可以应用于模型，以便于模型训练。FAL评估器可以确定模型对基于音频的信息和转录执行语音识别的保真度、准确性和延迟。基于这种确定，可以更新混合语言数据生成过程和/或超参数，以增强对模型的进一步训练，从而增强关于模型的语音识别性能的保真度、准确性和/或延迟。模型管理器可以控制模型训练的一次或多次迭代。

技术关键词

语音识别模型文本度量计算机可执行程序执行语音识别数据项非暂时性机器可读介质内容项主题数据解码音频管理器关键词参数处理器生成语音编码

系统为您推荐了相关专利信息

一种桥梁结构三维损伤识别方法

数字孪生模型损伤识别方法桥梁结构有限元仿真模拟深度量子神经网络

一种基于AI将商品页面生成视频的方法、装置、设备和介质

文本商品页面视频场景切换检测标识

一种基于自适应图像分割网络的表面缺陷检测方法

表面缺陷检测方法图像分割网络表面缺陷图像输出特征注意力机制

图像生成方法、模型训练方法、设备、存储介质及产品

图像生成模型图像生成网络文本编码器景深信息图像生成方法

控制方法、电子设备及手写笔设备

手写笔设备输入设备模式图像数据处理电子设备

增强混合语言的语音转文本性能

站点导航

APP 下载