增强混合语言的语音转文本性能

AITNT
正文
推荐专利
增强混合语言的语音转文本性能
申请号:CN202411491348
申请日期:2024-10-24
公开号:CN119889291A
公开日期:2025-04-25
类型:发明专利
摘要
本公开涉及增强混合语言的语音转文本性能。本公开实施例训练混合语言语音识别模型,从而由模型执行的语音识别可以得到增强。模型管理器可以控制模型的训练和/或操作。混合语言数据生成管理器可以生成增强的混合语言数据集,其可以增强模型的训练。微调器可以便于配置模型的超参数。基于音频的信息和代表数据集的转录可以应用于模型,以便于模型训练。FAL评估器可以确定模型对基于音频的信息和转录执行语音识别的保真度、准确性和延迟。基于这种确定,可以更新混合语言数据生成过程和/或超参数,以增强对模型的进一步训练,从而增强关于模型的语音识别性能的保真度、准确性和/或延迟。模型管理器可以控制模型训练的一次或多次迭代。
技术关键词
语音识别模型 文本 度量 计算机可执行程序 执行语音识别 数据项 非暂时性机器可读介质 内容项 主题数据 解码 音频 管理器 关键词 参数 处理器 生成语音 编码
系统为您推荐了相关专利信息
1
一种桥梁结构三维损伤识别方法
数字孪生模型 损伤识别方法 桥梁结构 有限元仿真模拟 深度量子神经网络
2
一种基于AI将商品页面生成视频的方法、装置、设备和介质
文本 商品页面 视频 场景切换检测 标识
3
一种基于自适应图像分割网络的表面缺陷检测方法
表面缺陷检测方法 图像分割网络 表面缺陷图像 输出特征 注意力机制
4
图像生成方法、模型训练方法、设备、存储介质及产品
图像生成模型 图像生成网络 文本编码器 景深信息 图像生成方法
5
控制方法、电子设备及手写笔设备
手写笔设备 输入设备 模式 图像数据处理 电子设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号