摘要
本申请涉及语言识别技术领域,尤其涉及一种基于LLM‑TTS的数据扩增方法、系统、设备及存储介质,包括收集可用的语音数据集并对其进行预处理;基于预处理后的语音数据集对预设的LLM‑based TTS模型进行训练;利用训练好的LLM‑based TTS模型进行数据扩增;对扩增数据进行筛选;使用筛选过的扩增数据训练ASR自动语音识别模型。本申请通过有效生成和筛选扩增数据,确保在数据稀缺的环境下,语音识别系统能够更好地适应方言和小语种的特点,从而解决了现有技术中语音识别系统在稀缺语种和方言下识别性能低下的问题。
技术关键词
数据扩增方法
自动语音识别
错误率
语音识别系统
模型训练模块
韵律特征
语言识别技术
音频
扩增系统
解码
生成语音
数据采集模块
注意力机制
程序
策略
处理器
可读存储介质
存储器
系统为您推荐了相关专利信息
机器学习建模平台
训练集数据
模型训练模块
数据管理模块
分布式计算框架
人声
语音识别方法
语音识别系统
语音声学模型
语音识别模块
知识追踪方法
融合多特征
学生
朴素贝叶斯模型
错误率
数据驱动方法
转子系统
燃气轮机
自动编码器
图像