摘要
本发明提供一种基于合成数据的低资源场景热词增强方法及装置,方法包括:提取目标场景语料的场景热词列表,基于场景热词列表的知识分类和/或目标场景,定义生成任务;基于第一大型语言模型应用场景热词列表和生成任务,生成样本文本集;合成样本文本集的样本音频集,以样本音频集为训练数据,样本文本集为标签,训练初始语音识别模型,得到热词识别模型。本发明提供的方法,基于场景热词列表的知识分类和/或目标场景定义得到生成任务;基于第一大型语言模型应用场景热词列表和生成任务得到样本文本集;合成样本文本集的样本音频集,实现了目标场景下高效、高质量且多样的样本数据生成,大大提升热词识别模型在目标场景下的热词识别准确性。
技术关键词
文本
场景
语音识别模型
列表
热词识别
噪声样本
音频特征
音频编码器
资源
数据
序列
解码
标签
定义
处理器
风格
存储器