基于合成数据的低资源场景热词增强方法及装置

正文

推荐专利

申请号：CN202510227505

申请日期：2025-02-27

公开号：CN120220657A

公开日期：2025-06-27

类型：发明专利

摘要

本发明提供一种基于合成数据的低资源场景热词增强方法及装置，方法包括：提取目标场景语料的场景热词列表，基于场景热词列表的知识分类和/或目标场景，定义生成任务；基于第一大型语言模型应用场景热词列表和生成任务，生成样本文本集；合成样本文本集的样本音频集，以样本音频集为训练数据，样本文本集为标签，训练初始语音识别模型，得到热词识别模型。本发明提供的方法，基于场景热词列表的知识分类和/或目标场景定义得到生成任务；基于第一大型语言模型应用场景热词列表和生成任务得到样本文本集；合成样本文本集的样本音频集，实现了目标场景下高效、高质量且多样的样本数据生成，大大提升热词识别模型在目标场景下的热词识别准确性。

技术关键词

文本场景语音识别模型列表热词识别噪声样本音频特征音频编码器资源数据序列解码标签定义处理器风格存储器

基于合成数据的低资源场景热词增强方法及装置

站点导航

APP 下载