摘要
本申请实施例提出的语音数据处理方法、装置、电子设备及存储介质,方法包括:首先,响应于语音数据任务的数据处理,对待处理语音数据进行特征提取,得到语音嵌入向量;然后,获取语音数据任务对应的预设偏置列表,并基于预设偏置列表得到预设词组索引词典;之后,将语音嵌入向量进行解码过滤处理,得到包含至少一个罕见文本词汇的过滤文本序列,并基于预设词组索引词典和过滤文本序列生成罕见词汇嵌入向量;接着,将语音嵌入向量和罕见词汇嵌入向量进行拼接处理得到语音处理向量;最后,将语音处理向量输入大语言处理模型进行数据处理,得到待处理语音数据的目标文本序列,有效地提高了此次上下文语音识别的精准性。
技术关键词
语音数据处理方法
语音特征提取
文本
索引
词典
序列
上下文语音识别
语音数据处理装置
列表
解码
电子设备
样本
特征提取模块
数据处理模块
拼接模块
处理器
字符