摘要
本申请公开了一种语音唤醒及模型训练方法、装置、相关设备及程序产品,在训练语音唤醒模型时所采用的第一训练数据同时包含了本地录制音频及第一合成音频,该第一合成音频是基于本地录制音频的声纹特征,及第一文本所合成的音频。本申请仅需收集少量的真实用户录制音频用于提取声纹特征,即可合成第一文本的音频,降低了人工录制音频的成本,合成音频是以本地录制音频的声纹特征作为指导,使得合成音频更贴近于真实用户的录制音频,第一训练数据可以覆盖更多的地方口音和个人说话风格。第一文本覆盖语音唤醒模型的使用场景下的完备说法,保证合成音频可以覆盖完备说法,提升了训练后的语音唤醒模型的唤醒效果。
技术关键词
语音唤醒模型
声纹特征
音频
语音唤醒方法
文本
模型训练方法
合成器
数据获取单元
计算机程序产品
处理器
训练装置
场景
可读存储介质
存储器
电子设备
风格
系统为您推荐了相关专利信息
音频信号输出电路
温度保险丝
防护电路
信号线
音频信号输入电路
心理状态评估方法
心理状态分析
文本
多模态
交叉注意力机制
大语言模型
标签文本
特征提取模块
文本特征向量
字段
终端设备
混合蛙跳算法
局部搜索算法
指标
模拟退火算法