摘要
本发明提供一种基于伪标签生成和模型迁移的壮语语音识别方法,包括两个步骤:第一步,进行声学模型的训练,包括IPA伪标签数据的生成以及声学模型的训练;第二步,语音识别系统的训练,包括声学模型的迁移,以及基于注意力机制的编码器解码器架构的语音识别模型的训练。本发明通过借助伪标签生成的方法,解决了大量无标注壮语音频数据无法充分利用的问题,并以此来训练声学模型。再通过声学模型迁移的方法,解决少量有标注数据难以训练可用壮语语音识别模型的问题。
技术关键词
壮语语音识别方法
语音识别模型
编码器解码器
训练声学模型
音频
注意力机制
语音识别系统
标签
序列
文本
数据
编码器结构
解码方式
语音特征
解码方法
发音
系统为您推荐了相关专利信息
无声检测设备
信号切换开关
车载多媒体
多媒体主机
单片机
互动学习系统
语音输入模块
实体教具
投影显示设备
图像采集模块
语言交互方法
语言交互系统
多模态信息
数据
可视化模块