摘要
本发明涉及人工智能领域,提供了一种音素对齐方法、装置、设备及介质,方法包括:基于预先获取到的汉字序列确定汉字序列的文本特征;通过声学模型提取与汉字序列对应的音频信息的时频特征;通过强制对齐模型及时频特征对汉字序列及音频信息进行时间步长对齐,得到对齐后音频特征;对文本特征及对齐后音频特征进行融合,生成对应的联合嵌入特征;通过音素解码模型获取与联合嵌入特征对应的音素序列。本发明实施例可通过对文本特征及对齐后音频特征进行融合,生成对应的联合嵌入特征,实现精准捕捉发音规律,适应复杂的实际场景需求;本发明实施例还可通过音素解码模型获取与联合嵌入特征对应的音素序列,实现提高音素对齐的准确性及鲁棒性。
技术关键词
嵌入特征
对齐方法
音频特征
汉字
序列
解码模型
文本
偏差
解码模块
处理器
对齐装置
注意力机制
字符
可读存储介质
存储器
鲁棒性
发音
电子设备
系统为您推荐了相关专利信息
制动控制方法
车辆俯仰角
加速度
深度强化学习算法
预测控制模型
检测模型训练方法
多通道图像数据
镜头
模型测试方法
样本
空间拓扑关系
多模态
拓扑特征
动态变化特征
隧道
序列推荐方法
语义
机器学习推荐系统
动态
掩码矩阵
新能源配电网
保护测控装置
配电网系统
判别方法
配电网故障定位技术