摘要
本发明提供一种语音翻译方法、装置、设备、介质及产品,其中方法包括:基于语音翻译模型的语音识别器,对待翻译语音序列进行声学特征提取和文本映射,得到待翻译语音序列的声学特征和文本映射特征;基于语音翻译模型的文本编码器,对声学特征与文本映射特征融合形成的融合特征进行特征分割和特征编码,得到待翻译语音序列的多个分段的编码特征;基于语音翻译模型的文本解码器,对多个分段的编码特征进行流式解码,得到待翻译语音序列的实时翻译文本。本发明实现通过端到端的实时翻译的语音翻译模型进行语音翻译,由此保证实时翻译的语义完整性的同时,提高了实时语音翻译的首响以及刷字率,进而提升了翻译文本输出的实时性和准确性。
技术关键词
语音翻译方法
编码特征
融合特征
文本编码器
声学特征
语音识别模型
序列
分段
样本
语音识别器
翻译器
学生
文本识别
特征提取单元
非暂态计算机可读存储介质
训练翻译模型
语音翻译装置
系统为您推荐了相关专利信息
图像去雨算法
图像滤波技术
卷积神经网络设计
特征提取网络
融合特征
局部放电数据
随机森林
局部放电识别方法
模糊C均值聚类算法
计算机设备
辅助验证方法
多尺度特征
注意力机制
分支单元
心肌梗死心电图