摘要
本发明公开了一种基于专家路由门限的高效同声传译方法,涉及语音处理领域,该方法基于经典Transformer架构模型,构建基于专家路由门限的专家路由策略模型,实现多语言流式翻译,模型包括:流式语音编码器,采用混合设计,由逐块自回归块和非自回归块组成;文本解码器,同时处理完整的离线语音和随机截断的语音前缀,生成隐藏状态;路由门限模块,由一个前馈网络实现,将最终隐藏状态投影为一个标量值来确定专家权重;混合专家后处理模块,与文本解码器共享语言模型头部,结合前缀信息和全局信息来预测目标翻译序列。本发明采用混合专家门限的方案来学习策略,充分发挥神经网络的自学习能力,在流式翻译与流式TTS都取得良好效果,可用于生成更多流式序列。
技术关键词
后处理模块
同声传译方法
语音编码器
共享语言模型
离线
归一化方法
解码器
文本翻译系统
策略
交叉注意力机制
多语言
序列
阶段
音频
网络模块
计算方法
系统为您推荐了相关专利信息
三维模型纹理
映射方法
三维点云数据
口腔软组织
参数化方法
神经网络模型
语义向量
检索方法
样本生成方法
注意力机制
满意度分析方法
人工智能技术
数据
多模态
语音编码器
训练智能
声乐
样本补全方法
发音
条件对抗生成网络
无功调节能力
协调优化控制
深度神经网络
优化控制模型
有功功率