摘要
本申请公开了一种自然语音翻译系统,包括:交互界面将用户提交的语音数据存储到数据存储服务,语音数据至少包括待翻译语音;模块化算法服务从数据存储服务中拉取语音数据进行人声检测,根据人声检测结果判断待翻译语音满足预置要求后,对待翻译语音进行语音识别、副语言识别和文本翻译,得到带副语言信息的翻译文本;调用文本语言模型提取带副语言信息的翻译文本的语义特征,调用多模态语音模型对待翻译语音和语义特征进行处理生成具有副语言信息和多模态语音信息的翻译后语音数据,并将翻译后语音数据提交到交互界面进行展示,实现了语音翻译时,支持副语言和多模态语音信息的自然语音生成,使得语音翻译效果更加贴近原说话人的说话特征和环境。
技术关键词
自然语音
翻译系统
数据存储服务
消息中心
文本
多模态语音
语义特征
韵律模型
算法
音色特征
语音声学模型
界面
人声
发音
样本
大语言模型
对齐模块