摘要
本申请涉及多模态学习技术领域,尤其涉及一种多语言即时语音翻译模型的训练方法及翻译方法,该训练方法包括:从音频语料中提取出语音特征,以及,从音频语料对应的文本语料中提取出文本特征;将同一语言中表示同一语义的语音特征及文本特征进行特征融合,得到与各个语义对应的融合特征;分别将融合特征映射至同一预设语义空间,得到每一融合特征对应的多模态特征;以多模态特征为训练数据,对预设多模态基础模型进行训练,得到多语言即时语音翻译模型这样,能够将语音、文本等多种输入形式整合到一个统一的模型架构中,以使模型可以处理多种语言之间的翻译任务。
技术关键词
翻译模型
文本
多语言
知识库构建方法
音频
语音特征
翻译方法
语言知识库
融合特征
语义
大语言模型
条目
多模态特征
处理器
日志
关系
程序