摘要
本发明公开了一种基于大语言模型的语音翻译方法和装置,在训练阶段包括:采集训练语料获取音频及对应的文本,以提取音频的频谱特征;对频谱特征提取语义特征以及全局声学特征并编码;通过大量翻译匹配对应文本的语义特征编码训练语义特征翻译大模型,以将语义特征编码生成翻译后的语义特征编码;利用大量文本对应音频的全局声学特征编码和语义特征编码训练声码器基础模型;通过目标说话人的少量音频的全局声学特征信息和语义特征微调声码器基础模型,以得到声码器。本发明解决了传统语音翻译方式存在处理延迟高、上下文理解能力弱、系统集成复杂等问题,即使目标说话人某语种的语料很少也能合成流畅准确的翻译音频该语种语音并能保证音色的一致性。
技术关键词
语音翻译方法
大语言模型
声学特征
语义特征提取
声码器
编码
频谱特征提取
特征提取模型
文本
音频翻译方法
语音翻译装置
网络结构
音频特征提取
深度学习网络
翻译方式
特征提取单元
系统为您推荐了相关专利信息
文本编码器
解码器
对话式人工智能
对象
机器学习模型
结构化查询语言
编码器
大语言模型
查询意图
注意力
摘要
大语言模型
电子病历生成方法
电子病历生成装置
数据生成模型
AI算法
预警方法
训练深度学习模型
置信度阈值
动态
多智能体协作
对话生成方法
策略
事件识别
对话生成系统