一种基于大语言模型的音频翻译方法和装置

正文

推荐专利

一种基于大语言模型的音频翻译方法和装置

申请号：CN202510958255

申请日期：2025-07-11

公开号：CN120690183A

公开日期：2025-09-23

类型：发明专利

摘要

本发明公开了一种基于大语言模型的语音翻译方法和装置，在训练阶段包括：采集训练语料获取音频及对应的文本，以提取音频的频谱特征；对频谱特征提取语义特征以及全局声学特征并编码；通过大量翻译匹配对应文本的语义特征编码训练语义特征翻译大模型，以将语义特征编码生成翻译后的语义特征编码；利用大量文本对应音频的全局声学特征编码和语义特征编码训练声码器基础模型；通过目标说话人的少量音频的全局声学特征信息和语义特征微调声码器基础模型，以得到声码器。本发明解决了传统语音翻译方式存在处理延迟高、上下文理解能力弱、系统集成复杂等问题，即使目标说话人某语种的语料很少也能合成流畅准确的翻译音频该语种语音并能保证音色的一致性。

技术关键词

语音翻译方法大语言模型声学特征语义特征提取声码器编码频谱特征提取特征提取模型文本音频翻译方法语音翻译装置网络结构音频特征提取深度学习网络翻译方式特征提取单元

系统为您推荐了相关专利信息

使用多模态生成式AI的改进的3D模型生成

文本编码器解码器对话式人工智能对象机器学习模型

基于大语言模型的查询语句生成方法、装置、设备及介质

结构化查询语言编码器大语言模型查询意图注意力

一种电子病历生成方法、装置及电子设备

摘要大语言模型电子病历生成方法电子病历生成装置数据生成模型

集成AI算法的冷源致灾物智能识别与预警方法及装置

AI算法预警方法训练深度学习模型置信度阈值动态

一种多智能体协作的情感支持对话生成方法和系统

多智能体协作对话生成方法策略事件识别对话生成系统

一种基于大语言模型的音频翻译方法和装置

站点导航

APP 下载