一种基于大语言模型的音频翻译方法和装置

AITNT
正文
推荐专利
一种基于大语言模型的音频翻译方法和装置
申请号:CN202510958255
申请日期:2025-07-11
公开号:CN120690183A
公开日期:2025-09-23
类型:发明专利
摘要
本发明公开了一种基于大语言模型的语音翻译方法和装置,在训练阶段包括:采集训练语料获取音频及对应的文本,以提取音频的频谱特征;对频谱特征提取语义特征以及全局声学特征并编码;通过大量翻译匹配对应文本的语义特征编码训练语义特征翻译大模型,以将语义特征编码生成翻译后的语义特征编码;利用大量文本对应音频的全局声学特征编码和语义特征编码训练声码器基础模型;通过目标说话人的少量音频的全局声学特征信息和语义特征微调声码器基础模型,以得到声码器。本发明解决了传统语音翻译方式存在处理延迟高、上下文理解能力弱、系统集成复杂等问题,即使目标说话人某语种的语料很少也能合成流畅准确的翻译音频该语种语音并能保证音色的一致性。
技术关键词
语音翻译方法 大语言模型 声学特征 语义特征提取 声码器 编码 频谱特征提取 特征提取模型 文本 音频翻译方法 语音翻译装置 网络结构 音频特征提取 深度学习网络 翻译方式 特征提取单元
系统为您推荐了相关专利信息
1
使用多模态生成式AI的改进的3D模型生成
文本编码器 解码器 对话式人工智能 对象 机器学习模型
2
基于大语言模型的查询语句生成方法、装置、设备及介质
结构化查询语言 编码器 大语言模型 查询意图 注意力
3
一种电子病历生成方法、装置及电子设备
摘要 大语言模型 电子病历生成方法 电子病历生成装置 数据生成模型
4
集成AI算法的冷源致灾物智能识别与预警方法及装置
AI算法 预警方法 训练深度学习模型 置信度阈值 动态
5
一种多智能体协作的情感支持对话生成方法和系统
多智能体协作 对话生成方法 策略 事件识别 对话生成系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号