基于大语言模型的语音合成方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510994824

申请日期：2025-07-17

公开号：CN120766653A

公开日期：2025-10-10

类型：发明专利

摘要

本发明涉及人工智能技术领域，可运用于医疗领域和金融科技领域，公开了基于大语言模型的语音合成方法、装置、设备及存储介质，应用于应用于金融资讯实时播报场景中，或应用于医疗领域的问诊记录与病例生成场景中，其中方法包括：获取包括环境噪声的原始语音波形，并提取原始语音波形中的声学标记，生成离散声学标记；对离散声学标记进行去噪处理，生成去噪后声学标记；对去噪后声学标记进行声学嵌入，生成目标声学嵌入；获取待合成文本，将目标声学嵌入和待合成文本拼接，并基于拼接后信息进行联合自回归生成处理，生成目标声学标记；对目标声学标记进行进行解码，生成目标语音波形。本发明提升了噪声环境下的语音合成质量。

技术关键词

大语言模型语音波形标记文本时序特征生成上下文感知解码可读存储介质人工智能技术生成场景声码器处理器金融计算机设备模块上采样多尺度存储器

系统为您推荐了相关专利信息

一种基于反省链推理的产品评论检测方法

评论检测方法情感特征大语言模型生成特征推理机制

远程智能诊鉴防治白蚁系统

防治白蚁物联网通讯装置软件架构次声波传感器分析模块

用于手机的锂电池壳体表面质量检测方法、夹具及系统

表面质量检测方法锂电池壳体压力检测装置关联关系分析纹理

站房施工工人安全知识抽取和知识图谱构建方法

知识图谱构建方法站房动态更新多模态文本

一种AR教学材料快速生成方法及相关设备

快速生成方法知识点学生教学数据库关键词

基于大语言模型的语音合成方法、装置、设备及存储介质

站点导航

APP 下载