摘要
本发明涉及人工智能技术领域,可运用于医疗领域和金融科技领域,公开了基于大语言模型的语音合成方法、装置、设备及存储介质,应用于应用于金融资讯实时播报场景中,或应用于医疗领域的问诊记录与病例生成场景中,其中方法包括:获取包括环境噪声的原始语音波形,并提取原始语音波形中的声学标记,生成离散声学标记;对离散声学标记进行去噪处理,生成去噪后声学标记;对去噪后声学标记进行声学嵌入,生成目标声学嵌入;获取待合成文本,将目标声学嵌入和待合成文本拼接,并基于拼接后信息进行联合自回归生成处理,生成目标声学标记;对目标声学标记进行进行解码,生成目标语音波形。本发明提升了噪声环境下的语音合成质量。
技术关键词
大语言模型
语音
波形
标记
文本
时序特征
生成上下文感知
解码
可读存储介质
人工智能技术
生成场景
声码器
处理器
金融
计算机设备
模块
上采样
多尺度
存储器
系统为您推荐了相关专利信息
评论检测方法
情感特征
大语言模型
生成特征
推理机制
防治白蚁
物联网通讯装置
软件架构
次声波传感器
分析模块
表面质量检测方法
锂电池壳体
压力检测装置
关联关系分析
纹理