音频生成方法、装置、计算机设备和存储介质

正文

推荐专利

申请号：CN202410925434

申请日期：2024-07-11

公开号：CN118841008A

公开日期：2024-10-25

类型：发明专利

摘要

本申请涉及一种音频生成方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取参考音频和待输出文本；将参考音频的音频信息和待输出文本的文本信息作为提示词输入至生成式大语言模型中，通过生成式大语言模型基于音频信息和文本信息提取出目标特征；目标特征包含参考音频的音色特征和待输出文本的语义特征；提取出参考音频的梅尔频谱特征，将梅尔频谱特征和目标特征输入至解码器中，通过解码器基于梅尔频谱特征的提示对目标特征进行解码处理，得到目标音频；目标音频具有参考音频的音色和待输出文本的语义。采用本方法能够提高音色合成效果。

技术关键词

音色特征大语言模型频谱特征音频特征文本信息提取音频生成方法语义特征向量特征提取语音特征提取融合特征解码器样本计算机设备计算机程序产品注意力编码处理器

系统为您推荐了相关专利信息

基于伪标签的无监督视觉定位系统

视觉定位系统实体大语言模型矫正器检测器

文本标注方法、装置、设备、存储介质及计算机程序产品

大语言模型文本标注方法本子标记样本

基于Sidecar容器的多模态数据采集方法及装置

数据采集方法容器数据采集策略数据采集组件大语言模型

一种基于大语言模型的安全知识生成方法和系统

网络流量日志大语言模型动态更新动态记忆网络注意力机制

基于领域同义词库的语义扩展匹配方法及系统

查询关键词场景同义词库大语言模型语义向量

音频生成方法、装置、计算机设备和存储介质

站点导航

APP 下载