音频生成方法、装置、计算机设备和存储介质

AITNT
正文
推荐专利
音频生成方法、装置、计算机设备和存储介质
申请号:CN202410925434
申请日期:2024-07-11
公开号:CN118841008A
公开日期:2024-10-25
类型:发明专利
摘要
本申请涉及一种音频生成方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取参考音频和待输出文本;将参考音频的音频信息和待输出文本的文本信息作为提示词输入至生成式大语言模型中,通过生成式大语言模型基于音频信息和文本信息提取出目标特征;目标特征包含参考音频的音色特征和待输出文本的语义特征;提取出参考音频的梅尔频谱特征,将梅尔频谱特征和目标特征输入至解码器中,通过解码器基于梅尔频谱特征的提示对目标特征进行解码处理,得到目标音频;目标音频具有参考音频的音色和待输出文本的语义。采用本方法能够提高音色合成效果。
技术关键词
音色特征 大语言模型 频谱特征 音频特征 文本信息提取 音频生成方法 语义特征 向量特征提取 语音特征提取 融合特征 解码器 样本 计算机设备 计算机程序产品 注意力 编码 处理器
系统为您推荐了相关专利信息
1
基于伪标签的无监督视觉定位系统
视觉定位系统 实体 大语言模型 矫正器 检测器
2
文本标注方法、装置、设备、存储介质及计算机程序产品
大语言模型 文本标注方法 本子 标记 样本
3
基于Sidecar容器的多模态数据采集方法及装置
数据采集方法 容器 数据采集策略 数据采集组件 大语言模型
4
一种基于大语言模型的安全知识生成方法和系统
网络流量日志 大语言模型 动态更新 动态记忆网络 注意力机制
5
基于领域同义词库的语义扩展匹配方法及系统
查询关键词 场景 同义词库 大语言模型 语义向量
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号