基于音频提示的语音生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202510243850

申请日期：2025-03-03

公开号：CN119964547A

公开日期：2025-05-09

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于金融科技、医疗健康等业务系统平台中，公开了基于音频提示的语音生成方法、装置、设备及介质，包括：获取目标文本和参考音频；通过预先训练的文本特征提取器对目标文本进行多层次特征提取得到多层次文本特征；根据参考音频生成相应的音频提示特征，并将多层次文本特征与音频提示特征进行拼接，得到拼接输入特征；将拼接输入特征输入到预先训练的语音生成模型中，生成目标文本对应的目标语音，语音生成模型是对预设的流模型进行语音掩码生成训练后得到的。通过将文本和语音进行特征拼接后输入到基于语音掩码生成训练得到的模型中进行语音生成，无需在文本与语音之间进行额外的复杂操作，提高了语音生成效率。

技术关键词

语音生成方法语音生成模型多层次特征提取文本音频非易失性计算机可读存储介质样本生成语音计算机可执行指令掩码策略采样率噪声频谱人工智能技术医疗健康拼接模块声码器处理器通信

系统为您推荐了相关专利信息

基于困惑度驱动大语言模型的电网营销数据标注方法

电网营销数据大语言模型标注方法答案调用API接口

基于图结构的长文本检索方法、装置和计算机设备

大语言模型笔记本文本检索方法句式结构聚类算法

人机互动方法、装置、电子设备及介质

人机互动方法情绪识别模型情感特征文本特征向量语音

基于时序差分学习与规则增强的大语言模型推理方法

大语言模型轨迹规则集推理方法语义

一种基于超图结构熵预训练的数据推荐方法

数据推荐方法节点注意力机制项目文本编码器

基于音频提示的语音生成方法、装置、设备及介质

站点导航

APP 下载