基于音频提示的语音生成方法、装置、设备及介质

AITNT
正文
推荐专利
基于音频提示的语音生成方法、装置、设备及介质
申请号:CN202510243850
申请日期:2025-03-03
公开号:CN119964547A
公开日期:2025-05-09
类型:发明专利
摘要
本发明涉及人工智能技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了基于音频提示的语音生成方法、装置、设备及介质,包括:获取目标文本和参考音频;通过预先训练的文本特征提取器对目标文本进行多层次特征提取得到多层次文本特征;根据参考音频生成相应的音频提示特征,并将多层次文本特征与音频提示特征进行拼接,得到拼接输入特征;将拼接输入特征输入到预先训练的语音生成模型中,生成目标文本对应的目标语音,语音生成模型是对预设的流模型进行语音掩码生成训练后得到的。通过将文本和语音进行特征拼接后输入到基于语音掩码生成训练得到的模型中进行语音生成,无需在文本与语音之间进行额外的复杂操作,提高了语音生成效率。
技术关键词
语音生成方法 语音生成模型 多层次特征提取 文本 音频 非易失性计算机可读存储介质 样本 生成语音 计算机可执行指令 掩码策略 采样率 噪声频谱 人工智能技术 医疗健康 拼接模块 声码器 处理器通信
系统为您推荐了相关专利信息
1
基于困惑度驱动大语言模型的电网营销数据标注方法
电网营销数据 大语言模型 标注方法 答案 调用API接口
2
基于图结构的长文本检索方法、装置和计算机设备
大语言模型 笔记本 文本检索方法 句式结构 聚类算法
3
人机互动方法、装置、电子设备及介质
人机互动方法 情绪识别模型 情感特征 文本特征向量 语音
4
基于时序差分学习与规则增强的大语言模型推理方法
大语言模型 轨迹 规则集 推理方法 语义
5
一种基于超图结构熵预训练的数据推荐方法
数据推荐方法 节点 注意力机制 项目 文本编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号