摘要
本发明公开了一种目标语音生成方法及系统,方法包括以下步骤:获取第一语音、第二语音以及目标文本;根据第一语音提取信息特征;根据第二语音提取风格特征;根据目标文本提取音素对应特征;根据信息特征、风格特征以及音素对应特征生成目标语音。本发明以第一语音的信息特征为基础,进一步整合了第二语音的风格特征;即便在面临训练样本有限的情况下,本发明也能灵活生成任意说话人在多样化场景中的音频,不仅极大地丰富了音频表达的维度与深度;并且这种跨语音特征的融合显著提升了目标语音的表达力和说服力,使其更加贴近真实人类交流的情感浓度,能够大大增加目标语音的自然度,从而引起听众的共鸣。
技术关键词
语音生成方法
语义特征
大语言模型
文本
特征提取模块
风格
令牌
音频
转换算法
语音特征
生成系统
单人
数据
模式
人类
场景
基础
系统为您推荐了相关专利信息
异常分析方法
故障诊断模型
机器学习模型
长短期记忆网络
寿命预测模型
冲击波治疗仪
大语言模型
意图识别
机器可读指令
数据格式
答案
验证规则
人机交互数据
大语言模型
身份核验方法
汽车造型设计
深度神经网络
眼动追踪技术
指标
混合分析方法