摘要
本发明公开一种融合年龄特征的跨生命周期端到端人声生成方法及系统,属于人工智能与语音技术交叉领域。本发明通过预处理构建含年龄标签的多维度语音数据集,提取MFCC、说话人嵌入(ECAPA‑TDNN)等特征,在FastSpeech 2等端到端语音合成模型中注入年龄条件编码,实现文本驱动下的年龄敏感语音生成。本发明创新融合年龄特征与说话人特征,通过条件化建模基频、时长、共振峰等年龄相关声学参数,结合HiFi‑GAN等神经声码器端到端生成高自然度波形,可精确控制语音的年龄属性并保留个体音色。
技术关键词
年龄
人声
文本编码器
生成方法
声码器
多任务损失函数
MFCC特征
标签
序列
参数
离散余弦变换
对齐工具
深度学习模型
语音技术
数据获取模块
声学特征
系统为您推荐了相关专利信息
分类产品
提纯
滑动时间窗口
监督深度学习
滤波算法
运动分类方法
分类准确率
生成方法
学习算法
策略
教学场景
背景图
强化学习算法
视频生成方法
动作特征
视频生成模型
特征提取模型
视频生成方法
相机
语义特征