融合年龄特征的跨生命周期端到端人声生成方法及系统

AITNT
正文
推荐专利
融合年龄特征的跨生命周期端到端人声生成方法及系统
申请号:CN202510951765
申请日期:2025-07-10
公开号:CN120877710A
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开一种融合年龄特征的跨生命周期端到端人声生成方法及系统,属于人工智能与语音技术交叉领域。本发明通过预处理构建含年龄标签的多维度语音数据集,提取MFCC、说话人嵌入(ECAPA‑TDNN)等特征,在FastSpeech 2等端到端语音合成模型中注入年龄条件编码,实现文本驱动下的年龄敏感语音生成。本发明创新融合年龄特征与说话人特征,通过条件化建模基频、时长、共振峰等年龄相关声学参数,结合HiFi‑GAN等神经声码器端到端生成高自然度波形,可精确控制语音的年龄属性并保留个体音色。
技术关键词
年龄 人声 文本编码器 生成方法 声码器 多任务损失函数 MFCC特征 标签 序列 参数 离散余弦变换 对齐工具 深度学习模型 语音技术 数据获取模块 声学特征
系统为您推荐了相关专利信息
1
面向遥感作物制图的系统性分类样本提纯与扩充方法
分类产品 提纯 滑动时间窗口 监督深度学习 滤波算法
2
一种模型提示内容的生成方法及装置
节点 问答模型 生成方法 关系 梳理工具
3
运动分类模型的生成方法以及运动分类方法
运动分类方法 分类准确率 生成方法 学习算法 策略
4
一种基于AIGC数字人的慕课视频方法及装置
教学场景 背景图 强化学习算法 视频生成方法 动作特征
5
视频生成方法、装置、电子设备及存储介质
视频生成模型 特征提取模型 视频生成方法 相机 语义特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号