融合年龄特征的跨生命周期端到端人声生成方法及系统

正文

推荐专利

申请号：CN202510951765

申请日期：2025-07-10

公开号：CN120877710A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开一种融合年龄特征的跨生命周期端到端人声生成方法及系统，属于人工智能与语音技术交叉领域。本发明通过预处理构建含年龄标签的多维度语音数据集，提取MFCC、说话人嵌入（ECAPA‑TDNN）等特征，在FastSpeech 2等端到端语音合成模型中注入年龄条件编码，实现文本驱动下的年龄敏感语音生成。本发明创新融合年龄特征与说话人特征，通过条件化建模基频、时长、共振峰等年龄相关声学参数，结合HiFi‑GAN等神经声码器端到端生成高自然度波形，可精确控制语音的年龄属性并保留个体音色。

技术关键词

年龄人声文本编码器生成方法声码器多任务损失函数 MFCC特征标签序列参数离散余弦变换对齐工具深度学习模型语音技术数据获取模块声学特征

系统为您推荐了相关专利信息

面向遥感作物制图的系统性分类样本提纯与扩充方法

分类产品提纯滑动时间窗口监督深度学习滤波算法

一种模型提示内容的生成方法及装置

节点问答模型生成方法关系梳理工具

运动分类模型的生成方法以及运动分类方法

运动分类方法分类准确率生成方法学习算法策略

一种基于AIGC数字人的慕课视频方法及装置

教学场景背景图强化学习算法视频生成方法动作特征

视频生成方法、装置、电子设备及存储介质

视频生成模型特征提取模型视频生成方法相机语义特征

融合年龄特征的跨生命周期端到端人声生成方法及系统

站点导航

APP 下载