基于层次化情感分布的语音合成方法、装置、设备及介质

AITNT
正文
推荐专利
基于层次化情感分布的语音合成方法、装置、设备及介质
申请号:CN202411387284
申请日期:2024-09-30
公开号:CN119207372B
公开日期:2025-11-28
类型:发明专利
摘要
本发明涉及人工智能技术领域,公开了一种基于层次化情感分布的语音合成方法,通过获取音频数据和文本转录,分割音频为音素、词语和句子级别的语音单元,提取音高、语速和节奏等声学特征,利用预训练模型生成情感分布向量,处理文本转录生成文本嵌入信息,将情感分布向量、文本嵌入信息和声学特征相结合,通过变量转换器生成韵律特征,解码器基于韵律特征生成梅尔频谱图,声码器将梅尔频谱图转换为时域音频信号并输出。本发明通过层次化地分割音频数据为音素、词语和句子级别,并结合声学特征、情感分布向量和文本嵌入信息,利用变量转换器生成韵律特征,从而实现对情感表达的精细控制,显著提高了语音合成的自然度和情感表现力。
技术关键词
声学特征 语音 时域音频信号 韵律特征 文本 情感识别模型 声码器 情感类别 情感特征 词语 解码器 变量 注意力机制 数据 基频轮廓 转换器模块 计算机设备 对齐工具
系统为您推荐了相关专利信息
1
一种联合限定检索与知识引导的信息检索方法及系统
信息检索方法 节点 大语言模型 元素 信息检索系统
2
一种基于多模态协同对比增强的通用医疗图像分割方法
医疗图像分割方法 多模态协同 样本 视觉 无监督学习
3
视频监控平台的异步语音对讲方法、装置、设备及介质
视频监控平台 语音对讲方法 标识特征 场景 融合特征
4
一种云端文档的知识智能分类标签生成方法及系统
标签生成方法 云端 标签生成系统 子模块 数据同步
5
用于海量执法音视频数据的多模态检索增强生成系统
知识图谱数据库 生成系统 音视频 多模态 关键词
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号