语音合成方法和设备

AITNT
正文
推荐专利
语音合成方法和设备
申请号:CN202411467068
申请日期:2024-10-21
公开号:CN119517002A
公开日期:2025-02-25
类型:发明专利
摘要
本公开的各实施例的目的是提供一种语音合成方法、装置、设备、计算机程序产品和计算机程序存储介质。其中,语音合成系统根据输入文本,获取其对应的离散语义特征;将所述离散语义特征与所述输入文本的音频特征映射到同一特征空间,以将两者对齐;从对齐后的特征中提取所述输入文本对应的发音和韵律特征;将所述发音和韵律特征与参考音色特征转换为梅尔谱图特征;将所述梅尔谱图特征转换为输出语音。本公开的各实施例为了能实现高还原度的语音合成方案,选择与音色无关的中间声学特征来解耦音色学习和发音与韵律学习,通过领域迁移学习的手段来对更多复杂场景但高置信度的低采样率数据用于语音合成训练。
技术关键词
韵律特征 音色特征 语义特征 计算机程序存储介质 音频特征 发音 计算机程序指令 文本 采样率 语音 计算机可执行指令 计算机设备 零样本学习方法 计算机程序产品 数据 声学特征 声码器 存储器 处理器
系统为您推荐了相关专利信息
1
一种基于多模态的安防预警方法及系统
视频特征数据 音频特征数据 安防预警方法 瓶颈结构 安防预警系统
2
一种基于因果推理与跨模态匹配的舞蹈服饰道具检索方法
舞蹈服饰 检索方法 服饰道具 文本 注意力
3
基于数据码头部识别的音乐信息分类方法及系统
头部特征 音乐 语义特征 多维特征向量 节点
4
元素指纹库的构建方法、装置、电子设备及存储介质
元素 页面 融合特征 指纹 前端开发技术
5
基于多模态情感语义自适应融合的图像美学质量评价方法
美学特征 语义特征 视觉特征 评价方法 情感特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号