用于语音合成的方法、装置、设备和可读介质

AITNT
正文
推荐专利
用于语音合成的方法、装置、设备和可读介质
申请号:CN202411008685
申请日期:2024-07-25
公开号:CN118737122A
公开日期:2024-10-01
类型:发明专利
摘要
本公开的实施例提供了一种用于语音合成的方法、装置、设备和可读介质。根据本公开的实施例,利用预测器模型对目标文本对应的音素嵌入序列执行音素预测,以获取预测音素序列。基于语音生成任务的类型来确定对参考音频的量化声学特征的遮蔽处理,以获取遮蔽声学特征。利用编码器模型,对遮蔽声学特征执行编码操作,以获取遮蔽特征码。利用解码器模型,基于遮蔽特征码和预测音素序列执行解码操作,以获取第一预测特征码。至少基于第一预测特征码生成目标文本对应的语音波形。以此方式,实现零样本语音合成。同时使模型能够同时实现语音克隆和语音编辑任务。
技术关键词
声学特征 预测特征 语音 序列 解码器模型 文本 音频 波形 编辑 编码器 处理单元 语义特征提取 融合特征 双向变换器 遮蔽模块 样本 解码模块
系统为您推荐了相关专利信息
1
纤溶酶抑制剂NKI10在制备防治过度炎症反应药物中的应用
纤溶酶抑制剂 细胞炎症模型 动物炎症 生物医药技术 序列
2
基于多帧无水尺抗水印水位检测方法
水位检测方法 水尺 水印 图像 滤波器系数更新
3
一种基于openAI的司机判罚系统
司机 行驶路线数据 LSTM模型 动态变化模型 分析模块
4
一种基于自回归式模型的药物设计方法
药物设计方法 配体 分词算法 文本 数据
5
一种基于动态资源分配多任务差分进化算法的车辆路径优化方法
客户 车辆路径优化方法 订单 动态资源分配 站点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号