语音生成方法、装置、设备及介质

AITNT
正文
推荐专利
语音生成方法、装置、设备及介质
申请号:CN202510643898
申请日期:2025-05-19
公开号:CN120279883A
公开日期:2025-07-08
类型:发明专利
摘要
本发明涉及语音合成技术领域,可应用于金融科技、医疗健康等业务场景中,公开了一种语音生成方法、装置、设备及介质,包括:接收提示语音并转换为初始文本,基于字符与拼音的联合编码方式生成融合特征,通过文本编码器提取文本特征,结合基于码本生成方式提取的语音编码输入文本语音语言模型生成中间编码,同时提取提示语音中的说话人特征向量,并由生成对抗解码器对中间编码和说话人特征向量进行解码处理,输出目标语音。本发明通过融合字符语义与拼音发音信息建立细粒度的文本表示,结合码本驱动的声学编码与说话人个性特征,通过统一的语音语言建模与对抗生成机制完成语音克隆,提升了生成语音的自然度、相似度和发音准确性。
技术关键词
语音生成方法 拼音 生成方式 文本编码器 字符 融合特征 语音编码 解码器 生成器网络 生成程序 语音识别模块 生成语音 文本特征向量 重构误差 波形 声学特征
系统为您推荐了相关专利信息
1
一种基于语义嵌入和偏好建模的可控图像生成方法
图像生成模型 图像生成方法 文本编码器 指令 大语言模型
2
典型设计的数字化图元库构建方法及辅助设计方法
图元 索引 辅助设计方法 标记 识别模块
3
基于动态权重预测的双三次插值图像超分重建方法
超分辨率模型 动态 轻量化卷积神经网络 双三次插值 对比度
4
基于n-gram模型的中文文档的OCR后处理方法、装置及可读介质
识别置信度 后处理方法 分词 字符 顶点
5
人员拜访行为的分析方法、装置、计算机设备和存储介质
客户 分析方法 有效性 计算机设备 图像识别模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号