语音合成方法、装置、直播系统、电子设备及存储介质

AITNT
正文
推荐专利
语音合成方法、装置、直播系统、电子设备及存储介质
申请号:CN202411374449
申请日期:2024-09-29
公开号:CN119360822A
公开日期:2025-01-24
类型:发明专利
摘要
本申请涉及一种语音合成方法、装置、直播系统、电子设备及计算机可读存储介质;所述方法包括:获取语言合成的目标文本和说话人的音色特征;对目标引导音频进行编码得到去除音色的目标离散语义编码;其中,所述目标离散语义编码包含韵律特征;基于大语言模型对所述目标离散语义编码和所述目标文本进行预测得到待合成音频编码;其中,所述待合成音频编码包括目标引导音频的韵律和目标文本的语义特征;根据所述目标文本和音色特征对所述待合成音频编码进行解码得到语音合成音频;该技术方案,合成语音能逼近真人语音效果,可以调制合成语音的韵律和音色,满足网络直播中的多样化应用需求。
技术关键词
音频编码 音色特征 大语言模型 文本 语音 语义特征 解码器 韵律特征 直播系统 视频流 编码器 音频特征提取 电子设备 服务器 可读存储介质 解码模块 编码模块
系统为您推荐了相关专利信息
1
基于大模型的智能问答方法、装置、电子设备和存储介质
离散特征 智能问答方法 融合特征 文本 对象
2
一种双语场景下尾注、脚注自动编号对齐方法、装置介质
对齐方法 标签 格式化信息 场景 机器翻译技术
3
一种煤矿井下施工语音转录系统及转录方法
煤矿井下施工 转录系统 钻孔作业 语音转录方法 生成作业
4
多模态交互机械臂智能任务分配与优先级管理系统及方法
优先级管理系统 多模态交互 自定义指令 机械臂 输入设备
5
一种基于特征增强的多模态图文篡改检测与定位方法
图像编码器 图像增强 分块DCT变换 文本编码器 频域特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号