语音生成框架的训练方法、装置、设备及存储介质

AITNT
正文
推荐专利
语音生成框架的训练方法、装置、设备及存储介质
申请号:CN202411659432
申请日期:2024-11-19
公开号:CN119479610A
公开日期:2025-02-18
类型:发明专利
摘要
本申请提供一种语音生成框架的训练方法、装置、设备及存储介质。该框架包括文本到声学令牌的大语言模型、流模型、声码模型,训练方法,包括:以第一语音数据、第二语音数据为训练数据,分别对该大语言模型、流模型、声码模型进行训练;其中,第一语音数据包括第一音频及音频对应的文本、第一音频对应的文本所对应的语音表征;第二语音数据包括不同副语言信息标注下的第二音频及音频对应的文本、第二音频对应的文本所对应的语音表征;以第三语音数据为训练数据,对流模型、该大语言模型中的文本嵌入模块进行训练,得到训练好的语音生成框架;第三语音数据包括目标说话人的第三音频及音频对应的文本、第三音频对应的文本所对应的语音表征。
技术关键词
生成框架 令牌 音频 计算机执行指令 大语言模型 文本编码器 声纹模型 数据 编码器模块 训练装置 编码模块 可读存储介质 生成语音 解码器 阶段 处理器通信 存储器
系统为您推荐了相关专利信息
1
安卓智能体超越行为克隆的策略学习方法和系统
策略学习方法 安卓智能 基座 离线 强化学习方法
2
基于大语言模型的多智能体物料齐套管理系统及方法
大语言模型 管理系统 文本 纠错机制 状态监控模块
3
一种缓解多模态大模型幻觉的训练方法、装置
多模态 图像 标记 注意力 索引
4
一种基于多模态大模型的图表问答方法
图表 文本 多模态 关键词 问答方法
5
用于对音频数据进行编码的方法和系统
环绕声格式 驱动信号 对象 解码器 通道
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号