摘要
本发明公开了一种语音大模型训练与推理架构优化方法,包括以下步骤:在训练过程中采用自回归的方式进行生成,在第一阶段,模型采用传统的教师强制方式进行训练:以完整的文本提示和语音提示作为输入,生成第一轮预测序列;进入后续阶段后,模型逐步将自身生成的预测结果与原始的ground‑truth提示混合,用作下一阶段的伪标签提示,该混合过程通过逐token采样的方式迭代进行。本发明提供了一种语音大模型训练与推理架构优化方法,可以通提升训练过程的效率,并减轻过拟合的风险;提升模型生成语音的质量和一致性,提升生成效果和训练效率。
技术关键词
推理架构
生成语音
强化学习算法
文本
教师
机制
框架
策略
标签
多阶段
序列
解码
决策
逻辑
场景
动态
风险
基础
系统为您推荐了相关专利信息
特效生成方法
控制策略
音频特征
文本
特效生成装置
大语言模型
标注方法
零样本图像分类
图像嵌入
转化方法
人工智能驱动
情感分析系统
关键词
文本
情感分析方法