摘要
本公开提供了一种多模态语音语言大模型的训练方法及装置、设备和介质,涉及人工智能技术领域,尤其涉及大模型、语音数据处理和数据生成技术领域。实现方案为:通过将第一问询语音数据输入多模态语音语言大模型,获取多模态语音语言大模型生成的第一回复语音数据;确定第一问询语音数据对应的问询文本和第一回复语音数据对应的回复文本;基于问询文本和回复文本确定第一评分;基于第一问询语音数据的语音特征和第一回复语音数据的语音特征确定第二评分,其中,语音特征包括语音清晰度、语速特征、音色特征、语调特征和情绪特征中的至少一项;以及基于第一评分和第二评分,调整多模态语音语言大模型的参数。
技术关键词
多模态语音
语音特征
语义向量空间
文本
音色特征
情绪特征
语音数据生成方法
数据生成技术
参数
强化学习策略
数据生成装置
处理器
人工智能技术
计算机程序产品
数据编码
断点
系统为您推荐了相关专利信息
模型训练方法
语音活动检测方法
音频编码
语义
判别功能
报告生成方法
大语言模型
文本
识别命名实体
报告生成系统
文本分类方法
预训练语言模型
样本
混合损失函数
文本分类模型