多模态语音语言大模型的训练方法及装置、设备和介质

正文

推荐专利

申请号：CN202510772945

申请日期：2025-06-10

公开号：CN120472888A

公开日期：2025-08-12

类型：发明专利

摘要

本公开提供了一种多模态语音语言大模型的训练方法及装置、设备和介质，涉及人工智能技术领域，尤其涉及大模型、语音数据处理和数据生成技术领域。实现方案为：通过将第一问询语音数据输入多模态语音语言大模型，获取多模态语音语言大模型生成的第一回复语音数据；确定第一问询语音数据对应的问询文本和第一回复语音数据对应的回复文本；基于问询文本和回复文本确定第一评分；基于第一问询语音数据的语音特征和第一回复语音数据的语音特征确定第二评分，其中，语音特征包括语音清晰度、语速特征、音色特征、语调特征和情绪特征中的至少一项；以及基于第一评分和第二评分，调整多模态语音语言大模型的参数。

技术关键词

多模态语音语音特征语义向量空间文本音色特征情绪特征语音数据生成方法数据生成技术参数强化学习策略数据生成装置处理器人工智能技术计算机程序产品数据编码断点

系统为您推荐了相关专利信息

语音活动检测模型训练方法、语音活动检测方法及相关装置

模型训练方法语音活动检测方法音频编码语义判别功能

一种基于大模型多轮迭代查询的安全事故报告生成方法和系统

报告生成方法大语言模型文本识别命名实体报告生成系统

一种基于知识图谱的绿色设计知识挖掘及搜索方法

实体链路搜索方法构建知识图谱节点

视频处理方法和装置、电子设备、计算机可读存储介质

图像文本信息视频注意力模型序列解码器

基于提示学习与自适应损失加权的汉越产业文本分类方法及系统

文本分类方法预训练语言模型样本混合损失函数文本分类模型

多模态语音语言大模型的训练方法及装置、设备和介质

站点导航

APP 下载