多模态语音语言大模型的训练方法及装置、设备和介质

AITNT
正文
推荐专利
多模态语音语言大模型的训练方法及装置、设备和介质
申请号:CN202510772945
申请日期:2025-06-10
公开号:CN120472888A
公开日期:2025-08-12
类型:发明专利
摘要
本公开提供了一种多模态语音语言大模型的训练方法及装置、设备和介质,涉及人工智能技术领域,尤其涉及大模型、语音数据处理和数据生成技术领域。实现方案为:通过将第一问询语音数据输入多模态语音语言大模型,获取多模态语音语言大模型生成的第一回复语音数据;确定第一问询语音数据对应的问询文本和第一回复语音数据对应的回复文本;基于问询文本和回复文本确定第一评分;基于第一问询语音数据的语音特征和第一回复语音数据的语音特征确定第二评分,其中,语音特征包括语音清晰度、语速特征、音色特征、语调特征和情绪特征中的至少一项;以及基于第一评分和第二评分,调整多模态语音语言大模型的参数。
技术关键词
多模态语音 语音特征 语义向量空间 文本 音色特征 情绪特征 语音数据生成方法 数据生成技术 参数 强化学习策略 数据生成装置 处理器 人工智能技术 计算机程序产品 数据编码 断点
系统为您推荐了相关专利信息
1
语音活动检测模型训练方法、语音活动检测方法及相关装置
模型训练方法 语音活动检测方法 音频编码 语义 判别功能
2
一种基于大模型多轮迭代查询的安全事故报告生成方法和系统
报告生成方法 大语言模型 文本 识别命名实体 报告生成系统
3
一种基于知识图谱的绿色设计知识挖掘及搜索方法
实体 链路 搜索方法 构建知识图谱 节点
4
视频处理方法和装置、电子设备、计算机可读存储介质
图像文本信息 视频 注意力模型 序列 解码器
5
基于提示学习与自适应损失加权的汉越产业文本分类方法及系统
文本分类方法 预训练语言模型 样本 混合损失函数 文本分类模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号