一种语音多模态交互模型的训练方法及装置

正文

推荐专利

一种语音多模态交互模型的训练方法及装置

申请号：CN202510151385

申请日期：2025-02-11

公开号：CN120071898A

公开日期：2025-05-30

类型：发明专利

摘要

本申请公开了一种语音多模态交互模型的训练方法及装置，包括：获取训练样本集，训练样本集包括多个提示文本和每个提示文本对应的提示音频和样本回复文本；将训练样本集输入到待训练的语音多模态交互模型进行模型训练，得到每个提示文本对应的提示文本特征、预测回复文本、提示音频对应的提示音频特征；基于每个提示文本对应的提示文本特征和提示音频特征，确定训练后的语音多模态交互模型的第一损失值，基于每个提示文本对应的预测回复文本和样本回复文本，确定训练后的语音多模态交互模型的第二损失值；若根据第一损失值和第二损失值确定训练后的语音多模态交互模型收敛，则将训练后的语音多模态交互模型确定为训练好的语音多模态交互模型。

技术关键词

多模态交互损失计算方法文本训练样本集语音音频特征音色特征情感特征音频编码器模态特征模型预训练语义注意力训练装置电子设备模块可读存储介质

系统为您推荐了相关专利信息

一种基于湖泊生态环境的地理信息地图显示方法及系统

湖泊生态环境项目地图显示方法 GPS定位导航显示端

用例测试方法、装置、设备、存储介质及程序产品

内存测试方法重构处理器测试设备

一种消防供水系统故障知识抽取方法、系统、处理设备及存储介质

消防供水系统知识抽取方法知识本体计算机程序指令构建知识图谱

基于可信大模型的政务数据问答生成方法及系统

政务元素问答生成方法误差滤波器

一种企业数字化架构智能成图实现方法和系统

资产国家电网知识图谱技术标签管理企业

一种语音多模态交互模型的训练方法及装置

站点导航

APP 下载