摘要
本申请公开了一种语音多模态交互模型的训练方法及装置,包括:获取训练样本集,训练样本集包括多个提示文本和每个提示文本对应的提示音频和样本回复文本;将训练样本集输入到待训练的语音多模态交互模型进行模型训练,得到每个提示文本对应的提示文本特征、预测回复文本、提示音频对应的提示音频特征;基于每个提示文本对应的提示文本特征和提示音频特征,确定训练后的语音多模态交互模型的第一损失值,基于每个提示文本对应的预测回复文本和样本回复文本,确定训练后的语音多模态交互模型的第二损失值;若根据第一损失值和第二损失值确定训练后的语音多模态交互模型收敛,则将训练后的语音多模态交互模型确定为训练好的语音多模态交互模型。
技术关键词
多模态交互
损失计算方法
文本
训练样本集
语音
音频特征
音色特征
情感特征
音频编码器
模态特征
模型预训练
语义
注意力
训练装置
电子设备
模块
可读存储介质
系统为您推荐了相关专利信息
湖泊生态环境
项目
地图显示方法
GPS定位导航
显示端
消防供水系统
知识抽取方法
知识本体
计算机程序指令
构建知识图谱