一种语音多模态交互模型的训练方法及装置

AITNT
正文
推荐专利
一种语音多模态交互模型的训练方法及装置
申请号:CN202510151385
申请日期:2025-02-11
公开号:CN120071898A
公开日期:2025-05-30
类型:发明专利
摘要
本申请公开了一种语音多模态交互模型的训练方法及装置,包括:获取训练样本集,训练样本集包括多个提示文本和每个提示文本对应的提示音频和样本回复文本;将训练样本集输入到待训练的语音多模态交互模型进行模型训练,得到每个提示文本对应的提示文本特征、预测回复文本、提示音频对应的提示音频特征;基于每个提示文本对应的提示文本特征和提示音频特征,确定训练后的语音多模态交互模型的第一损失值,基于每个提示文本对应的预测回复文本和样本回复文本,确定训练后的语音多模态交互模型的第二损失值;若根据第一损失值和第二损失值确定训练后的语音多模态交互模型收敛,则将训练后的语音多模态交互模型确定为训练好的语音多模态交互模型。
技术关键词
多模态交互 损失计算方法 文本 训练样本集 语音 音频特征 音色特征 情感特征 音频编码器 模态特征 模型预训练 语义 注意力 训练装置 电子设备 模块 可读存储介质
系统为您推荐了相关专利信息
1
一种基于湖泊生态环境的地理信息地图显示方法及系统
湖泊生态环境 项目 地图显示方法 GPS定位导航 显示端
2
用例测试方法、装置、设备、存储介质及程序产品
内存 测试方法 重构 处理器 测试设备
3
一种消防供水系统故障知识抽取方法、系统、处理设备及存储介质
消防供水系统 知识抽取方法 知识本体 计算机程序指令 构建知识图谱
4
基于可信大模型的政务数据问答生成方法及系统
政务 元素 问答生成方法 误差 滤波器
5
一种企业数字化架构智能成图实现方法和系统
资产 国家电网 知识图谱技术 标签管理 企业
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号