摘要
本发明公开了一种基于大语言模型的对话生成方法及装置、存储介质、终端,涉及自然语言处理技术领域及智能对话应用领域,主要目的在于解决现有智能对话解决方案对语音问题的理解能力不足,生成音频回答的准确性较低的问题。主要包括获取对话提问信息和答复类型;在对话提问信息为音频,且答复类型包含语音答复的情况下,通过完成训练的音频编码器将对话提问信息转换为离散的提问音频特征表示,并通过完成训练的大语言模型,依据提问音频特征表示生成答复音频特征表示;通过完成训练的音频解码器对答复音频特征表示进行音频解码得到答复语音,并将包含答复语音的答复内容输出至发起对话的客户端。主要用于生成智能对话的多模态答复。
技术关键词
音频编码器
音频特征
音频解码器
大语言模型
对话生成方法
文本
无监督
多模态对话
语音
训练样本集
阶段
对话生成装置
数据
客户端
通信接口
指令
系统为您推荐了相关专利信息
报告生成系统
评价报告生成方法
指标
大语言模型
数据管理模块
表情驱动方法
人脸模型
音频特征
人脸图片
音频编码器
数据分类方法
图像特征向量
多模态特征
图像编码器
音频编码器
故障识别方法
线性预测倒谱系数
声纹特征
降维算法
梅尔倒谱系数
图形用户界面
自然语言
机器学习模型
导管
三维模型