摘要
本申请公开了一种基于大语言模型的数字人交互方法及装置。所述方法包括:客户端获取用户输入的待交互语音信息、待交互视频信息、待交互文本信息;通过经过训练的所述多模态压缩模型对待交互语音信息、待交互视频信息、待交互文本信息压缩后获取第一压缩信息并发送给云端;云端进行解压缩;云端获取经过训练的大语言模型;云端将所述原始的待交互语音信息、原始的待交互视频信息、原始的待交互文本信息输入至经过训练的大语言模型中从而获取回复信息以及回复视频信息;云端将获取的回复信息以及回复视频信息通过所述云端多模态压缩模型进行压缩从而获取第二压缩信息;云端将第二压缩信息发送给所述客户端。
技术关键词
交互视频
人交互方法
大语言模型
客户端
节点
语义
语音
多模态
云端
检验器
特征提取器
交互装置
文本信息提取
联合损失函数
融合特征
输入解码器
图谱
系统为您推荐了相关专利信息
节点
检修机器人
障碍物
路径规划技术
路径规划系统
视频告警方法
监控设备
监控视频分析
自定义图片
二维码
智能火灾消防系统
传感器节点
控制灭火装置
高维特征向量
私有云
大语言模型
关键词
读取文本信息
构建知识图谱
实体