摘要
本发明涉及一种基于多模态理解的数字人交互方法及系统,属于数字人智能交互技术领域。其中,该方法包括:获取多模态数据,根据多模态数据通过特征提取模型得到多模态特征;根据多模态特征通过知识增强模型得到增强模态特征;根据增强模态特征通过图表示学习模型得到模态融合特征向量;大语言模型通过多头注意力机制学习模态融合特征向量得到自然语言输出。实现了数字人对于多模态数据的理解,提高了数字人交互过程中的平滑度、自然性和智能化。
技术关键词
人交互方法
多模态特征
特征提取模型
多头注意力机制
交互模型
多模态注意力
大语言模型
计算机可执行指令
邻居
数据
自然语言
标签
音频特征
智能交互技术
节点特征
BERT模型
系统为您推荐了相关专利信息
预训练语言模型
兼容性问题
异常信息
多头注意力机制
软件
柔性可重构
智能监测方法
低空无人机
多任务
门控结构
数据补全方法
模型训练方法
电池性能检测方法
特征提取模型
计算机执行指令
原始图像数据
图像编码器
图像分类方法
文本编码器
多任务