摘要
本发明公开了一种基于多模态大模型的数字人交互方法及系统,涉及数字人交互技术领域,方法包括:采集多模态输入数据,进行特征提取和时间同步;使用预设的多模态大模型对每种模态的输入数据进行编码,将编码结果映射到高维空间中,形成多个模态特征向量,进行权重分配,融合生成第一交互向量,提取意图特征表示,计算分析得到用户意图,构建语义关联网络;对语义关联网络进行图卷积操作,提取逻辑关系特征,根据意图特征表示和逻辑关系特征,生成数字人交互内容,通过输出接口传递给用户。通过对多模态输入数据的特征提取、多模态特征向量生成与语义映射技术,提升多模态数据的融合精确性、语义理解能力和交互响应的精准性与多样性。
技术关键词
人交互方法
语义关联网络
上下文特征
多模态
生成数字人
意图类别
交互内容
投影算法
编码特征
节点特征
注意力
矩阵
数据
时间同步
二维卷积神经网络
逻辑
分层特征提取
系统为您推荐了相关专利信息
三维物体重建方法
隐式结构
大语言模型
多视角
三维结构
高空输电线路
感应电
建模系统
无人机平台
地面监控
关键帧
异常事件
视频分析
支持用户对视频
施工现场
设计系统
包装
数据输入模块
生成对抗网络
数据库构建方法
多模态数据采集
财务信息化技术
多模态特征
协方差矩阵
注意力机制