摘要
本发明提供多模态融合驱动的智能体交互方法及系统,涉及智能交互技术领域,包括通过深度神经网络提取图像、文本和音频特征向量,采用跨模态自注意力子模块和模态间交互注意力子模块进行自适应融合,基于差异度更新智能体知识图谱的节点特征并进行关系推理,生成交互策略控制智能体执行交互动作。本发明实现了多模态信息的有效融合和知识图谱的动态更新,提高了智能体交互的准确性和适应性。
技术关键词
文本特征向量
交互注意力
图像特征向量
智能体交互
模态特征
子模块
节点
控制智能体
深度神经网络
多模态
跨模态
图谱
交互动作
策略
计算机程序指令
特征提取网络
音频
分层强化学习
智能交互技术
系统为您推荐了相关专利信息
视频
深度学习模型
动作定位方法
多模态
文本特征向量
指令反馈方法
无人机视觉
多模态
文本特征向量
无人机控制系统
三维激光雷达点云
交互注意力
点云图像
全景分割方法
压缩特征