摘要
本申请公开了一种基于多模态语义对齐的智能体自适应决策方法及装置,方法包括:通过多模态传感器阵列采集语音信息、视觉信息和触觉信息进行时间戳同步,得到时间对齐的多模态数据;根据预设分层注意力机制,将多模态数据进行细粒度语义对齐,得到统一语义表示,预设分层注意力机制包括模态内注意力层与跨模态注意力层,模态内注意力层用于捕捉多模态数据的依赖关系并基于依赖关系提取各模态数据内部的关键特征,跨模态注意力层用于根据关键特征对各模态数据进行语义对齐和语义融合;根据统一语义表示和预先训练的生成对抗网络,生成决策结果。因此,采用本申请实施例,智能体在执行任务时不会出现误解或错误操作,从而提升了智能体决策的准确性。
技术关键词
生成对抗网络
语义
分层注意力
序列
视觉
触觉信息
语音
跨模态
模态传感器
决策方法
注意力机制
关系
梅尔频率倒谱系数
对抗性
多模态数据采集
数据处理机制
系统为您推荐了相关专利信息
分类检测方法
神经网络模型
泡沫
视觉检测技术
图像采集设备
风险评价方法
风险评估模型
深度学习网络
地貌特征
数字高程模型
实体识别方法
知识蒸馏技术
预训练模型
管道
标签