摘要
本发明涉及人工智能技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于多模态语义对齐的决策方法、装置、设备及介质,包括:获取语音、视觉、动作数据并提取各自特征,构建语音、视觉、动作语义图谱,以语音语义图谱为基准执行跨模态对齐生成关联信息,融合语音特征、视觉特征、动作特征和关联信息生成融合特征向量,输入决策网络生成决策特征向量并生成任务执行指令,获取任务执行指令的执行反馈信息并更新决策网络。本发明通过以语音指令主导输入,结合视觉特征、动作特征与语义图谱深度对齐与融合,提升输入自然性和多模态数据解析与决策效率,提高模型在复杂场景中的交互适应性与决策准确性。
技术关键词
语义图谱
动作特征
视觉特征
语音特征
跨模态
多模态
决策方法
建立映射关系
依赖特征
语音指令识别
节点
数据
生成语音
网络
信息更新
系统为您推荐了相关专利信息
智能语义理解
语音识别文本
语音识别方法
校准
生成对抗网络
多传感器融合
视觉特征
定位方法
数据
SLAM系统
情绪识别方法
面部表情特征提取
语音特征提取
梅尔频率倒谱系数
预测类别
分层混合模型
文本处理模型
图像处理模型
融合特征
交叉注意力机制