基于多模态语义对齐的决策方法、装置、设备及介质

正文

推荐专利

申请号：CN202511060280

申请日期：2025-07-30

公开号：CN120954438A

公开日期：2025-11-14

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于金融科技及医疗健康等业务场景中，公开了一种基于多模态语义对齐的决策方法、装置、设备及介质，包括：获取语音、视觉、动作数据并提取各自特征，构建语音、视觉、动作语义图谱，以语音语义图谱为基准执行跨模态对齐生成关联信息，融合语音特征、视觉特征、动作特征和关联信息生成融合特征向量，输入决策网络生成决策特征向量并生成任务执行指令，获取任务执行指令的执行反馈信息并更新决策网络。本发明通过以语音指令主导输入，结合视觉特征、动作特征与语义图谱深度对齐与融合，提升输入自然性和多模态数据解析与决策效率，提高模型在复杂场景中的交互适应性与决策准确性。

技术关键词

语义图谱动作特征视觉特征语音特征跨模态多模态决策方法建立映射关系依赖特征语音指令识别节点数据生成语音网络信息更新

系统为您推荐了相关专利信息

智能语义理解及校准的生成式语音识别方法以及系统

智能语义理解语音识别文本语音识别方法校准生成对抗网络

一种基于多传感器融合的SLAM定位方法及系统

多传感器融合视觉特征定位方法数据 SLAM系统

一种基于边缘引导的工业表面缺陷异常检测方法

异常检测方法解码器工业样本柏林噪声

一种基于类脑多模态层次化感知的情绪识别方法

情绪识别方法面部表情特征提取语音特征提取梅尔频率倒谱系数预测类别

多模态数据驱动的产品众筹成功率预测方法与系统

分层混合模型文本处理模型图像处理模型融合特征交叉注意力机制

基于多模态语义对齐的决策方法、装置、设备及介质

站点导航

APP 下载