基于多模态语义对齐的决策方法、装置、设备及介质

AITNT
正文
推荐专利
基于多模态语义对齐的决策方法、装置、设备及介质
申请号:CN202511060280
申请日期:2025-07-30
公开号:CN120954438A
公开日期:2025-11-14
类型:发明专利
摘要
本发明涉及人工智能技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于多模态语义对齐的决策方法、装置、设备及介质,包括:获取语音、视觉、动作数据并提取各自特征,构建语音、视觉、动作语义图谱,以语音语义图谱为基准执行跨模态对齐生成关联信息,融合语音特征、视觉特征、动作特征和关联信息生成融合特征向量,输入决策网络生成决策特征向量并生成任务执行指令,获取任务执行指令的执行反馈信息并更新决策网络。本发明通过以语音指令主导输入,结合视觉特征、动作特征与语义图谱深度对齐与融合,提升输入自然性和多模态数据解析与决策效率,提高模型在复杂场景中的交互适应性与决策准确性。
技术关键词
语义图谱 动作特征 视觉特征 语音特征 跨模态 多模态 决策方法 建立映射关系 依赖特征 语音指令识别 节点 数据 生成语音 网络 信息更新
系统为您推荐了相关专利信息
1
智能语义理解及校准的生成式语音识别方法以及系统
智能语义理解 语音识别文本 语音识别方法 校准 生成对抗网络
2
一种基于多传感器融合的SLAM定位方法及系统
多传感器融合 视觉特征 定位方法 数据 SLAM系统
3
一种基于边缘引导的工业表面缺陷异常检测方法
异常检测方法 解码器 工业 样本 柏林噪声
4
一种基于类脑多模态层次化感知的情绪识别方法
情绪识别方法 面部表情特征提取 语音特征提取 梅尔频率倒谱系数 预测类别
5
多模态数据驱动的产品众筹成功率预测方法与系统
分层混合模型 文本处理模型 图像处理模型 融合特征 交叉注意力机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号