摘要
本发明涉及人工智能技术领域,可应用于智能体自主决策、金融科技及医疗健康等业务场景中,公开了一种基于多模态信息的决策方法、装置、设备及介质,包括:获取视觉数据、语言指令和动作历史数据并处理为视觉特征、语言特征和动作历史特征,融合这些特征生成预处理多模态特征,使用分层动作解码器生成动作序列特征,将动作序列特征映射为控制参数生成动作决策,采集环境反馈信息并基于其生成新的动作序列特征,更新动作决策。本发明通过多模态信息处理和分层动作解码,将视觉、语言及动作历史信息动态融合,结合环境反馈优化动作序列生成与决策更新,有效提升了复杂环境下动作决策的适应性与精确度,增强了模型对多变场景的响应能力。
技术关键词
多模态信息
序列特征
多模态特征
视觉特征
决策方法
生成动作
解码器
分层
规划
多尺度池化
多头注意力机制
指令
语义
融合特征
计算机设备
数据
动态
系统为您推荐了相关专利信息
子系统
维修策略优化方法
综合故障率
历史故障数据
故障相关性分析
虚拟驾驶场景
性能评估方法
特征提取模块
虚拟场景数据
多模态特征融合
人形机器人
人机交互方法
人机交互系统
生成机器人
关键点
多模态智能机器人
多模态信息融合
多模态特征融合
图像采集装置
数据融合机制
剔除方法
数据冗余
节点
高维特征向量
知识图谱构建