摘要
本发明涉及人工智能技术领域,可应用于智能体自主决策、金融科技及医疗健康等业务场景中,公开了一种基于多模态信息的决策方法、装置、设备及介质,包括:获取视觉数据、语言指令和动作历史数据并处理为视觉特征、语言特征和动作历史特征,融合这些特征生成预处理多模态特征,使用分层动作解码器生成动作序列特征,将动作序列特征映射为控制参数生成动作决策,采集环境反馈信息并基于其生成新的动作序列特征,更新动作决策。本发明通过多模态信息处理和分层动作解码,将视觉、语言及动作历史信息动态融合,结合环境反馈优化动作序列生成与决策更新,有效提升了复杂环境下动作决策的适应性与精确度,增强了模型对多变场景的响应能力。
技术关键词
多模态信息
序列特征
多模态特征
视觉特征
决策方法
生成动作
解码器
分层
规划
多尺度池化
多头注意力机制
指令
语义
融合特征
计算机设备
数据
动态
系统为您推荐了相关专利信息
二次设备
模型构建方法
融合特征
数字孪生模型
异常数据
定位抓取方法
检测开关
仓储机器人
识别标签
图像特征数据
前额叶脑电信号
评估系统
专注度评估方法
滑动窗口技术
特征值
水下多机器人
动作执行控制
决策方法
强化学习方法
规划