摘要
本发明涉及人工智能技术领域,可应用于具身智能、金融科技及医疗健康等业务场景中,公开了一种动作指令生成与优化方法、装置、设备及介质,包括:采集环境视觉信息、环境音频信息及动作状态信息,处理环境视觉信息和环境音频信息,分别得到视觉特征和音频特征,采用多模态注意力机制对视觉特征、音频特征及动作状态信息进行动态加权融合,生成综合决策特征,将综合决策特征输入决策网络,生成动作指令,执行动作指令并收集环境反馈信息,基于环境反馈信息优化决策网络,生成更新后的决策网络。本发明通过多模态信息的动态融合与统一决策,提升了具身智能系统在复杂环境下的感知、决策与动作协同水平。
技术关键词
变换特征
音频特征
视觉特征
多模态注意力
决策
指令
生成动作
运动轨迹信息
音频传感器
视觉传感器
环境感知模型
频谱特征提取
优化装置
多头注意力机制
空间特征提取
状态监测模块
前馈神经网络
系统为您推荐了相关专利信息
综合能源系统
状态估计方法
加权算法
数据
进化算法
三维空间监测
传感器节点
三维空间尺寸
异构
覆盖率
算法配置方法
深度强化学习
强化学习策略
超参数
决策