摘要
本发明涉及人工智能技术领域,可应用于具身智能、金融科技及医疗健康等业务场景中,公开了一种基于多模态信息融合的操作控制方法、装置、设备及介质,包括:获取操作环境的图像数据和任务指令,提取图像数据中的视觉特征以及任务指令中的语言特征,融合视觉特征与语言特征生成融合特征,将融合特征输入至动作生成模型生成动作序列,控制执行器根据动作序列在操作环境中执行操作,获取执行结果生成反馈信号,并基于反馈信号调整动作生成模型的参数。本发明通过融合视觉和语言特征,提升了操作控制系统对复杂环境变化的适应能力和多任务处理能力,从而能够实现更精确、更智能的操作控制,显著提高了系统的泛化能力和执行效率。
技术关键词
多模态信息融合
操作控制方法
生成反馈信号
控制执行器
末端执行器
融合特征
操作控制装置
序列
指令
图像
融合视觉特征
参数
编码特征
数据
异常事件
关节
模型更新
视觉特征提取