摘要
本发明涉及人工智能技术领域,可应用于具身智能、金融科技及医疗健康等业务场景中,公开了一种基于任务理解表征的控制方法、装置、设备及介质,包括:获取待处理场景的环境图像和用于指定操作任务的任务指令,利用视觉编码器处理环境图像生成视觉特征向量,利用语言编码器处理任务指令生成语义表示,融合视觉特征向量与语义表示得到融合特征,将融合特征输入预训练模型生成任务理解表征,使用基于扩散模型和流匹配技术的动作解码器生成动作序列,依据动作序列控制执行装置执行操作。本发明通过融合多模态信息并引入任务理解机制,结合扩散模型与流匹配技术生成高可靠性的动作序列,能够在复杂环境下提升对多变任务指令的响应能力与操作的精准性。
技术关键词
执行装置
语言编码器
融合特征
预训练模型
运动轨迹规划
序列
语义
生成动作
融合视觉特征
指令
图像
解码器
噪声
上下文特征
多光谱成像设备
融合多模态信息
注意力
末端执行器
系统为您推荐了相关专利信息
文本
长短期记忆网络
融合评论
新闻检测技术
预训练模型
视频特征向量
坐标点
坐标系
烟火检测方法
雷达点云数据
特高压变电站
跨模态
多尺度
图像
地面巡检机器人
高维特征向量
卡尔曼滤波
轨迹
特征提取网络
数据