摘要
本申请涉及人工智能技术领域,应用于机器人控制、机器视觉、自动驾驶等业务场景中,通过使用基于无监督方式进行潜在动作预训练和真实动作后训练得到的动作预测模型进行动作预测,可以有效提高动作预测的准确性,进而减少根据预测动作进行任务操作时出现操作错误的概率。涉及一种动作预测方法、装置、设备和介质,该方法包括:获取目标对象的视频流数据和视频流数据对应的语言指令;将视频流数据对应的语言指令和视频流数据输入训练后的动作预测模型中进行动作预测,得到动作预测结果,动作预测模型为预先基于无监督方式进行潜在动作预训练和真实动作后训练得到的模型;根据动作预测结果确定动作指令,并基于动作指令控制目标对象进行任务操作。
技术关键词
动作预测模型
动作预测方法
图像特征信息
视频流
大语言模型
图像编码器
训练样本数据
指令
图像特征向量
图像解码器
无监督
文本编码器
动作预测装置
计算机设备
系统为您推荐了相关专利信息
分布式光伏发电
天气预报数据
大语言模型
预测装置
数据格式
数据监控管理方法
大语言模型
标签
文本
数据监控管理系统
混合系统
大语言模型
渔业监测装置
气象
终端设备
构建知识图谱
大语言模型
答案生成方法
三元组
索引