基于视觉语言动作多模态模型的水利无人机巡检方法

正文

推荐专利

申请号：CN202510692153

申请日期：2025-05-27

公开号：CN120704350A

公开日期：2025-09-26

类型：发明专利

摘要

本发明提供一种基于视觉语言动作多模态模型的水利无人机巡检方法。本申请流程包括：S2.将无人机云台相机拍摄的图像、无人机和云台的状态向量、以及任务指令输入到视觉语言动作多模态模型得到下一时刻的飞控和云台的动作；S3.无人机执行飞控和云台的动作指令，达到新的状态，仅更新无人机状态，然后视觉语言动作多模态模型预测下一时刻的飞控和云台的动作；S4.重复步骤S3 N次；S5.将最新时刻的无人机云台拍摄的画面、视觉语言动作多模态模型预测的下一刻的任务指令和无人机最新的状态输入到视觉语言动作多模态模型，输出下一时刻的飞控和云台的动作；不断重复步骤S3~S5，直到完成巡检任务。

技术关键词

无人机巡检方法多模态无人机云台指令解码器水利状态编码器云台相机视觉特征计算机可执行程序无人机电池电量无人机巡检装置图像注意力文本存储软件程序

基于视觉语言动作多模态模型的水利无人机巡检方法

站点导航

APP 下载