基于视觉语言动作多模态模型的水利无人机巡检方法

AITNT
正文
推荐专利
基于视觉语言动作多模态模型的水利无人机巡检方法
申请号:CN202510692153
申请日期:2025-05-27
公开号:CN120704350A
公开日期:2025-09-26
类型:发明专利
摘要
本发明提供一种基于视觉语言动作多模态模型的水利无人机巡检方法。本申请流程包括:S2.将无人机云台相机拍摄的图像、无人机和云台的状态向量、以及任务指令输入到视觉语言动作多模态模型得到下一时刻的飞控和云台的动作;S3.无人机执行飞控和云台的动作指令,达到新的状态,仅更新无人机状态,然后视觉语言动作多模态模型预测下一时刻的飞控和云台的动作;S4.重复步骤S3 N次;S5.将最新时刻的无人机云台拍摄的画面、视觉语言动作多模态模型预测的下一刻的任务指令和无人机最新的状态输入到视觉语言动作多模态模型,输出下一时刻的飞控和云台的动作;不断重复步骤S3~S5,直到完成巡检任务。
技术关键词
无人机巡检方法 多模态 无人机云台 指令解码器 水利 状态编码器 云台相机 视觉特征 计算机可执行程序 无人机电池电量 无人机巡检装置 图像 注意力 文本 存储软件程序
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号