一种基于视频理解大模型的肠道内鲁棒单目位姿估计方法

正文

推荐专利

申请号：CN202510892166

申请日期：2025-06-30

公开号：CN120782860A

公开日期：2025-10-14

类型：发明专利

摘要

本发明涉及计算机视觉与医疗影像处理技术领域，具体是一种基于视频理解大模型的肠道内鲁棒单目位姿估计方法，其包括以下步骤：输入时序相邻的两帧肠道胶囊机器人的肠镜图像，通过共享参数的双路深度图生成网络分别提取前后两帧肠镜图像的图像特征，并基于图像特征融合视频理解大模型生成的文本语义特征，生成对应的深度图；利用位姿估计网络解算胶囊机器人的六自由度位姿参数；通过非刚性形变场预测网络预测非刚性形变场；通过图像合成模块重构与真实前一帧肠镜图像对齐的合成图像；完成自监督训练；解决了现有肠道胶囊机器人定位技术在动态肠道环境中存在的非刚性形变场建模能力不足，无法有效区分机器人整体位姿与组织局部形变的问题。

技术关键词

位姿估计方法胶囊机器人语义特征肠镜空间分布规律视频视觉特征网络文本编码模块跨模态采样技术像素图像深度信息图像深度图通道注意力机制解码模块融合特征

系统为您推荐了相关专利信息

一种跨域文案在线溯源方法和装置

溯源方法分布式搜索引擎聚类在线查询机制

一种面向浅海生物模型的密度检测和入侵预警的方法

生物特征金字塔网络 YOLO算法视频帧密度

一种基于语义分割的海底声呐图像处理方法

海底声呐边界先验语义分割网络海底地貌图像处理方法

一种面向多边缘设备的Transformer模型协同推理方法

多边缘推理方法标签类别蒸馏方法令牌

基于改进卷积神经网络的天珠图像自动识别方法和系统

图像自动识别方法卷积神经网络模型图像识别模型深度卷积神经网络注意力机制

一种基于视频理解大模型的肠道内鲁棒单目位姿估计方法

站点导航

APP 下载