摘要
本发明涉及计算机视觉与医疗影像处理技术领域,具体是一种基于视频理解大模型的肠道内鲁棒单目位姿估计方法,其包括以下步骤:输入时序相邻的两帧肠道胶囊机器人的肠镜图像,通过共享参数的双路深度图生成网络分别提取前后两帧肠镜图像的图像特征,并基于图像特征融合视频理解大模型生成的文本语义特征,生成对应的深度图;利用位姿估计网络解算胶囊机器人的六自由度位姿参数;通过非刚性形变场预测网络预测非刚性形变场;通过图像合成模块重构与真实前一帧肠镜图像对齐的合成图像;完成自监督训练;解决了现有肠道胶囊机器人定位技术在动态肠道环境中存在的非刚性形变场建模能力不足,无法有效区分机器人整体位姿与组织局部形变的问题。
技术关键词
位姿估计方法
胶囊机器人
语义特征
肠镜
空间分布规律
视频
视觉特征
网络
文本
编码模块
跨模态
采样技术
像素
图像深度信息
图像深度图
通道注意力机制
解码模块
融合特征
系统为您推荐了相关专利信息
海底声呐
边界先验
语义分割网络
海底地貌
图像处理方法
图像自动识别方法
卷积神经网络模型
图像识别模型
深度卷积神经网络
注意力机制