一种基于视频理解大模型的肠道内鲁棒单目位姿估计方法

AITNT
正文
推荐专利
一种基于视频理解大模型的肠道内鲁棒单目位姿估计方法
申请号:CN202510892166
申请日期:2025-06-30
公开号:CN120782860A
公开日期:2025-10-14
类型:发明专利
摘要
本发明涉及计算机视觉与医疗影像处理技术领域,具体是一种基于视频理解大模型的肠道内鲁棒单目位姿估计方法,其包括以下步骤:输入时序相邻的两帧肠道胶囊机器人的肠镜图像,通过共享参数的双路深度图生成网络分别提取前后两帧肠镜图像的图像特征,并基于图像特征融合视频理解大模型生成的文本语义特征,生成对应的深度图;利用位姿估计网络解算胶囊机器人的六自由度位姿参数;通过非刚性形变场预测网络预测非刚性形变场;通过图像合成模块重构与真实前一帧肠镜图像对齐的合成图像;完成自监督训练;解决了现有肠道胶囊机器人定位技术在动态肠道环境中存在的非刚性形变场建模能力不足,无法有效区分机器人整体位姿与组织局部形变的问题。
技术关键词
位姿估计方法 胶囊机器人 语义特征 肠镜 空间分布规律 视频 视觉特征 网络 文本 编码模块 跨模态 采样技术 像素 图像深度信息 图像深度图 通道注意力机制 解码模块 融合特征
系统为您推荐了相关专利信息
1
一种跨域文案在线溯源方法和装置
溯源方法 分布式搜索引擎 聚类 在线 查询机制
2
一种面向浅海生物模型的密度检测和入侵预警的方法
生物 特征金字塔网络 YOLO算法 视频帧 密度
3
一种基于语义分割的海底声呐图像处理方法
海底声呐 边界先验 语义分割网络 海底地貌 图像处理方法
4
一种面向多边缘设备的Transformer模型协同推理方法
多边缘 推理方法 标签类别 蒸馏方法 令牌
5
基于改进卷积神经网络的天珠图像自动识别方法和系统
图像自动识别方法 卷积神经网络模型 图像识别模型 深度卷积神经网络 注意力机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号