一种基于文本语义增强的腹腔手术视频三元组识别方法

正文

推荐专利

申请号：CN202511262667

申请日期：2025-09-05

公开号：CN120808239B

公开日期：2025-11-11

类型：发明专利

摘要

本申请涉及一种基于文本语义增强的腹腔手术视频三元组识别方法，包括：设计文本提示并提取其特征得到文本特征表示；采用图像编码器提取腹腔手术视频帧图像的图像编码特征，并将图像编码特征经过瓶颈层输出三元组特征；基于设计的三元解耦注意力模块将图像编码特征解耦为器械特征、动作特征、目标组织特征；融合三元组特征、器械特征、动作特征、目标组织特征，得到图像特征表示；融合文本特征表示与图像特征表示，得到文本增强后的图像特征；基于文本增强后的图像特征训练时间卷积网络，得到训练好的时间卷积网络；获取待识别的腹腔手术视频帧图像的第二图像特征表示；将第二图像特征表示输入至训练好的时间卷积网络，得到三元组分类结果。

技术关键词

三元组时间卷积网络视频帧图像编码器识别方法手术器械定位文本编码器动作特征积层标准化模板语义交叉注意力机制标签

系统为您推荐了相关专利信息

一种基于时空数据的已供应土地闲置风险评估方法及系统

时空序列数据风险评估方法企业画像风险评估系统长短期记忆网络

基于传感监测和视觉分析耦合的地磅区域作弊识别方法

作弊识别方法分析模块传感监测模块数据存储模块

一种障碍物轮廓识别方法、系统及泊车方法

障碍物轮廓识别方法修正算法航迹管理泊车方法

利用基于轴向注意力DWConv前馈网络的文档级关系提取方法

关系提取方法命名实体识别文本矩阵归一化模块

视频处理方法和装置、存储介质及电子设备

视频帧多模态手势画面数据

一种基于文本语义增强的腹腔手术视频三元组识别方法

站点导航

APP 下载