摘要
本申请涉及一种基于文本语义增强的腹腔手术视频三元组识别方法,包括:设计文本提示并提取其特征得到文本特征表示;采用图像编码器提取腹腔手术视频帧图像的图像编码特征,并将图像编码特征经过瓶颈层输出三元组特征;基于设计的三元解耦注意力模块将图像编码特征解耦为器械特征、动作特征、目标组织特征;融合三元组特征、器械特征、动作特征、目标组织特征,得到图像特征表示;融合文本特征表示与图像特征表示,得到文本增强后的图像特征;基于文本增强后的图像特征训练时间卷积网络,得到训练好的时间卷积网络;获取待识别的腹腔手术视频帧图像的第二图像特征表示;将第二图像特征表示输入至训练好的时间卷积网络,得到三元组分类结果。
技术关键词
三元组
时间卷积网络
视频帧
图像编码器
识别方法
手术器械定位
文本编码器
动作特征
积层
标准化模板
语义
交叉注意力机制
标签
系统为您推荐了相关专利信息
时空序列数据
风险评估方法
企业画像
风险评估系统
长短期记忆网络
作弊识别方法
分析模块
传感
监测模块
数据存储模块
障碍物轮廓
识别方法
修正算法
航迹管理
泊车方法
关系提取方法
命名实体识别
文本
矩阵
归一化模块