摘要
本申请提供了一种病理图像视觉定位的方法及系统、设备、存储介质,属于图像识别技术领域,该方法包括:基于目标病理图像提取视觉特征,基于第一文本描述确定语义特征向量和知识特征向量;目标病理图像为待进行目标区域定位的病理图像,知识特征向量用于表征与目标病理图像的内容关联的知识信息;对语义特征向量和知识特征向量进行融合得到融合文本特征;将融合文本特征和视觉特征进行跨模态融合,得到融合多模态特征,基于融合多模态特征得到融合表示;基于融合表示,通过多层感知机对目标病理图像中的目标区域进行定位,得到目标区域的边界框的位置信息。本申请能够提高病理图像区域级别准确灵活定位的能力。
技术关键词
融合多模态特征
视觉特征
文本
识别特征
病理切片图像
多层感知机
跨模态
大语言模型
组织
词语
语义特征提取
标记
空间位置关系
自然语言
模糊语义
图像识别技术
可读存储介质
系统为您推荐了相关专利信息
数据交互功能
可编程逻辑控制器
私有协议
事件驱动模型
ModbusTCP协议
运动康复系统
上肢康复机器人
上肢康复训练
大语言模型
视觉交互设备
编程支持方法
语义关系网络
大语言模型
编程支持系统
三元组