摘要
本申请属于计算机视觉技术领域,具体公开了一种基于视觉和语言的X光片分析方法及装置,方法包括利用视觉编码器提取待分析X光片的图像特征,并利用文本编码器提取待分析X光片的文本特征;获取可学习的查询向量,将所述图像特征、文本特征以及查询向量输入至训练好的大语言模型中,通过所述大语言模型的注意力层对查询向量、图像特征以及文本特征进行跨模态交互,得到融合后的跨模态特征;基于所述跨模态特征进行识别分析,得到待分析X光片图像和文本的分析结果。通过本申请,可提高X光片分析结果的准确性。
技术关键词
大语言模型
分析方法
跨模态
注意力
图像
文本编码器
模态特征
预训练模型
计算机视觉技术
报告
可读存储介质
存储计算机程序
特征提取模块
数据
处理器
分析装置
存储器
线性
系统为您推荐了相关专利信息
监督学习模型
编码器
特征提取网络
训练集
生成红外图像
点识别方法
堤坝
通道注意力机制
空间金字塔池化
图像分割
交叉注意力机制
输出特征
双向长短期记忆网络
鉴别方法
多头注意力机制