摘要
本申请属于人工智能技术领域,涉及一种影像信息抽取方法,包括构建一个影像信息抽取的多模态大模型,多模态大模型包括视觉编码器、特征转换器和解码器,首先冻住解码器,使用预训练影像数据集训练视觉编码器,提升视觉编码器视觉特征提取能力,随后冻住视觉编码器,构造伪影像数据集提升解码器的实体抽取能力,然后通过图像数据增强方法构造增强数据集,对候选模型进行微调,最终获得了高性能的影像信息抽取模型。本申请还提供一种影像信息抽取装置、计算机设备及存储介质。本申请可应用于金融科技业务管理程序系统中,提升了模型对影像信息提取的准确率,进而提升核保效率。
技术关键词
信息抽取方法
影像
文本识别
信息抽取模型
图像视觉特征
图像嵌入
计算机可读指令
视觉特征提取
多模态
解码器
实体
词典
转换器
多层注意力
数据
计算机设备
抽取装置
疾病
系统为您推荐了相关专利信息
边界提取方法
通道注意力机制
高层语义信息
瓦片
重叠切片
功能近红外
可穿戴式头盔
脑电传感器
多模态脑
调控靶点
医疗知识图谱
影像诊断报告
融合特征
样本
注意力机制
卫星影像数据
时空地理加权回归
反演模型
水质方法
图像编码器
遥感监测方法
融合算法
高时空分辨率
浇灌水
影像