摘要
本发明公开了一种基于多模态语言对齐的数据增强方法和装置,该方法包括:采集电子病历系统中患者的基本信息、观察窗期间的诊断报告和各类图像数据,并对其进行预处理;分别对预处理后的图像和诊断报告进行图像数据编码和文本数据编码,得到编码后的图像嵌入表示和文本嵌入表示;将编码后的图像嵌入表示和文本嵌入表示进行模态投影融合,通过对比学习方法构建其损失函数,通过最小化对比学习的损失函数对齐图像嵌入表示和文本嵌入表示;通过基于语言相似性的图像‑文本对生成的解码方法,生成图像‑文本对数据。本发明能够区分图像和文本以及不同模态的图像;还可以生成指定模态的数据,解决了多模态大模型研究中缺少数据量的问题。
技术关键词
图像嵌入
文本
多模态
编码器
图像数据编码模块
报告
电子病历系统
双向注意力机制
前馈神经网络
多头注意力机制
学习方法
数据采集模块
投影模块
切片
医学
观察窗
系统为您推荐了相关专利信息
土壤墒情传感器
协方差估计
布设方法
多模态
协方差矩阵
AI算法
垃圾分类识别
识别方法
多模态
感应模块
大语言模型
数据处理方法
推荐商品信息
订单
客户端
增量式编码器
IC芯片
同步电路
归一化电路
电阻单元