一种基于多模态语言对齐的数据增强方法和装置

正文

推荐专利

申请号：CN202411596703

申请日期：2024-11-11

公开号：CN119153017A

公开日期：2024-12-17

类型：发明专利

摘要

本发明公开了一种基于多模态语言对齐的数据增强方法和装置，该方法包括：采集电子病历系统中患者的基本信息、观察窗期间的诊断报告和各类图像数据，并对其进行预处理；分别对预处理后的图像和诊断报告进行图像数据编码和文本数据编码，得到编码后的图像嵌入表示和文本嵌入表示；将编码后的图像嵌入表示和文本嵌入表示进行模态投影融合，通过对比学习方法构建其损失函数，通过最小化对比学习的损失函数对齐图像嵌入表示和文本嵌入表示；通过基于语言相似性的图像‑文本对生成的解码方法，生成图像‑文本对数据。本发明能够区分图像和文本以及不同模态的图像；还可以生成指定模态的数据，解决了多模态大模型研究中缺少数据量的问题。

技术关键词

图像嵌入文本多模态编码器图像数据编码模块报告电子病历系统双向注意力机制前馈神经网络多头注意力机制学习方法数据采集模块投影模块切片医学观察窗

系统为您推荐了相关专利信息

一种多模态土壤墒情传感器布设方法

土壤墒情传感器协方差估计布设方法多模态协方差矩阵

一种基于AI算法分析的垃圾分类处理识别方法

AI算法垃圾分类识别识别方法多模态感应模块

一种数据处理方法、装置及设备

大语言模型数据处理方法推荐商品信息订单客户端

一种增量式编码器信号扩容同步电路

增量式编码器 IC芯片同步电路归一化电路电阻单元

客服质量检测方法、设备、存储介质及程序产品

服务需求信息人工智能模型账号文本语音

一种基于多模态语言对齐的数据增强方法和装置

站点导航

APP 下载