多模态大语言模型的训练方法、系统、设备和存储介质

正文

推荐专利

申请号：CN202411655115

申请日期：2024-11-19

公开号：CN119578589A

公开日期：2025-03-07

类型：发明专利

摘要

本发明提供了多模态大语言模型的训练方法、系统、设备和存储介质，属于生物医药技术领域。本发明提供的生物医药领域多模态大语言模型的训练方法包括：实体识别模块、超文本嵌入模块、词元划分模块和模型训练模块。本发明提供的训练方法采用通用大语言模型从文献和专利的自然文本描述中自动识别出基因、蛋白和分子的名称或指代，然后再做嵌入，这种以文献中真实的自然文本为基础做识别，而非人为从数据中构造句子的方式，可以实现更自然的模态融合。根据标记规则将匹配到的多模态序列数据嵌入到文本中，以此丰富了文本信息的同时，不破坏原有的文本语义，从而实现对数据更好的拟合效果。

技术关键词

代表大语言模型实体基因序列信息分子结构信息模型训练模块多模态识别自然语言训练系统识别模块自然语言文本蛋白生物医药技术可读存储介质终端设备数据嵌入

系统为您推荐了相关专利信息

对话生成方法、装置、电子设备、存储介质及计算机程序产品

三元组对话生成方法实体语句指令

智能文件编审系统、方法及存储介质

智能文件大语言模型数据办法排序模型

代码缺陷的多规则静态检测与大模型动态修复方法

代码缺陷动态修复方法抽象语法树大语言模型静态分析技术

一种基于大语言模型的工业系统自动化故障诊断方法

工业系统自动化大语言模型故障诊断方法自然语言异常信息

一种基于生成对象的客源线索推荐方法、系统、设备及介质

线索推荐对象计算机可执行指令基础画像

多模态大语言模型的训练方法、系统、设备和存储介质

站点导航

APP 下载