摘要
本发明提供了多模态大语言模型的训练方法、系统、设备和存储介质,属于生物医药技术领域。本发明提供的生物医药领域多模态大语言模型的训练方法包括:实体识别模块、超文本嵌入模块、词元划分模块和模型训练模块。本发明提供的训练方法采用通用大语言模型从文献和专利的自然文本描述中自动识别出基因、蛋白和分子的名称或指代,然后再做嵌入,这种以文献中真实的自然文本为基础做识别,而非人为从数据中构造句子的方式,可以实现更自然的模态融合。根据标记规则将匹配到的多模态序列数据嵌入到文本中,以此丰富了文本信息的同时,不破坏原有的文本语义,从而实现对数据更好的拟合效果。
技术关键词
代表
大语言模型
实体
基因序列信息
分子结构信息
模型训练模块
多模态
识别自然语言
训练系统
识别模块
自然语言文本
蛋白
生物医药技术
可读存储介质
终端设备
数据嵌入
系统为您推荐了相关专利信息
代码缺陷
动态修复方法
抽象语法树
大语言模型
静态分析技术
工业系统自动化
大语言模型
故障诊断方法
自然语言
异常信息