多模态大语言模型的训练方法、系统、设备和存储介质

AITNT
正文
推荐专利
多模态大语言模型的训练方法、系统、设备和存储介质
申请号:CN202411655115
申请日期:2024-11-19
公开号:CN119578589A
公开日期:2025-03-07
类型:发明专利
摘要
本发明提供了多模态大语言模型的训练方法、系统、设备和存储介质,属于生物医药技术领域。本发明提供的生物医药领域多模态大语言模型的训练方法包括:实体识别模块、超文本嵌入模块、词元划分模块和模型训练模块。本发明提供的训练方法采用通用大语言模型从文献和专利的自然文本描述中自动识别出基因、蛋白和分子的名称或指代,然后再做嵌入,这种以文献中真实的自然文本为基础做识别,而非人为从数据中构造句子的方式,可以实现更自然的模态融合。根据标记规则将匹配到的多模态序列数据嵌入到文本中,以此丰富了文本信息的同时,不破坏原有的文本语义,从而实现对数据更好的拟合效果。
技术关键词
代表 大语言模型 实体 基因序列信息 分子结构信息 模型训练模块 多模态 识别自然语言 训练系统 识别模块 自然语言文本 蛋白 生物医药技术 可读存储介质 终端设备 数据嵌入
系统为您推荐了相关专利信息
1
对话生成方法、装置、电子设备、存储介质及计算机程序产品
三元组 对话生成方法 实体 语句 指令
2
智能文件编审系统、方法及存储介质
智能文件 大语言模型 数据 办法 排序模型
3
代码缺陷的多规则静态检测与大模型动态修复方法
代码缺陷 动态修复方法 抽象语法树 大语言模型 静态分析技术
4
一种基于大语言模型的工业系统自动化故障诊断方法
工业系统自动化 大语言模型 故障诊断方法 自然语言 异常信息
5
一种基于生成对象的客源线索推荐方法、系统、设备及介质
线索推荐 对象 计算机可执行指令 基础 画像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号