摘要
本发明实施例涉及一种结合大语言模型挖掘专利信息的处理方法和装置,所述方法包括:选择大语言模型作为第一模型,并为其指定五个目标任务,并构建五个任务数据集对其进行微调;微调结束后接收小分子药物专利的PDF文件并对其进行图像、文本块和表格提取;再基于模型进行分子图像/分子标号/无关表格筛除以及分子活性表格拼接;再基于分子图像/分子标号/拼接表格信息序列和第一模型构建标号‑图像对应关系表、基于第一模型和拼接表格信息序列构建标号‑活性信息对应关系表;并对两个对应关系表进行合并得到多模态综合信息表;最后由专利文件和多模态综合信息表组成对应挖掘报告反馈。通过本发明可以提高数据挖掘效率。
技术关键词
表格
分子
文本
序列
大语言模型
坐标
图像
指令
模板
关系
表头
字段
自然语言
多模态
标识
信息接收模块
索引
降噪模块
数据字
系统为您推荐了相关专利信息
生成方法
画布
生成用户界面
超文本标记语言
跨操作系统
孪生神经网络
多模态数据融合
航空发动机轴承
卷积神经网络模块
GRU模型
超分辨率模型
动态掩模
机器学习模型
卷积神经网络模型
输入模块