一种结合大语言模型挖掘专利信息的处理方法和装置

正文

推荐专利

申请号：CN202411803496

申请日期：2024-12-10

公开号：CN119782382B

公开日期：2025-12-12

类型：发明专利

摘要

本发明实施例涉及一种结合大语言模型挖掘专利信息的处理方法和装置，所述方法包括：选择大语言模型作为第一模型，并为其指定五个目标任务，并构建五个任务数据集对其进行微调；微调结束后接收小分子药物专利的PDF文件并对其进行图像、文本块和表格提取；再基于模型进行分子图像/分子标号/无关表格筛除以及分子活性表格拼接；再基于分子图像/分子标号/拼接表格信息序列和第一模型构建标号‑图像对应关系表、基于第一模型和拼接表格信息序列构建标号‑活性信息对应关系表；并对两个对应关系表进行合并得到多模态综合信息表；最后由专利文件和多模态综合信息表组成对应挖掘报告反馈。通过本发明可以提高数据挖掘效率。

技术关键词

表格分子文本序列大语言模型坐标图像指令模板关系表头字段自然语言多模态标识信息接收模块索引降噪模块数据字

系统为您推荐了相关专利信息

邮件处理方法、装置、电子设备及计算机程序产品

邮件深度学习模型文本分类模型计算机程序产品语句

一种端到端的通用表格内容识别与拆分方法、装置及计算机可读存储介质

拆分方法表格多模态标签结构图像编码器

一种基于Prompt学习的对话状态跟踪方法

对话状态跟踪方法注意力指针关键词节点

一种专利价值评估方法及系统

价值评估方法文本生成结构化数据情感词典分词

基于用户意图识别的智能客服对话生成方法及系统

转移概率矩阵对话生成模型对话生成方法智能客服系统意图识别

一种结合大语言模型挖掘专利信息的处理方法和装置

站点导航

APP 下载