基于规则与大模型微调的化合物信息抽取方法及系统

正文

推荐专利

申请号：CN202510966374

申请日期：2025-07-14

公开号：CN120745615A

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及自然语言处理与信息抽取技术领域，尤其是指一种基于规则与大模型微调的化合物信息抽取方法及系统，该方法采集多源化合物数据，分类为结构化文本和非结构化文本；抽取结构化数据并转换非结构化文本为训练集；微调筛选最优预训练大预言模型；融合结构化数据与模型输出生成统一化合物数据库。本申请中，结构化文本保障关键字段高精度提取，大语言模型显著提升复杂语境实体识别准确率；对模型进行微调降低训练资源成本并抑制过拟合；智能融合实现异构数据统一对齐与冲突消解，生成结构化化合物数据库，提升系统部署效率与稳定性。

技术关键词

信息抽取方法非结构化文本生成结构化数据训练样本集大语言模型融合结构化数据抽取结构化数据网络爬虫系统信息抽取系统格式数据文件总线系统执行存储器存储信息抽取技术术语标准化字段编码体系基础实体

基于规则与大模型微调的化合物信息抽取方法及系统

站点导航

APP 下载