摘要
本发明涉及自然语言处理与信息抽取技术领域,尤其是指一种基于规则与大模型微调的化合物信息抽取方法及系统,该方法采集多源化合物数据,分类为结构化文本和非结构化文本;抽取结构化数据并转换非结构化文本为训练集;微调筛选最优预训练大预言模型;融合结构化数据与模型输出生成统一化合物数据库。本申请中,结构化文本保障关键字段高精度提取,大语言模型显著提升复杂语境实体识别准确率;对模型进行微调降低训练资源成本并抑制过拟合;智能融合实现异构数据统一对齐与冲突消解,生成结构化化合物数据库,提升系统部署效率与稳定性。
技术关键词
信息抽取方法
非结构化文本
生成结构化数据
训练样本集
大语言模型
融合结构化数据
抽取结构化数据
网络爬虫系统
信息抽取系统
格式数据文件
总线系统
执行存储器存储
信息抽取技术
术语标准化
字段
编码体系
基础
实体