摘要
本发明提供了一种基于大语言模型的复杂工业合同信息抽取方法及系统,包括:步骤S1:对获取的不同的工业合同文本进行聚类分析,确定每个合同文本所在的簇;步骤S2:从每个簇中分别进行分层抽样,获取代表性样本;步骤S3:对每个簇相对应的代表性样本进行满足预设要求的关键内容抽取;基于抽取的满足预设要求的关键内容获取对应的结构化文本;步骤S4:对结构化文本进行标注,得到标注数据;步骤S5:获取所有簇的标注数据生成标注数据集,利用标注数据集对大语言模型进行微调,得到微调后的大语言模型;步骤S6:将微调后的大语言模型部署到生产环境中,抽取未标注的合同文本的满足预设要求的关键信息。
技术关键词
大语言模型
信息抽取系统
信息抽取方法
聚类分析方法
样本
工业
文本
层次分析法
数据
分类方法
模块
分层
参数
标签
系统为您推荐了相关专利信息
知识问答系统
电力
大语言模型
图谱
光学字符识别技术
系统故障信息
电力系统暂态
数据混合驱动
发电机功角
卷积神经网络模型