基于大语言模型的复杂工业合同信息抽取系统及方法

正文

推荐专利

申请号：CN202411704051

申请日期：2024-11-26

公开号：CN119599009A

公开日期：2025-03-11

类型：发明专利

摘要

本发明提供了一种基于大语言模型的复杂工业合同信息抽取方法及系统，包括：步骤S1：对获取的不同的工业合同文本进行聚类分析，确定每个合同文本所在的簇；步骤S2：从每个簇中分别进行分层抽样，获取代表性样本；步骤S3：对每个簇相对应的代表性样本进行满足预设要求的关键内容抽取；基于抽取的满足预设要求的关键内容获取对应的结构化文本；步骤S4：对结构化文本进行标注，得到标注数据；步骤S5：获取所有簇的标注数据生成标注数据集，利用标注数据集对大语言模型进行微调，得到微调后的大语言模型；步骤S6：将微调后的大语言模型部署到生产环境中，抽取未标注的合同文本的满足预设要求的关键信息。

技术关键词

大语言模型信息抽取系统信息抽取方法聚类分析方法样本工业文本层次分析法数据分类方法模块分层参数标签

系统为您推荐了相关专利信息

基于对抗式联邦过滤器的医疗大模型隐私保护方法和装置

隐私过滤器隐私保护方法客户端模拟器样本

基于大语言模型的电力领域知识问答系统构建方法

知识问答系统电力大语言模型图谱光学字符识别技术

一种目标检测算法模型的训练方法及相关装置

算法模型对象注意力机制点云坐标

基于多源数据混合驱动的电力系统暂态稳定判定方法

系统故障信息电力系统暂态数据混合驱动发电机功角卷积神经网络模型

一种多域框架下的检索增强生成优化系统

分类器生成文档过滤器框架意图

基于大语言模型的复杂工业合同信息抽取系统及方法

站点导航

APP 下载