摘要
本发明公开了一种招投标候选单位的信息抽取和风险分析方法,包括四个处理模块,分别为数据预处理模块、信息检测模块、信息抽取模块和风险分析模块,所述数据预处理模块是依据HTML结构对文本进行分块,并对每一块的文本进行基本的数据预处理,所述信息检测模块是判断文本中是否包含中标候选人信息,所述信息抽取模块是利用大语言模型从文本中抽取中标候选单位的名称,所述风险分析模块是基于招投标候选单位信息抽取结果的应用模块,并进行潜在风险分析,本发明主要使用大语言模型进行招投标候选单位信息抽取,其一可以快速适配新数据源,不需要额外的开发,其二对HTML各种样式的数据扩展性好,其三,对旧数据源的人工维护成本低。
技术关键词
风险分析方法
信息检测模块
大语言模型
分析模块
表格
文本分类模型
构建知识图谱
BERT模型
数据
分块
适配器
训练集
标签
样式
项目
关系
系统为您推荐了相关专利信息
能源管理系统
智能分析模块
数据采集模块
子模块
实时数据
数字显示接口
芯片装置
烧录系统
数据分析模块
数据采集模块
电力系统故障
诊断方法
动态决策树
自助诊断系统
数据输入模块