摘要
本发明是一种快速定位和抽取证券市场公告文件关键信息的方法、装置、存储介质及电子设备,包括以下步骤:S1基于公告类型下载目标公告文件,并解析其自带目录结构,生成一四级目录标题标注集;S2通过预定义的正则规则适配每类公告的一级目录,形成通用一级目录解析规则;S3利用预训练模型对所述标注集进行训练,生成通用目录解析模型;S4当公告文件不符合规定时,重新基于预定义的正则规则生成一级目录,并自动补充二至四级目录;S5为每组标签配置二至四级目录的正则匹配规则;S6对标签组进行数据标注,训练生成统一的深度学习抽取模型;S7对待处理公告文件进行关键信息定位与抽取。对于公告文件的关键信息,实现快速定位和抽取。
技术关键词
目录
标签组
BERT模型
表格
关键词
电子设备
预训练模型
表头
处理器
字段
模块
存储器
参数
程序
层级
数据
资源
系统为您推荐了相关专利信息
识别方法
机器学习模型
网站发现技术
识别互联网
模板
优化设计方案
关键词
阶段
语义检索技术
自然语言
线性回归模型
大语言模型
溯源方法
文本
生成答案
地灾防治
工作流
数据采集模块
工程造价预算
模版