摘要
本申请公开了一种针对网页的企业公开信息提取方法、设备及介质,方法包括:根据Web网页,获取样本企业的样本公开数据;根据样本公开数据,对识别提取模型架构进行训练,得到通用识别提取模型;获取每个设定的企业领域语料库,根据企业领域语料库对通用识别提取模型进行更新,得到每个企业领域的识别提取模型,得到识别提取模型库,以根据待分析企业的公开数据与目标识别提取模型,得到与待分析企业相关的实体数据以及关联关系。通过对企业领域进行个性化定制识别提取模型,提升对企业信息的识别和提取准确率。
技术关键词
企业
信息提取方法
样本
编码器架构
数据
非易失性计算机存储介质
计算机可执行指令
分词
模型库
信息提取设备
社交媒体平台
序列
词嵌入技术
训练集
构建分类器
实体
前馈神经网络
预警规则
处理器