一种基于BERT语言模型的网页资产企业归属识别方法

正文

推荐专利

申请号：CN202510957383

申请日期：2025-07-11

公开号：CN120996033A

公开日期：2025-11-21

类型：发明专利

摘要

本申请涉及互联网资产管理技术领域，公开了一种基于BERT语言模型的网页资产企业归属识别方法，包括：S1：通过爬虫技术获取网页资产的HTML源代码，解析提取网页的标题和body内容；S2：对所述标题和所述body内容进行文本处理，得到待识别文本；S3：将所述待识别文本输入训练好的BERT语言模型，通过语义理解和特征交互计算，输出网页的企业归属识别结果；S4：对所述企业归属识别结果进行人工验证，将识别异常的文本作为新样本更新至所述BERT语言模型，完成模型迭代优化。本申请，通过对网页数据进行训练和学习，构建BERT语言模型，实现对网页资产企业归属的自动识别，大大提高了识别的效率和准确性。

技术关键词

归属识别方法文本注意力机制预训练模型 Softmax函数爬虫技术语法结构样本资产管理技术语义双曲正切函数表达式元素汉字生成企业数据训练集参数

一种基于BERT语言模型的网页资产企业归属识别方法

站点导航

APP 下载