摘要
本申请涉及互联网资产管理技术领域,公开了一种基于BERT语言模型的网页资产企业归属识别方法,包括:S1:通过爬虫技术获取网页资产的HTML源代码,解析提取网页的标题和body内容;S2:对所述标题和所述body内容进行文本处理,得到待识别文本;S3:将所述待识别文本输入训练好的BERT语言模型,通过语义理解和特征交互计算,输出网页的企业归属识别结果;S4:对所述企业归属识别结果进行人工验证,将识别异常的文本作为新样本更新至所述BERT语言模型,完成模型迭代优化。本申请,通过对网页数据进行训练和学习,构建BERT语言模型,实现对网页资产企业归属的自动识别,大大提高了识别的效率和准确性。
技术关键词
归属识别方法
文本
注意力机制
预训练模型
Softmax函数
爬虫技术
语法结构
样本
资产管理技术
语义
双曲正切函数
表达式
元素
汉字
生成企业
数据
训练集
参数