摘要
本发明提供一种多维信息增强的公共数据共享属性识别方法,属自然语言处理领域,包括:获取指导依据数据,并进行格式化清洗,得到指导类领域知识集合;把指导类领域知识集合输入预训练语言模型中,对预训练语言模型采用遮蔽方式进行模型参数微调,得到领域知识增强的预训练语言模型;在待识别数据中拼接待识别数据的数据类名称、数源部门、应用场景说明,得到上下文信息增强的训练数据;设计判别式模型,利用上下文信息增强的训练数据对领域知识增强的预训练语言模型和判别式模型进行模型训练,利用训练好的判别式模型对待识别数据的共享属性进行识别。本发明能准确地区分数据字段的共享属性,便于开展公共数据的共享交换。
技术关键词
预训练语言模型
属性识别方法
格式化
文本
词典
分词
爬虫技术
估计算法
场景
序列
自然语言
标记
数据字
语义
参数
标签
编码
互联网
系统为您推荐了相关专利信息
文件排序方法
序列
计算机软件技术
预训练语言模型
长短期记忆网络
动力电池测试方法
数学模型
新能源汽车
单体电池内阻
动力电池测试系统
中文文本
序列
算术平均值
调用代理模型
计算机电子设备
哈希检索方法
遥感图像数据
超参数
样本
文本编码器