一种多维信息增强的公共数据共享属性识别方法

正文

推荐专利

申请号：CN202411808435

申请日期：2024-12-10

公开号：CN119294394B

公开日期：2025-03-04

类型：发明专利

摘要

本发明提供一种多维信息增强的公共数据共享属性识别方法，属自然语言处理领域，包括：获取指导依据数据，并进行格式化清洗，得到指导类领域知识集合；把指导类领域知识集合输入预训练语言模型中，对预训练语言模型采用遮蔽方式进行模型参数微调，得到领域知识增强的预训练语言模型；在待识别数据中拼接待识别数据的数据类名称、数源部门、应用场景说明，得到上下文信息增强的训练数据；设计判别式模型，利用上下文信息增强的训练数据对领域知识增强的预训练语言模型和判别式模型进行模型训练，利用训练好的判别式模型对待识别数据的共享属性进行识别。本发明能准确地区分数据字段的共享属性，便于开展公共数据的共享交换。

技术关键词

预训练语言模型属性识别方法格式化文本词典分词爬虫技术估计算法场景序列自然语言标记数据字语义参数标签编码互联网

系统为您推荐了相关专利信息

文件排序方法、装置、电子设备

文件排序方法序列计算机软件技术预训练语言模型长短期记忆网络

基于生成式模型的自适应跨类别文本融合生图方法

兼具新颖性文本文字编码器图像分割模型物体

一种新能源汽车用动力电池测试方法及系统

动力电池测试方法数学模型新能源汽车单体电池内阻动力电池测试系统

基于词元概率统计的大模型生成中文文本检测方法及系统

中文文本序列算术平均值调用代理模型计算机电子设备

一种面向海量遥感目标快速关联的多模态哈希检索方法

哈希检索方法遥感图像数据超参数样本文本编码器

一种多维信息增强的公共数据共享属性识别方法

站点导航

APP 下载