一种适用于林业数据库的大规模嵌入索引数据脱敏方法

正文

推荐专利

申请号：CN202510095791

申请日期：2025-01-22

公开号：CN119538311A

公开日期：2025-02-28

类型：发明专利

摘要

本发明公开了一种适用于林业数据库的大规模嵌入索引数据脱敏方法，属于数据脱敏技术领域，包括获取林业数据描述文档D1，拆分为句子，并将句子处理为嵌入向量；用户自定义包含脱敏词的查询句，生成查询向量；对嵌入向量和查询向量进行哈希编码，得到对应的哈希函数簇；再通过余弦相似度计算查找待脱敏数据；将待脱敏数据与选择的脱敏方法输入大语言模型生成脱敏数据，替换D1中对应的句子，得到脱敏林业数据描述文档D2。本发明通过嵌入层将输入数据转化为高维向量，使得数据的语义特征可以在向量空间中有效表达，并借助局部敏感哈希技术来提升大规模数据的检索速度和准确性，减少计算开销，为大规模数据集的实时脱敏处理提供了技术保障。

技术关键词

数据脱敏方法脱敏数据林业局部敏感哈希技术索引大语言模型数据脱敏技术语义特征编码符号加密标记速度

系统为您推荐了相关专利信息

一种CBCT膝关节影像的语义分割方法

语义分割方法影像切片标记分水岭图割算法

一种基于知识增强的信息推理方法、系统、设备及介质

多源异构数据图谱推理方法大语言模型索引

一种基于Transformer模型的代码生成和代码注释的双重模型方法

矩阵注意力超参数解码器机器翻译技术

一种基于新型RNA编码的卫星图像混沌加密方法

图像混沌加密混沌系统矩阵动态解码编码规则

金融账户信息流的处理方法及装置、电子设备、存储介质

数据格式集中处理平台企业数字证书指令

一种适用于林业数据库的大规模嵌入索引数据脱敏方法

站点导航

APP 下载