摘要
本发明公开了一种适用于林业数据库的大规模嵌入索引数据脱敏方法,属于数据脱敏技术领域,包括获取林业数据描述文档D1,拆分为句子,并将句子处理为嵌入向量;用户自定义包含脱敏词的查询句,生成查询向量;对嵌入向量和查询向量进行哈希编码,得到对应的哈希函数簇;再通过余弦相似度计算查找待脱敏数据;将待脱敏数据与选择的脱敏方法输入大语言模型生成脱敏数据,替换D1中对应的句子,得到脱敏林业数据描述文档D2。本发明通过嵌入层将输入数据转化为高维向量,使得数据的语义特征可以在向量空间中有效表达,并借助局部敏感哈希技术来提升大规模数据的检索速度和准确性,减少计算开销,为大规模数据集的实时脱敏处理提供了技术保障。
技术关键词
数据脱敏方法
脱敏数据
林业
局部敏感哈希技术
索引
大语言模型
数据脱敏技术
语义特征
编码
符号
加密
标记
速度