摘要
本申请公开了一种敏感信息识别方法、装置、设备、存储介质及程序产品,涉及信息识别技术领域,该方法包括:初筛待检测文本,获得敏感标记文本和未标记文本;基于向量数据库对未标记文本进行检索,获得多个候选敏感数据,并与待检测文本融合获得融合文本;通过大语言模型对融合文本进行语境分析,得到敏感置信数据;根据敏感标记文本和敏感置信数据,生成敏感信息识别报告。由于本申请融合向量数据库进行检索,避免了误报、漏报和误判等情况;并结合具有先进语言理解能力的大语言模型进行分析,得到敏感置信数据,有助于准确识别和处理自然语言中的敏感信息。通过向量数据库和大语言模型的层层识别,提高了敏感信息识别的准确性。
技术关键词
敏感信息识别方法
文本
标记
计算机程序产品
信息识别技术
报告
数据
分词
大语言模型
模型误差
训练集
处理器
语义特征
自然语言
分析模块
可读存储介质
模式
系统为您推荐了相关专利信息
训练特征
神经网络模型
希尔伯特黄变换
集合经验模态分解方法
状态评估方法
空调
设备运行数据
天气预报数据
基础
计算机程序产品
分类检索方法
植物特征
训练集数据
非暂态计算机可读存储介质
处理器