摘要
本发明属于隐私信息抽取技术领域,公开了一种基于大语言模型的隐私权限声明抽取方法及系统。通过构建包含权限声明的种子数据集,利用大语言模型进行句式重构与实体替换生成增强数据;采用权限语义贪心采样方法筛选高质量训练样本;使用筛选数据训练BERT模型实现句子级权限声明识别,同时基于结构化三元组标注数据,采用LoRA方法微调大语言模型以实现三元组抽取。最终通过模型串联方式,先识别含权限语义句,再抽取结构化“主体‑行为‑数据”三元组,实现隐私政策中权限信息的自动化结构化提取。
技术关键词
大语言模型
三元组
BERT模型
数据
采样方法
模型训练模块
种子
样本
语义
信息抽取技术
实体
计算机设备
重构
处理器
微调方法
文本
参数
可读存储介质
关键词
系统为您推荐了相关专利信息
时间序列预测模型
嵌入特征
多尺度特征
注意力机制
特征提取模块
大语言模型
数据展示方法
展示界面
框架组件
布局
识别方法
训练文本数据
建立分类模型
训练数据处理
编码器