摘要
本发明公开了一种基于多任务学习与知识蒸馏的文档级关系抽取方法,该方法包括:获取待抽取文档文本,将其输入训练后的文档级关系抽取模型,输出相应的文档级文本关系;该文档级关系抽取模型包括特征提取模块、教师模型和学生模型,该模型的训练过程包括:利用人工标注的文档数据通过多任务学习预训练得到教师模型;利用预训练的教师模型对未标注证据信息的文档数据进行证据补全;利用证据补全后的文档数据训练学生模型;所述训练后的文档级关系抽取模型包括特征提取模块和训练后的学生模型。本发明能够准确提取文档中的上下文语义信息,通过知识蒸馏有效缓解数据稀疏性问题,实现文档级关系的高效抽取,显著提升模型在复杂语境下的性能。
技术关键词
实体
关系抽取方法
关系抽取模型
特征提取模块
三元组
教师
蒸馏
识别模块
数据
多任务学习模型
sigmoid函数
学生
上下文语义信息
字符
编码器
超参数
生成文档
系统为您推荐了相关专利信息
视觉检测系统
标记缺陷位置
卷积神经网络提取
激光扫描单元
图像采集模块
信号处理系统
信号处理方法
特征提取模块
频域特征提取
传感器接口模块