摘要
本申请公开了一种基于分层神经网络的文本结构要素自动识别方法,通过整合词级和句子级的上下文信息,并运用注意力机制与条件随机场优化标签序列,实现了对目标文献摘要中结构要素的高效自动识别,本申请构建并公开发布了中文科技文献结构式摘要数据集CSL Structed 2K,基于公开英文数据集PubMed 20K实验验证,本申请提出的分层神经网络模型,Weighted F1值为93.38%、Macro F1值为88.4%,基于CSL Structed 2K数据集验证,Weighted F1值为88.69%、Macro F1值为88.86%。通过对比BiLSTM‑CRF、BERT、SciBERT、HSLN、BERT‑HSLN、SciBERT‑HSLN等模型,在基准数据集上的性能,超过了目前最先进的结果0.6%‑1.3%,验证了本方法在科技文献摘要结构要素自动识别任务中具有良好的性能。
技术关键词
自动识别方法
双向长短期记忆网络
摘要
文本
条件随机场
分层
多头注意力机制
标注策略
科技
神经网络模型
数据
标签
结构式
预训练语言模型
序列
BERT模型
前馈神经网络
词语
系统为您推荐了相关专利信息
生成系统
标记单元
Softmax函数
人脸身份
语义
大语言模型
子系统
信息处理系统
自然语言信息
信息处理方法