摘要
本发明属于信息标引技术领域,具体涉及了一种基于深度学习的中文引文著录项自动标引方法、系统及设备,旨在解决现有技术中的标引依赖人工规则的问题。本发明包括:根据中文引文著录项标引规范,统计各著录项类型的占比,从人工标引的数据中按占比抽取训练语料;将训练语料转换为单字符序列格式,并为每个字符添加标签,作为输入数据;将输入数据输入至预构建并训练好的深度学习模型中进行训练;对待标引的引文数据进行格式转换后输入训练完成的深度学习模型中进行预测,得到著录项序列,并按照标签合并为完整著录项;对合并后的完整著录项进行预设规则的修正。本发明实现了自动标引,大幅降低了对人工规则库维护的依赖,并提高了准确性。
技术关键词
自动标引方法
深度学习模型
标签
上下文特征
自动标引系统
格式
序列
字符
数据
标引技术
论文
模块
著录项目
计算机
可读存储介质
标识
期刊
依赖人工
处理器通信
会议