摘要
本发明属于学术文献引文分析技术领域,具体涉及了一种学术文献施引内容与被引内容的匹配方法,旨在解决现有技术对分散于不同段落、章节或需综合全文信息所表达的概念未在连续文本中无法进行匹配定位的问题。本发明对施引内容和被引文献先进行全文、章、节、段落、句子五个粒度的统一粒度特征抽取,再进行匹配,从而确定施引内容是对具体哪一个句子、段落、节、章的引用或是全文概念的引用;统一粒度特征抽取采用模型蒸馏方法。本发明支持跨粒度的匹配而不依赖于连续相似的文本;从生成式任务降维到序列标注任务的方法,能在保有表征特征的情况下大幅降低计算资源和时间消耗。
技术关键词
列表
引文分析技术
模型蒸馏方法
大语言模型
序列标注模型
学生
层级
概念
实体
子模块
文本
处理器通信
教师
存储器
数据
标签
系统为您推荐了相关专利信息
控件
信息面板
复现方法
显示虚拟场景
显示交互信息
生理信号检测方法
对齐模块
生理信号检测装置
视频编码器
令牌