摘要
本发明属于自然语言处理领域,具体涉及了一种基于生成式大模型的文献引用内容抽取方法,旨在解决现有大模型抽取较慢、内容存在字符不一致的问题。本发明方法包括:构建模型微调数据,对生成式大模型进行参数微调,获得引用抽取模型;获取待处理文献,进而获得文本段落集合;对文本段落集合中的每一文本段落进行形式化的特殊符号标签转换;转换后的文本段落集合输入到大模型进行引用抽取,获得引用文本对应的分割标记序号,将其映射到原文获取引用内容。本发明利用特殊符号替换引用内容,改变其抽取引用内容的输入和输出形式,减少大模型输入长度,从而实现抽取速度和抽取效果的提升。
技术关键词
文本段落
内容抽取方法
标识符
标记
标识特征
抽取装置
处理器通信
参数
数据
自然语言
字符
指令
模块
存储器
算法
电子设备
格式