一种基于生成式大模型的文献引用内容抽取方法

正文

推荐专利

申请号：CN202510525209

申请日期：2025-04-25

公开号：CN120046583A

公开日期：2025-05-27

类型：发明专利

摘要

本发明属于自然语言处理领域，具体涉及了一种基于生成式大模型的文献引用内容抽取方法，旨在解决现有大模型抽取较慢、内容存在字符不一致的问题。本发明方法包括：构建模型微调数据，对生成式大模型进行参数微调，获得引用抽取模型；获取待处理文献，进而获得文本段落集合；对文本段落集合中的每一文本段落进行形式化的特殊符号标签转换；转换后的文本段落集合输入到大模型进行引用抽取，获得引用文本对应的分割标记序号，将其映射到原文获取引用内容。本发明利用特殊符号替换引用内容，改变其抽取引用内容的输入和输出形式，减少大模型输入长度，从而实现抽取速度和抽取效果的提升。

技术关键词

文本段落内容抽取方法标识符标记标识特征抽取装置处理器通信参数数据自然语言字符指令模块存储器算法电子设备格式

一种基于生成式大模型的文献引用内容抽取方法

站点导航

APP 下载