基于大型语言模型的关键技术识别及IPC分类的方法及系统

正文

推荐专利

申请号：CN202510305882

申请日期：2025-03-14

公开号：CN120687865A

公开日期：2025-09-23

类型：发明专利

摘要

本发明涉及自然语言处理领域，提供基于大型语言模型的关键技术识别及IPC分类的方法及系统，包括步骤S1：收集领域数据进行数据预处理以构建结构化领域语料库；步骤S2：重构混合分词器并生成对应的领域词汇表；利用预训练数据语料和领域词汇表，通过采用低秩适配技术对Qwen2.5基座模型进行增量预训练注入领域数据；基于领域数据构建面向指定任务的监督微调训练数据集，并进行数据预处理转为适用于SFT单元输入格式，通过低秩适配技术对SFT单元进行监督微调；通过任务分流机制分配给对应智能体调用SFT单元输出答案，本发明能够高效输出任意指定领域的关键核心技术及IPC分类号，无需像现有方法一样对指定领域重复进行如专家访谈、数据标注、模型训练拟合等工作。

技术关键词

分词训练编码算法基座文本答案多任务损失函数多智能体协同分类预测模型适配器关系层级退火策略重构机制大语言模型格式标识符训练集数据采集模块

基于大型语言模型的关键技术识别及IPC分类的方法及系统

站点导航

APP 下载