摘要
本发明涉及自然语言处理领域,提供基于大型语言模型的关键技术识别及IPC分类的方法及系统,包括步骤S1:收集领域数据进行数据预处理以构建结构化领域语料库;步骤S2:重构混合分词器并生成对应的领域词汇表;利用预训练数据语料和领域词汇表,通过采用低秩适配技术对Qwen2.5基座模型进行增量预训练注入领域数据;基于领域数据构建面向指定任务的监督微调训练数据集,并进行数据预处理转为适用于SFT单元输入格式,通过低秩适配技术对SFT单元进行监督微调;通过任务分流机制分配给对应智能体调用SFT单元输出答案,本发明能够高效输出任意指定领域的关键核心技术及IPC分类号,无需像现有方法一样对指定领域重复进行如专家访谈、数据标注、模型训练拟合等工作。
技术关键词
分词训练
编码算法
基座
文本
答案
多任务损失函数
多智能体协同
分类预测模型
适配器
关系
层级
退火策略
重构
机制
大语言模型
格式
标识符
训练集
数据采集模块