一种基于专家知识库的特定领域模型训练方法

正文

推荐专利

申请号：CN202510192148

申请日期：2025-02-21

公开号：CN119691178B

公开日期：2025-06-06

类型：发明专利

摘要

本发明涉及文本数据处理技术领域，具体涉及一种基于专家知识库的特定领域模型训练方法，该方法包括：对获取的初始通用知识库和初始专家知识库中的每个文本中的每个句子进行分词处理；确定每两个文本之间的目标相似度；对所有文本进行聚类，并对初始专家知识库和初始通用知识库分别进行扩充和删减；确定初始专家知识库中每个目标分词对应的目标专业贡献程度和每个句子对应的目标学习率；将初始专家知识库中各个句子对应在LoRA模型中的缩放因子更新为其对应的目标学习率，并通过LoRA模型，对语言模型进行微调，得到训练完成的语言模型。本发明通过对知识库中的文本数据进行处理，提高了对特定领域下的语言模型进行训练时的合理性。

技术关键词

专家知识库分词模型训练方法专业标记 DBSCAN算法文本数据处理技术上下文无关文法编辑关键词聚类度量关系因子核心对象

系统为您推荐了相关专利信息

一种基于污水总氮处理的费效评估及优化系统

评估预测模型实时数据污水周期水质

基于个体优势度分析的职业教学规划方法和系统

职业教学专业时间预测模型学生学习数据序列

一种基于物价指数的西藏电网工程人工价格动态调整系统

数据采集模块动态高原生活必需品类电网工程管理

缺陷图像生成方法、模型训练方法、装置、介质及产品

图像生成模型特征提取模块噪声图像图像生成方法数据矩阵相乘

信息抽取方法、装置、设备、存储介质及计算机程序产品

信息抽取模型信息抽取方法计算机程序产品数据信息抽取设备

一种基于专家知识库的特定领域模型训练方法

站点导航

APP 下载