摘要
本发明涉及文本数据处理技术领域,具体涉及一种基于专家知识库的特定领域模型训练方法,该方法包括:对获取的初始通用知识库和初始专家知识库中的每个文本中的每个句子进行分词处理;确定每两个文本之间的目标相似度;对所有文本进行聚类,并对初始专家知识库和初始通用知识库分别进行扩充和删减;确定初始专家知识库中每个目标分词对应的目标专业贡献程度和每个句子对应的目标学习率;将初始专家知识库中各个句子对应在LoRA模型中的缩放因子更新为其对应的目标学习率,并通过LoRA模型,对语言模型进行微调,得到训练完成的语言模型。本发明通过对知识库中的文本数据进行处理,提高了对特定领域下的语言模型进行训练时的合理性。
技术关键词
专家知识库
分词
模型训练方法
专业
标记
DBSCAN算法
文本数据处理技术
上下文无关文法
编辑
关键词
聚类
度量
关系
因子
核心
对象
系统为您推荐了相关专利信息
数据采集模块
动态
高原
生活必需品类
电网工程管理
图像生成模型
特征提取模块
噪声图像
图像生成方法
数据矩阵相乘
信息抽取模型
信息抽取方法
计算机程序产品
数据
信息抽取设备