摘要
本发明公开了一种面向临床数据挖掘主题文献全文知识单元识别方法,涉及知识单元识别技术领域。包括获取大语言模型,构建知识链框架生成原始训练数据;随机抽取50%的原始训练数据作为待增强数据,对待增强数据进行文本增强处理,结合未抽取的原始训练数据作为增强后的训练数据;构建基于特定知识单元类型的COT提示工程模板,作为任务拆分策略输入大语言模型中,将增强后的训练数据输入模型中,获得预训练的大语言模型;引入QLoRa算法对预训练的大语言模型进行监督微调,获得监督微调优化模型,得到知识单元识别结果。本发明能够显著提升文献知识抽取的精准性与研究成果的学术交流效率。
技术关键词
单元识别方法
大语言模型
主题
模型拟合方法
模型验证方法
特征工程方法
网格搜索方法
数据清洗方法
数据分析工具
性能评估方法
数据分析方法
文本
三段式结构
策略
模板
同义词
工具包
参数
算法