摘要
本发明公开了一种基于大语言模型的数据知识提取方法、系统、设备及存储介质,方法包括:对获取到的原始数据进行预处理;从原始数据中提取特征,选择对应任务特征,通过计算特征之间的相关系数矩阵,去除高相关性的特征;选择任务的大语言模型,捕捉通用语言和知识,在特定领域或任务的标注数据集上对大语言模型进行微调;基于大语言模型推理与提示词工程,采用二次分块迭代的方式提取知识源信息,利用微调训练后的大语言模型的上下文理解能力,将不同数据源提取的信息进行整合;定义评估标准,分析大语言模型的错误案例,识别改进方向,根据评估结果和错误分析,调整模型参数和训练数据。本发明具备提高知识提取方法的效率和准确率的优点。
技术关键词
大语言模型
知识提取方法
计算机程序指令
分块
特征提取模块
数据获取模块
文本
词嵌入技术
词嵌入模型
更新模型参数
展示实体
变量
处理器
矩阵
预训练模型
生成向量
序列
冗余特征
策略
系统为您推荐了相关专利信息
对象
计算机可读形式
数据验证
标识
智能合约代码
图像特征提取
医学图像分割方法
重建医学图像
样本
图像分割模型