摘要
本发明公开了一种面向能源电力领域知识检索模型的数据构造及微调方法,其中方法包括:对能源电力领域的文档数据,进行预处理,将文档数据切分为适合检索模型输入的文档片段;执行基于大语言模型的问题生成,依据文档片段,生成问题‑文档对正样本集,采样生成问题‑文档对负样本集;结合正样本集和负样本集对比学习及LoRA参数微调,训练检索模型,利用训练后检索模型进行问题检索。本发明通过生成高质量的问题‑文档对和具有挑战性的负样本,结合对比学习技术,优化检索模型,显著提升向量模型在该领域的检索准确率,能够深刻理解能源电力领域的特定检索需求,生成高度可靠且符合该领域习惯的检索建议。
技术关键词
微调方法
样本
文本切分方法
电力
能源
数据
文本段落
非暂态计算机可读存储介质
大语言模型
文本关键信息
高维向量空间
语义
关键词
行业术语
生成高度
矩阵
处理器
生成规则
参数
系统为您推荐了相关专利信息
拷贝数
样本
基因组测序数据
磁珠纯化
无创产前胎儿
地表覆盖分类
语义分割方法
分支
语义分割网络
多尺度特征
货车
研判方法
交通监控设备
车辆轨迹预测
交通运行状态