摘要
本申请涉及属于数据检索与处理技术领域,本申请提供一种重排序模型的数据集构建及评分方法,步骤包括:数据源选择与预处理,从多场景数据源收集查询文档对并生成嵌入向量,构建数据集;大语言模型评分,通过结构化提示词调用大语言模型对查询文档对进行评分;多模型评分交叉验证,采用多个大语言模型独立评分及动态一致性检验机制确定最终评分;重排序模型档内校准,在大语言模型评分的基础上利用重排序模型优化最终评分;数据集评估与调整,分析评分分布及文本长度分布,通过欠采样与过采样调整数据分布以满足训练需求。本申请通过多源数据融合、多模型协同评分及动态校准机制,达到提升文档相关性评分准确性和增强模型泛化能力。
技术关键词
排序模型
评分方法
大语言模型
样本
多模型协同
数据分布
生成数据源
校准机制
文本
档位
场景
动态
多语言
异常状态
模式
格式
系统为您推荐了相关专利信息
生物矿化
抑尘方法
抑尘剂
机器学习模型
构建预测模型
随机森林
磁盘操作
训练样本数据
风险预警方法
数据特征提取
动态推理方法
工业设备
模糊逻辑
模糊隶属度
计算机执行指令