摘要
本发明提供一种基于反事实数据增强的大语言微调数据筛选方法、系统、设备及介质,方法包括如下步骤:S1、反事实数据增强,具体包括如下子步骤:S11、生成伪响应;S12、验证伪答案的正确性;S13、生成反事实问题;S14、问题‑答案验证;S2、数据筛选,具体包括如下子步骤:S21、建立反事实数据的质量度量指标;S22、行列式点过程筛选。本发明通过反事实分数和确定性点过程,能够同时考虑数据的质量和多样性,筛选出更优的数据子集;本发明通过反事实数据生成和验证,能够有效提升反事实数据的质量,增强模型在指令微调中的表现;本发明通过确定性点过程的快速实现,能够在较低的计算成本下筛选出高质量数据。
技术关键词
数据筛选方法
非易失性存储介质
答案
数据筛选系统
自然语言推理
矩阵
通信接口
存储器
处理器
存储计算机程序
贪心算法
度量
电子设备
指标
定义
超参数
索引
指令
坐标
系统为您推荐了相关专利信息
文本段落
检索文本相关性
数据处理方法
答案
计算机设备
人工智能驱动
多模态
深度学习模型
特征提取模块
数据输入模块
电力营销业务
空间优化方法
空间定位方法
模式匹配方法
球形
光伏组件模型
非易失性存储介质
短路电流密度
计算机可读指令
饱和电流密度