一种基于反事实数据增强的大语言微调数据筛选方法、系统、设备及存储介质

正文

推荐专利

申请号：CN202510756049

申请日期：2025-06-07

公开号：CN120873113A

公开日期：2025-10-31

类型：发明专利

摘要

本发明提供一种基于反事实数据增强的大语言微调数据筛选方法、系统、设备及介质，方法包括如下步骤：S1、反事实数据增强，具体包括如下子步骤：S11、生成伪响应；S12、验证伪答案的正确性；S13、生成反事实问题；S14、问题‑答案验证；S2、数据筛选，具体包括如下子步骤：S21、建立反事实数据的质量度量指标；S22、行列式点过程筛选。本发明通过反事实分数和确定性点过程，能够同时考虑数据的质量和多样性，筛选出更优的数据子集；本发明通过反事实数据生成和验证，能够有效提升反事实数据的质量，增强模型在指令微调中的表现；本发明通过确定性点过程的快速实现，能够在较低的计算成本下筛选出高质量数据。

技术关键词

数据筛选方法非易失性存储介质答案数据筛选系统自然语言推理矩阵通信接口存储器处理器存储计算机程序贪心算法度量电子设备指标定义超参数索引指令坐标

系统为您推荐了相关专利信息

一种基于大语言模型和数据增强的问答对生成方法及系统

焦点问答对生成方法轨迹答案大语言模型

数据处理方法、装置、计算机设备、存储介质及程序产品

文本段落检索文本相关性数据处理方法答案计算机设备

一种基于人工智能驱动的多模态数据检索生成合成方法及系统

人工智能驱动多模态深度学习模型特征提取模块数据输入模块

一种电力营销业务大模型语料匹配方法及装置

电力营销业务空间优化方法空间定位方法模式匹配方法球形

一种利用实际辐照下光伏组件模型计算功率的方法、存储介质及电子装置

光伏组件模型非易失性存储介质短路电流密度计算机可读指令饱和电流密度

一种基于反事实数据增强的大语言微调数据筛选方法、系统、设备及存储介质

站点导航

APP 下载