一种基于反事实数据增强的大语言微调数据筛选方法、系统、设备及存储介质

AITNT
正文
推荐专利
一种基于反事实数据增强的大语言微调数据筛选方法、系统、设备及存储介质
申请号:CN202510756049
申请日期:2025-06-07
公开号:CN120873113A
公开日期:2025-10-31
类型:发明专利
摘要
本发明提供一种基于反事实数据增强的大语言微调数据筛选方法、系统、设备及介质,方法包括如下步骤:S1、反事实数据增强,具体包括如下子步骤:S11、生成伪响应;S12、验证伪答案的正确性;S13、生成反事实问题;S14、问题‑答案验证;S2、数据筛选,具体包括如下子步骤:S21、建立反事实数据的质量度量指标;S22、行列式点过程筛选。本发明通过反事实分数和确定性点过程,能够同时考虑数据的质量和多样性,筛选出更优的数据子集;本发明通过反事实数据生成和验证,能够有效提升反事实数据的质量,增强模型在指令微调中的表现;本发明通过确定性点过程的快速实现,能够在较低的计算成本下筛选出高质量数据。
技术关键词
数据筛选方法 非易失性存储介质 答案 数据筛选系统 自然语言推理 矩阵 通信接口 存储器 处理器 存储计算机程序 贪心算法 度量 电子设备 指标 定义 超参数 索引 指令 坐标
系统为您推荐了相关专利信息
1
一种基于大语言模型和数据增强的问答对生成方法及系统
焦点 问答对生成方法 轨迹 答案 大语言模型
2
数据处理方法、装置、计算机设备、存储介质及程序产品
文本段落 检索文本相关性 数据处理方法 答案 计算机设备
3
一种基于人工智能驱动的多模态数据检索生成合成方法及系统
人工智能驱动 多模态 深度学习模型 特征提取模块 数据输入模块
4
一种电力营销业务大模型语料匹配方法及装置
电力营销业务 空间优化方法 空间定位方法 模式匹配方法 球形
5
一种利用实际辐照下光伏组件模型计算功率的方法、存储介质及电子装置
光伏组件模型 非易失性存储介质 短路电流密度 计算机可读指令 饱和电流密度
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号