一种训练数据的生成方法、装置、存储介质及设备

正文

推荐专利

申请号：CN202510435573

申请日期：2025-04-08

公开号：CN120449820A

公开日期：2025-08-08

类型：发明专利

摘要

本说明书实施例公开了一种训练数据的生成方法，该方法预先通过大语言模型生成用于解决第一问题的第一计算机代码，再提取第一计算机代码中的函数并存储，在生成训练数据时，从存储的函数中选择目标函数，使大语言模型采用目标函数生成第二计算机代码，再通过大语言模型生成第二计算机代码对应的第二问题，从而得到以第二问题为训练样本的训练数据。由于生成的第二计算机代码就是第二问题的答案，因此，该方法通过利用最基本的函数组合生成答案，再利用答案生成问题的方式，一方面扩充了训练数据的多样性，一方面也保证了问题的逻辑正确性，可低成本地获得大量用于训练大语言模型高级推理能力的训练数据。

技术关键词

大语言模型生成训练数据计算机节点生成方法生成训练样本关系生成答案处理器采样模块生成装置存储模块可读存储介质存储器逻辑低成本电子设备

一种训练数据的生成方法、装置、存储介质及设备

站点导航

APP 下载