训练数据生成方法、装置、计算机设备、存储介质及产品

正文

推荐专利

申请号：CN202411829513

申请日期：2024-12-12

公开号：CN119782813A

公开日期：2025-04-08

类型：发明专利

摘要

本申请关于一种训练数据生成方法、装置、计算机设备、存储介质及产品，涉及机器学习技术领域。该方法包括：获取基于原始文档得到任意一个目标文本段；通过不同提示方式设置的多个大语言模型对目标文本段进行问答对提取，得到目标文本段的多个问答对；在多个问答对中包含问题文本相同的至少两个目标问答对的情况下，基于至少两个目标问答对生成重组问答对；重组问答对中包含问题文本以及重组回答文本；该重组回答文本是基于至少两个目标问答对中的回答文本生成的；基于重组问答对以及多个问答对中的非目标问答对生成训练数据；通过上述方法，可以实现训练数据生成的自动化，提高训练数据的生成效率，并且提高训练数据的数据质量以及全面性。

技术关键词

文本训练数据生成方法大语言模型问答对提取生成训练数据计算机设备列表分段算法计算机程序产品可读存储介质数据生成装置机器学习技术模块音频数据格式处理器图像

训练数据生成方法、装置、计算机设备、存储介质及产品

站点导航

APP 下载