摘要
本申请关于一种训练数据生成方法、装置、计算机设备、存储介质及产品,涉及机器学习技术领域。该方法包括:获取基于原始文档得到任意一个目标文本段;通过不同提示方式设置的多个大语言模型对目标文本段进行问答对提取,得到目标文本段的多个问答对;在多个问答对中包含问题文本相同的至少两个目标问答对的情况下,基于至少两个目标问答对生成重组问答对;重组问答对中包含问题文本以及重组回答文本;该重组回答文本是基于至少两个目标问答对中的回答文本生成的;基于重组问答对以及多个问答对中的非目标问答对生成训练数据;通过上述方法,可以实现训练数据生成的自动化,提高训练数据的生成效率,并且提高训练数据的数据质量以及全面性。
技术关键词
文本
训练数据生成方法
大语言模型
问答对提取
生成训练数据
计算机设备
列表
分段算法
计算机程序产品
可读存储介质
数据生成装置
机器学习技术
模块
音频
数据格式
处理器
图像