摘要
本申请提供了一种训练数据获取方法、装置、电子设备及可读存储介质,通过将预采集的目标领域的语料划分为若干切片;将各切片输入到预构建的切片筛选器中筛选目标切片;将目标切片输入到预构建的三元组生成器中生成三元组;三元组由切片、以及与切片相应的问句和答句组成;将三元组输入到预构建的三元组筛选器中筛选目标三元组,并将目标三元组作为训练数据。本发明通过切片筛选器、三元组生成器以及三元组筛选器的组合,能够从一个原始语料自动生成一个高质量的三元组,不仅提高了训练数据构建的效率,且保证了准确度。
技术关键词
三元组
切片
训练数据获取方法
大语言模型
种子
训练数据获取装置
筛选器
模板
通信接口
电子设备
可读存储介质
存储器
处理器
计算机
机制
程序