摘要
本申请实施例提供了一种数据合成方法、模型预训练方法、数据合成装置、计算机可读存储介质以及电子设备,涉及人工智能技术领域。该方法包括:将目标预训练模型对应的目标任务进行拆分,得到多个子任务;根据种子数据集中的种子数据,确定提示词,其中,种子数据集中数据为从多种渠道收集的关于目标任务的数据,提示词为子任务对应的提示词或者为目标任务对应的提示词,提示词的样式包括多种;将提示词输入大语言模型,其中,该大语言模型为经过训练的模型,且该模型输出的生成数据对应于上述提示词;根据上述生成数据,确定关于目标任务的合成数据。本申请实施例能够提供大规模且高质量的合成数据,有利于满足预训练对大规模高质量数据的需求。
技术关键词
数据
大语言模型
种子
预训练模型
预训练方法
纠错
存储计算机程序
样式
可读存储介质
人工智能技术
渠道
电子设备
知识点
模块
存储器
处理器
话题
答案
风格
系统为您推荐了相关专利信息
光伏阵列
识别光伏
数字地表模型
数据
遥感检测技术
多层卷积神经网络
图像金字塔
双边滤波算法
残差模块
直方图均衡化
滤波模块
混合深度学习模型
电池管理系统
融合滤波
驱动电流值