数据合成方法、模型预训练方法、装置、介质及设备

正文

推荐专利

申请号：CN202411821931

申请日期：2024-12-11

公开号：CN119862269A

公开日期：2025-04-22

类型：发明专利

摘要

本申请实施例提供了一种数据合成方法、模型预训练方法、数据合成装置、计算机可读存储介质以及电子设备，涉及人工智能技术领域。该方法包括：将目标预训练模型对应的目标任务进行拆分，得到多个子任务；根据种子数据集中的种子数据，确定提示词，其中，种子数据集中数据为从多种渠道收集的关于目标任务的数据，提示词为子任务对应的提示词或者为目标任务对应的提示词，提示词的样式包括多种；将提示词输入大语言模型，其中，该大语言模型为经过训练的模型，且该模型输出的生成数据对应于上述提示词；根据上述生成数据，确定关于目标任务的合成数据。本申请实施例能够提供大规模且高质量的合成数据，有利于满足预训练对大规模高质量数据的需求。

技术关键词

数据大语言模型种子预训练模型预训练方法纠错存储计算机程序样式可读存储介质人工智能技术渠道电子设备知识点模块存储器处理器话题答案风格

系统为您推荐了相关专利信息

基于大数据的企业商旅定制规划方法及系统

意图协同过滤推荐算法大数据客户规划

基于遥感数据识别光伏阵列安装质量的方法

光伏阵列识别光伏数字地表模型数据遥感检测技术

一种基于机器视觉的废钢料堆库存变动检测方法

多层卷积神经网络图像金字塔双边滤波算法残差模块直方图均衡化

一种动力电池SOC估算系统及方法

滤波模块混合深度学习模型电池管理系统融合滤波驱动电流值

一种基于大模型的人物知识图谱复杂问答推理的智能体方法

字符串模糊匹配大语言模型实体图谱答案

数据合成方法、模型预训练方法、装置、介质及设备

站点导航

APP 下载