训练数据生成方法、装置、设备、存储介质和程序产品

正文

推荐专利

申请号：CN202411639848

申请日期：2024-11-15

公开号：CN119598188A

公开日期：2025-03-11

类型：发明专利

摘要

本公开实施例涉及一种训练数据生成方法、装置、设备、存储介质和程序产品，涉及数据处理技术、文本生成技术、大模型技术、大语言模型技术领域。该方法包括：获取多个初始训练样本；基于预设切分类别字段对初始训练样本进行字段匹配，确定初始训练样本归属的至少一个第一候选切分类别和候选切分位置；基于各预设切分类别的类别出现概率和样本数据总量，确定预设切分类别的样本数据量；基于样本数据量、预设切分类别和第一候选切分类别的匹配关系，从各第一候选切分类别中确定初始训练样本的目标切分类别；基于目标切分类别对应的候选切分位置对初始训练样本进行文本分割处理，生成目标训练样本。如此，能够缩小生成目标训练样本与真实情况之间的差异，间接提高依靠目标训练样本训练的生成式模型的准确度。

技术关键词

训练数据生成方法字段样本分段关键字文本生成技术计算机程序产品数据生成装置大语言模型数据处理技术处理器编辑总量匹配模块关系可读存储介质指令存储器

系统为您推荐了相关专利信息

基于多机构协同学习的风险评估方法及系统

风险评估方法风险评估模型摘要数据分阶段

一种基于改进YOLOv8n的煤流异物及煤矸石识别方法

煤矸石识别方法标签类别网络作业场景样本

mRNA序列核糖体占有率的预测方法、模型训练方法及相关装置

序列注意力机制样本多模态数据库编码器

一种针对历史线下门店录入数据的清洗及去重方法

数据分析工具线下格式智能决策模型文本处理技术

一种基于交叉注意力机制的HLA和TCR分子抗原结合特异性预测算法

交叉注意力机制肿瘤抗原注意力编码器 HLAI类分子关键氨基酸位点

训练数据生成方法、装置、设备、存储介质和程序产品

站点导航

APP 下载