训练数据生成方法、装置、设备、存储介质和程序产品

AITNT
正文
推荐专利
训练数据生成方法、装置、设备、存储介质和程序产品
申请号:CN202411639848
申请日期:2024-11-15
公开号:CN119598188A
公开日期:2025-03-11
类型:发明专利
摘要
本公开实施例涉及一种训练数据生成方法、装置、设备、存储介质和程序产品,涉及数据处理技术、文本生成技术、大模型技术、大语言模型技术领域。该方法包括:获取多个初始训练样本;基于预设切分类别字段对初始训练样本进行字段匹配,确定初始训练样本归属的至少一个第一候选切分类别和候选切分位置;基于各预设切分类别的类别出现概率和样本数据总量,确定预设切分类别的样本数据量;基于样本数据量、预设切分类别和第一候选切分类别的匹配关系,从各第一候选切分类别中确定初始训练样本的目标切分类别;基于目标切分类别对应的候选切分位置对初始训练样本进行文本分割处理,生成目标训练样本。如此,能够缩小生成目标训练样本与真实情况之间的差异,间接提高依靠目标训练样本训练的生成式模型的准确度。
技术关键词
训练数据生成方法 字段 样本 分段 关键字 文本生成技术 计算机程序产品 数据生成装置 大语言模型 数据处理技术 处理器 编辑 总量 匹配模块 关系 可读存储介质 指令 存储器
系统为您推荐了相关专利信息
1
基于多机构协同学习的风险评估方法及系统
风险评估方法 风险评估模型 摘要 数据 分阶段
2
一种基于改进YOLOv8n的煤流异物及煤矸石识别方法
煤矸石识别方法 标签类别 网络 作业场景 样本
3
mRNA序列核糖体占有率的预测方法、模型训练方法及相关装置
序列 注意力机制 样本 多模态数据库 编码器
4
一种针对历史线下门店录入数据的清洗及去重方法
数据分析工具 线下 格式 智能决策模型 文本处理技术
5
一种基于交叉注意力机制的HLA和TCR分子抗原结合特异性预测算法
交叉注意力机制 肿瘤抗原 注意力编码器 HLAI类分子 关键氨基酸位点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号