语料合成方法、大语言模型的训练方法及相关产品

AITNT
正文
推荐专利
语料合成方法、大语言模型的训练方法及相关产品
申请号:CN202510390507
申请日期:2025-03-31
公开号:CN120297286A
公开日期:2025-07-11
类型:发明专利
摘要
本说明书实施例公开了一种语料合成方法、大语言模型的训练方法及相关产品。所述语料合成方法包括:将原始语料作为根节点,对根节点进行逐层扩展,得到n级子节点;第i‑1级子节点表示通过大语言模型,对第i‑1级子节点的父节点执行目标处理任务得到的一种任务处理结果,第i级子节点表示通过大语言模型,对第i级子节点的父节点执行目标处理任务的逆操作得到的一种候选语料,1<i≤n;基于第n级子节点与根节点之间的相似度,从第n级子节点中确定第一节点;基于第一节点生成合成语料。由此得到的合成语料能够模拟原始语料的分布和复杂性,帮助解决原始语料存在的问题,进一步与原始语料一起用于大语言模型的训练,有助于提高模型训练效果。
技术关键词
节点 大语言模型 训练语料集 标签 计算机程序产品 分词 电子设备 可读存储介质 处理器 扩展模块 训练装置 指令 数值 存储器 参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号