基于token训练限定大语言模型的数据批量生成方法

正文

推荐专利

申请号：CN202410767410

申请日期：2024-06-14

公开号：CN118331890B

公开日期：2024-08-23

类型：发明专利

摘要

本发明涉及一种基于token训练限定大语言模型的数据批量生成方法，能够使得用户可以比较灵活地配置要生成的数据项需求，包括各个数据项的类型、长度、范围、是否允许重复和备注等信息，可以根据用户描述的需求自动构建AI大语言模型可理解的文本交互内容，自动批量生成模拟测试数据。通过面向AI大语言模型的数据生成交互格式，在生成数据过程中增加了二次数据检查能力，可以有效提升AI大语言模型数据生成质量。解决了AI大语言模型token长度限制的问题，可以一次性生成数百万条以上的数据。提高测试数据的生成效率，避免耽搁时间，同时能够解决数据生成中存在的对话与断点续传问题，确保每次交互生成的数据是有序且符合要求。

技术关键词

数据项大语言模型检查规则生成方法批量格式数据生成设备文本校验规则计算机可读指令生成测试数据生成装置布隆过滤器标志数据存储模块交互内容参数校验模块存储器

系统为您推荐了相关专利信息

一种用户标签的确定方法、装置、设备及介质

标签贝叶斯网络模型大语言模型关键词模块

一种三维实景模型的生成方法及装置

三维实景模型渲染系统建模算法生成方法单体

文本转结构化查询语言的语句生成方法、系统、设备

语句生成方法结构化查询语言查询关键词数据语句生成系统

基于AI的图像生成方法、装置、终端及存储介质

图像生成方法图像特征数据生成对抗网络场景基础

一种基于扩散模型的伪装目标生成方法及相关装置

图片生成方法变量处理单元注意力机制

基于token训练限定大语言模型的数据批量生成方法

站点导航

APP 下载