摘要
本发明涉及一种基于token训练限定大语言模型的数据批量生成方法,能够使得用户可以比较灵活地配置要生成的数据项需求,包括各个数据项的类型、长度、范围、是否允许重复和备注等信息,可以根据用户描述的需求自动构建AI大语言模型可理解的文本交互内容,自动批量生成模拟测试数据。通过面向AI大语言模型的数据生成交互格式,在生成数据过程中增加了二次数据检查能力,可以有效提升AI大语言模型数据生成质量。解决了AI大语言模型token长度限制的问题,可以一次性生成数百万条以上的数据。提高测试数据的生成效率,避免耽搁时间,同时能够解决数据生成中存在的对话与断点续传问题,确保每次交互生成的数据是有序且符合要求。
技术关键词
数据项
大语言模型
检查规则
生成方法
批量
格式
数据生成设备
文本
校验规则
计算机可读指令
生成测试数据
生成装置
布隆过滤器
标志
数据存储模块
交互内容
参数
校验模块
存储器
系统为您推荐了相关专利信息
语句生成方法
结构化查询语言
查询关键词
数据
语句生成系统
图像生成方法
图像特征数据
生成对抗网络
场景
基础