基于token训练限定大语言模型的数据批量生成方法

AITNT
正文
推荐专利
基于token训练限定大语言模型的数据批量生成方法
申请号:CN202410767410
申请日期:2024-06-14
公开号:CN118331890B
公开日期:2024-08-23
类型:发明专利
摘要
本发明涉及一种基于token训练限定大语言模型的数据批量生成方法,能够使得用户可以比较灵活地配置要生成的数据项需求,包括各个数据项的类型、长度、范围、是否允许重复和备注等信息,可以根据用户描述的需求自动构建AI大语言模型可理解的文本交互内容,自动批量生成模拟测试数据。通过面向AI大语言模型的数据生成交互格式,在生成数据过程中增加了二次数据检查能力,可以有效提升AI大语言模型数据生成质量。解决了AI大语言模型token长度限制的问题,可以一次性生成数百万条以上的数据。提高测试数据的生成效率,避免耽搁时间,同时能够解决数据生成中存在的对话与断点续传问题,确保每次交互生成的数据是有序且符合要求。
技术关键词
数据项 大语言模型 检查规则 生成方法 批量 格式 数据生成设备 文本 校验规则 计算机可读指令 生成测试数据 生成装置 布隆过滤器 标志 数据存储模块 交互内容 参数 校验模块 存储器
系统为您推荐了相关专利信息
1
一种用户标签的确定方法、装置、设备及介质
标签 贝叶斯网络模型 大语言模型 关键词 模块
2
一种三维实景模型的生成方法及装置
三维实景模型 渲染系统 建模算法 生成方法 单体
3
文本转结构化查询语言的语句生成方法、系统、设备
语句生成方法 结构化查询语言 查询关键词 数据 语句生成系统
4
基于AI的图像生成方法、装置、终端及存储介质
图像生成方法 图像特征数据 生成对抗网络 场景 基础
5
一种基于扩散模型的伪装目标生成方法及相关装置
图片 生成方法 变量 处理单元 注意力机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号