使用大语言模型的合成数据生成

AITNT
正文
推荐专利
使用大语言模型的合成数据生成
申请号:CN202411576514
申请日期:2024-11-06
公开号:CN119962662A
公开日期:2025-05-09
类型:发明专利
摘要
本公开涉及使用大语言模型的合成数据生成。在各个示例中,可以使用包括对应语言模型(例如,自回归LLM)的问题和答案生成模型来生成合成问题‑答案(QA)对。可以使用表示特定知识库的文本数据储存库来通过将来自储存库的文本数据划分为表示上下文的文本单元(例如,段落)来获取合成QA对。对于每个文本单元,问题生成模型可以被提示以从该文本单元生成合成问题,并且答案生成模型可以被提示以生成对合成问题的合成答案。可以使用文本蕴涵和/或人工评估来过滤掉可能由于幻觉产生的低质量、不正确和/或无效的QA对。因此,合成QA对可以用作和/或可以用于生成一个或更多个机器学习模型的训练数据。
技术关键词
答案 处理单元 虚拟现实内容 大语言模型 文本 协作内容 机器学习模型 感知系统 数字孪生 处理器 数据中心 数据储存库 控制系统 基础 序列 机器人 资产 参数
系统为您推荐了相关专利信息
1
数据处理方法和装置、电子设备、计算机可读存储介质
教学 数据处理方法 分类子模型 效能 训练样本集
2
基于CANN架构的声纹验证系统
声纹验证系统 时域特征 采样率 音频输出单元 正则化策略
3
基于多模态数据融合与联合注意力机制的员工画像生成方法
画像生成方法 联合注意力机制 员工 多模态数据融合 神经网络模型
4
虚拟会议方法、装置和计算机可读存储介质
会议场景 虚拟会议方法 可读存储介质 账户 会议装置
5
基于大语言模型的系统内核模糊测试种子生成方法及系统
种子生成方法 大语言模型 状态转换表 测试场景 生成系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号