使用大语言模型的合成数据生成

正文

推荐专利

使用大语言模型的合成数据生成

申请号：CN202411576514

申请日期：2024-11-06

公开号：CN119962662A

公开日期：2025-05-09

类型：发明专利

摘要

本公开涉及使用大语言模型的合成数据生成。在各个示例中，可以使用包括对应语言模型(例如，自回归LLM)的问题和答案生成模型来生成合成问题‑答案(QA)对。可以使用表示特定知识库的文本数据储存库来通过将来自储存库的文本数据划分为表示上下文的文本单元(例如，段落)来获取合成QA对。对于每个文本单元，问题生成模型可以被提示以从该文本单元生成合成问题，并且答案生成模型可以被提示以生成对合成问题的合成答案。可以使用文本蕴涵和/或人工评估来过滤掉可能由于幻觉产生的低质量、不正确和/或无效的QA对。因此，合成QA对可以用作和/或可以用于生成一个或更多个机器学习模型的训练数据。

技术关键词

答案处理单元虚拟现实内容大语言模型文本协作内容机器学习模型感知系统数字孪生处理器数据中心数据储存库控制系统基础序列机器人资产参数

系统为您推荐了相关专利信息

数据处理方法和装置、电子设备、计算机可读存储介质

教学数据处理方法分类子模型效能训练样本集

基于CANN架构的声纹验证系统

声纹验证系统时域特征采样率音频输出单元正则化策略

基于多模态数据融合与联合注意力机制的员工画像生成方法

画像生成方法联合注意力机制员工多模态数据融合神经网络模型

虚拟会议方法、装置和计算机可读存储介质

会议场景虚拟会议方法可读存储介质账户会议装置

基于大语言模型的系统内核模糊测试种子生成方法及系统

种子生成方法大语言模型状态转换表测试场景生成系统

使用大语言模型的合成数据生成

站点导航

APP 下载