摘要
本公开提供了一种基于大模型的训练数据生成方法、模型训练方法及装置,涉及自然语言处理、大模型、智能搜索、知识图谱等人工智能技术领域,可应用于知识问答等场景。该方法包括:基于历史操作数据,获取三元组数据,并从其中筛选出回答错误的三元组数据作为待修正三元组数据;基于大模型的迭代反思对待修正三元组数据中的问题进行改写,并基于改写后的问题和大模型生成修正后的检索片段;基于改写后的问题和修正后的检索片段,采用大模型生成改写后的问题对应的更正答案;基于改写后的问题、修正后的检索片段和更正答案,对待修正三元组数据进行更新,得到检索增强生成RAG训练数据。本公开可以提升训练数据质量和生成效率。
技术关键词
答案
三元组
训练数据生成方法
问答模型训练方法
指标
模块
数据生成装置
模板
人工智能技术
格式
计算机程序产品
训练装置
处理器通信
自然语言
指令
系统为您推荐了相关专利信息
实时信息
煤质在线检测方法
多通道
煤质在线检测系统
时间段
视觉问答模型
图像问答方法
文本
图像压缩
图像块