摘要
本发明公开了基于大模型与RAG的训练数据集构建方法、装置及相关组件,方法包括:获取输入指令信息;对输入指令信息进行提示词工程化,得到工程指令信息;对工程指令信息进行解析并提取出任务关键词;将任务关键词输入至大语言模型进行泛化处理,得到泛化指令信息;将泛化指令信息返回给用户并根据用户的反馈信息进行多轮补充和修正,得到最终指令信息;对最终指令信息进行分片和向量化处理,得到向量信息;通过向量数据库对向量信息进行检索匹配,得到匹配信息;根据匹配信息从向量数据库进行筛选,得到训练数据集。本发明通过利用RAG的检索能力召回目标知识,然后利用大语言模型和工程化处理生成数据集,提升了构建速度和准确性,还降低了成本。
技术关键词
指令
关键词
分片
图片
分布式搜索
节点
生成数据集
处理器
可读存储介质
大语言模型
贪心算法
标签
文本
解析单元
图文
计算机设备
存储器
系统为您推荐了相关专利信息
多模态数据融合
梯度提升决策树
图谱
长短期记忆网络
电子设备
负载均衡方法
节点
区块链系统
负载均衡模块
资源重分配
遥感影像数据
时序遥感数据
空间分布特征
平台
样本