基于大模型与RAG的训练数据集构建方法、装置及相关组件

正文

推荐专利

申请号：CN202510261877

申请日期：2025-03-06

公开号：CN120196715A

公开日期：2025-06-24

类型：发明专利

摘要

本发明公开了基于大模型与RAG的训练数据集构建方法、装置及相关组件，方法包括：获取输入指令信息；对输入指令信息进行提示词工程化，得到工程指令信息；对工程指令信息进行解析并提取出任务关键词；将任务关键词输入至大语言模型进行泛化处理，得到泛化指令信息；将泛化指令信息返回给用户并根据用户的反馈信息进行多轮补充和修正，得到最终指令信息；对最终指令信息进行分片和向量化处理，得到向量信息；通过向量数据库对向量信息进行检索匹配，得到匹配信息；根据匹配信息从向量数据库进行筛选，得到训练数据集。本发明通过利用RAG的检索能力召回目标知识，然后利用大语言模型和工程化处理生成数据集，提升了构建速度和准确性，还降低了成本。

技术关键词

指令关键词分片图片分布式搜索节点生成数据集处理器可读存储介质大语言模型贪心算法标签文本解析单元图文计算机设备存储器

系统为您推荐了相关专利信息

一种桌面式美容仪及控制方法

桌面式摄像头模块补光组件人脸美容仪

基于大语言模型的时序知识图谱补全方法

大语言模型知识图谱补全方法文本时序序列

一种设备故障处理方法及电子设备

多模态数据融合梯度提升决策树图谱长短期记忆网络电子设备

多区块链负载均衡方法、网关和建筑施工数据管理体系

负载均衡方法节点区块链系统负载均衡模块资源重分配

基于GEE平台的水体判识提取方法、系统及存储介质

遥感影像数据时序遥感数据空间分布特征平台样本

基于大模型与RAG的训练数据集构建方法、装置及相关组件

站点导航

APP 下载