基于大模型与RAG的训练数据集构建方法、装置及相关组件

AITNT
正文
推荐专利
基于大模型与RAG的训练数据集构建方法、装置及相关组件
申请号:CN202510261877
申请日期:2025-03-06
公开号:CN120196715A
公开日期:2025-06-24
类型:发明专利
摘要
本发明公开了基于大模型与RAG的训练数据集构建方法、装置及相关组件,方法包括:获取输入指令信息;对输入指令信息进行提示词工程化,得到工程指令信息;对工程指令信息进行解析并提取出任务关键词;将任务关键词输入至大语言模型进行泛化处理,得到泛化指令信息;将泛化指令信息返回给用户并根据用户的反馈信息进行多轮补充和修正,得到最终指令信息;对最终指令信息进行分片和向量化处理,得到向量信息;通过向量数据库对向量信息进行检索匹配,得到匹配信息;根据匹配信息从向量数据库进行筛选,得到训练数据集。本发明通过利用RAG的检索能力召回目标知识,然后利用大语言模型和工程化处理生成数据集,提升了构建速度和准确性,还降低了成本。
技术关键词
指令 关键词 分片 图片 分布式搜索 节点 生成数据集 处理器 可读存储介质 大语言模型 贪心算法 标签 文本 解析单元 图文 计算机设备 存储器
系统为您推荐了相关专利信息
1
一种桌面式美容仪及控制方法
桌面式 摄像头模块 补光组件 人脸 美容仪
2
基于大语言模型的时序知识图谱补全方法
大语言模型 知识图谱补全方法 文本 时序 序列
3
一种设备故障处理方法及电子设备
多模态数据融合 梯度提升决策树 图谱 长短期记忆网络 电子设备
4
多区块链负载均衡方法、网关和建筑施工数据管理体系
负载均衡方法 节点 区块链系统 负载均衡模块 资源重分配
5
基于GEE平台的水体判识提取方法、系统及存储介质
遥感影像数据 时序遥感数据 空间分布特征 平台 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号