一种基于检索增强生成的文本微调数据集构建方法、系统和介质

AITNT
正文
推荐专利
一种基于检索增强生成的文本微调数据集构建方法、系统和介质
申请号:CN202510108961
申请日期:2025-01-23
公开号:CN119988975A
公开日期:2025-05-13
类型:发明专利
摘要
本发明公开了一种基于检索增强生成的文本微调数据集构建方法、系统和介质,方法包括收集文本数据并对文本数据预处理形成第一数据,第一数据形成第一数据集;第一数据集中每个第一数据生成至少一个数据问题,数据问题形成第二数据集;第一数据集和第二数据集通过向量模型构建索引向量库,并通过相似度检索查找数据问题对应的第一数据;完善每个数据问题对应的第一数据,完善后的第一数据和对应的数据问题形成数据对,数据对形成第三数据集;对第三数据集中的数据对进行过滤和修正,形成第四数据集;对第四数据集进行聚类,形成第五数据集;对第五数据集进行核验,形成文本微调数据集。结合检索增强生成和对话式大语言模型,构建文本微调数据集。
技术关键词
数据集构建方法 文本 数据构建方法 层次聚类算法 数据集构建系统 意图类别 索引 核心 可读存储介质 大语言模型 语义 自然语言 频率 程序 格式 计算机
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号