摘要
本发明涉及人工技术领域,尤其是指一种基于归因文本的模型训练方法、系统及信息检索方法,包括:在原始数据集中提取相关文档集;根据相关文档集生成包含引用的问答对,与该相关文档集构成一个样本;生成多个样本后,计算每个样本的F1分数,将F1分数低于过滤阈值的样本剔除;从原始数据集中随机选取无关文档,加入过滤后的样本的相关文档集中并打乱顺序,并更改引用,得到噪声增强后的样本;以噪声增强后的样本构建训练集对大语言模型进行监督微调,得到完成训练的大语言模型。本发明无需人工标注,能够自动生成高质量的归因文本训练样本。
技术关键词
模型训练方法
样本
大语言模型
归因
信息检索方法
文本
摘要
构建训练集
模型训练系统
噪声
自然语言
三元组
人工技术
文档分类
关系
过滤模块
实体
标签
答案
系统为您推荐了相关专利信息
保供电系统
设备状态数据
贝叶斯神经网络
预警方法
复合索引结构
图像编辑方法
意图识别方法
模型训练方法
图形用户界面
指令
强化学习模型
商品推荐方法
特征提取模块
历史交互信息
交互历史数据