一种用于多跳问答检索模型的数据增强及训练方法

AITNT
正文
推荐专利
一种用于多跳问答检索模型的数据增强及训练方法
申请号:CN202411728003
申请日期:2024-11-28
公开号:CN119669755B
公开日期:2025-07-01
类型:发明专利
摘要
本发明公开了一种用于多跳问答检索模型的数据增强及训练方法,包括如下步骤:步骤1、获取一个多跳问答数据集,该数据集由多跳问题及其对应的文档集合组成,文档集合包括第一跳检索文档、第二跳检索文档以及其他相关文档;步骤2、对文档集合中的第一跳文档、第二跳文档进行正例去噪,得到去噪后的文档用作模型训练的新正例,文档其他残余部分作为训练补充负例;步骤3、将得到的数据输入到多跳问答预训练语言模型进行训练。本发明提出了一种基于命题子句的正例去噪策略,通过将命题子句作为中间步骤,显著减少文档段落中与问题无关的信息干扰,从而提高模型对相关信息的捕获精度和效率。这一策略增强了模型在多跳推理任务中的准确性和鲁棒性。
技术关键词
预训练语言模型 词嵌入向量 超参数 样本 表达式 数据 文本段落 语义 策略 鲁棒性 矩阵 代表 定义 答案 基线 数值 序列 精度 关系
系统为您推荐了相关专利信息
1
基于表象一致对比学习的图像精细化分割方法
分割方法 风格 像素 金字塔池化模块 矩阵
2
电动汽车用户充电需求预测方法、电子设备和存储介质
需求预测方法 需求预测模型 组合特征向量 数据 分类特征
3
基于人工智能的塑胶制品质量检测系统与方法
塑胶制品 数据采集速度 指数 三维模型 点云数据采集
4
一种基于人工智能技术的农业巡检机器人
无人机喷洒农药 农业巡检 人工智能技术 图像识别模块 农药颗粒
5
一种模型训练方法、装置、存储介质及电子设备
预训练模型 样本 数据 模型训练方法 参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号