一种用于多跳问答检索模型的数据增强及训练方法

正文

推荐专利

申请号：CN202411728003

申请日期：2024-11-28

公开号：CN119669755B

公开日期：2025-07-01

类型：发明专利

摘要

本发明公开了一种用于多跳问答检索模型的数据增强及训练方法，包括如下步骤：步骤1、获取一个多跳问答数据集，该数据集由多跳问题及其对应的文档集合组成，文档集合包括第一跳检索文档、第二跳检索文档以及其他相关文档；步骤2、对文档集合中的第一跳文档、第二跳文档进行正例去噪，得到去噪后的文档用作模型训练的新正例，文档其他残余部分作为训练补充负例；步骤3、将得到的数据输入到多跳问答预训练语言模型进行训练。本发明提出了一种基于命题子句的正例去噪策略，通过将命题子句作为中间步骤，显著减少文档段落中与问题无关的信息干扰，从而提高模型对相关信息的捕获精度和效率。这一策略增强了模型在多跳推理任务中的准确性和鲁棒性。

技术关键词

预训练语言模型词嵌入向量超参数样本表达式数据文本段落语义策略鲁棒性矩阵代表定义答案基线数值序列精度关系

系统为您推荐了相关专利信息

基于表象一致对比学习的图像精细化分割方法

分割方法风格像素金字塔池化模块矩阵

电动汽车用户充电需求预测方法、电子设备和存储介质

需求预测方法需求预测模型组合特征向量数据分类特征

基于人工智能的塑胶制品质量检测系统与方法

塑胶制品数据采集速度指数三维模型点云数据采集

一种基于人工智能技术的农业巡检机器人

无人机喷洒农药农业巡检人工智能技术图像识别模块农药颗粒

一种模型训练方法、装置、存储介质及电子设备

预训练模型样本数据模型训练方法参数

一种用于多跳问答检索模型的数据增强及训练方法

站点导航

APP 下载