一种提高向量检索性能的文本数据增强方法

正文

推荐专利

一种提高向量检索性能的文本数据增强方法

申请号：CN202510139067

申请日期：2025-02-08

公开号：CN119961436B

公开日期：2025-08-26

类型：发明专利

摘要

本发明提供了一种提高向量检索性能的文本数据增强方法，属于计算机数据分析领域。该方法首先使用大语言模型的提示模板对长文本数据进行压缩处理，将其分解为若干条短文本；在训练过程中，这些短文本将替换原来的长文本被用作训练数据，从而节约单条信息占用的显存大小；为应对文本长度缩短可能导致的表示能力下降问题，本发明通过组合来源于同一长文本的多条短文本构建出指引向量，并将指引向量作为辅助信息指导单个短文本的编码过程。通过这种方式，本发明能够有效地减少文本缩短对模型表示能力的不利影响，从而在使用更短的单条信息的前提下，提升模型的训练效果和泛化能力。

技术关键词

文本大语言模型数据预训练模型格式训练集长度缩短语义指标关系标签检查点超参数模板编码器聚类计算机标记指令

系统为您推荐了相关专利信息

基于人工智能的网络安全增强方法及系统

矩阵网络节点状态空间模型强化学习算法注意力机制

一种智能化网络威胁溯源方法及系统

网络主体铁路网络攻击源威胁溯源方法网络监管平台

碾米机智能控制方法、装置、设备及存储介质

碾米机仿真模型碎米数字孪生系统砂带

一种基于人工智能的老年痴呆病预警、评估及健康管理系统及方法

老年痴呆患者老年痴呆病健康管理系统脑电特征表情特征

浸水互感器的故障检测方法及装置

故障检测方法实时数据序列故障分类模型故障检测装置

一种提高向量检索性能的文本数据增强方法

站点导航

APP 下载