一种提高向量检索性能的文本数据增强方法

AITNT
正文
推荐专利
一种提高向量检索性能的文本数据增强方法
申请号:CN202510139067
申请日期:2025-02-08
公开号:CN119961436B
公开日期:2025-08-26
类型:发明专利
摘要
本发明提供了一种提高向量检索性能的文本数据增强方法,属于计算机数据分析领域。该方法首先使用大语言模型的提示模板对长文本数据进行压缩处理,将其分解为若干条短文本;在训练过程中,这些短文本将替换原来的长文本被用作训练数据,从而节约单条信息占用的显存大小;为应对文本长度缩短可能导致的表示能力下降问题,本发明通过组合来源于同一长文本的多条短文本构建出指引向量,并将指引向量作为辅助信息指导单个短文本的编码过程。通过这种方式,本发明能够有效地减少文本缩短对模型表示能力的不利影响,从而在使用更短的单条信息的前提下,提升模型的训练效果和泛化能力。
技术关键词
文本 大语言模型 数据 预训练模型 格式 训练集 长度缩短 语义 指标 关系 标签 检查点 超参数 模板 编码器 聚类 计算机 标记 指令
系统为您推荐了相关专利信息
1
基于人工智能的网络安全增强方法及系统
矩阵 网络节点 状态空间模型 强化学习算法 注意力机制
2
一种智能化网络威胁溯源方法及系统
网络主体 铁路 网络攻击源 威胁溯源方法 网络监管平台
3
碾米机智能控制方法、装置、设备及存储介质
碾米机 仿真模型 碎米 数字孪生系统 砂带
4
一种基于人工智能的老年痴呆病预警、评估及健康管理系统及方法
老年痴呆患者 老年痴呆病 健康管理系统 脑电特征 表情特征
5
浸水互感器的故障检测方法及装置
故障检测方法 实时数据 序列 故障分类模型 故障检测装置
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号