一种提高向量检索性能的文本数据增强方法

AITNT
正文
推荐专利
一种提高向量检索性能的文本数据增强方法
申请号:CN202510139067
申请日期:2025-02-08
公开号:CN119961436B
公开日期:2025-08-26
类型:发明专利
摘要
本发明提供了一种提高向量检索性能的文本数据增强方法,属于计算机数据分析领域。该方法首先使用大语言模型的提示模板对长文本数据进行压缩处理,将其分解为若干条短文本;在训练过程中,这些短文本将替换原来的长文本被用作训练数据,从而节约单条信息占用的显存大小;为应对文本长度缩短可能导致的表示能力下降问题,本发明通过组合来源于同一长文本的多条短文本构建出指引向量,并将指引向量作为辅助信息指导单个短文本的编码过程。通过这种方式,本发明能够有效地减少文本缩短对模型表示能力的不利影响,从而在使用更短的单条信息的前提下,提升模型的训练效果和泛化能力。
技术关键词
文本 大语言模型 数据 预训练模型 格式 训练集 长度缩短 语义 指标 关系 标签 检查点 超参数 模板 编码器 聚类 计算机 标记 指令
系统为您推荐了相关专利信息
1
低空无人机送货系统的多路径优化方法
多路径优化方法 低空无人机 送货系统 无人机飞行数据 送货无人机
2
一种短期电力负荷预测方法及系统
电力负荷预测模型 短期电力负荷预测方法 粒子 短期电力负荷预测系统 表达式
3
一种基于视频和被动声学的企鹅监测方法及装置
发声 音频采集器 被动声学 视频采集器 坐标
4
基于通信大数据AI时间序列容量预测的动态阈值告警方法及系统
动态阈值告警方法 通信大数据 性能管理系统 配置页面 ARIMA模型
5
一种基于GIS-大数据的大气环境管控分区划定方法与系统
卫星遥感数据 划定方法 生态敏感区 气象 工业污染源
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号